**大数据的存贮和处理赵永祥***课程内容?概述?大规模文件系统和Mapreduce?相似项发现?数据流挖掘?链接分析?频繁项集?聚类?Web广告?推荐系统*教材?/~ullman/mmds/?大数据-互联网大规模数据挖掘与分布式处理?./*****第一章数据挖掘的基本概念?1·1 数据挖掘的定义? 数据挖掘的统计限制?1·3 相关知识*数据挖掘的定义?数据挖掘是数据模型的发现过程。?什么是模型?–统什模型:?研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合–机器学习。?将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据***什么是模型??机器学习的长处。当对要在数据中寻找的目标一无所知的时候。flix竞赛。?如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。,***建模的计算方法?数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。?除了统计建模,其它大部分建模方法可分为如下两类–对数据进行简要汇总–从数据中抽取最突出的特征来代替数据并将剩余内容忽略。***数据汇总?pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。?聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。******特征抽取?从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:–频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。–相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤*
大数据存储与处理-概述 来自淘豆网m.daumloan.com转载请标明出处.