下载此文档

大数据存储与应用数据流挖掘-精选.ppt

文档分类：IT计算机 | 页数：约64页举报非法文档有奖

1/64

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/64 下载此文档

文档列表 文档介绍

大数据存储与应用数据流挖掘-精选
内容
流数据模型
系统，示例
抽样
过滤
数目统计
矩估计
窗口内计数
衰减窗口
预览
谷歌/淘宝是怎么做下面这些事情的
取样
比例取样
固定size取样
频度统计
统计item发生的次数
最后一个bucket，把其他bucket的size相加
Size就是其中1的个数
再加上最后一个Bucket size的一半
因为最后一个bucket，只是最后一位还在N里，不知道它的头还是不是在N里，所以，只能算一半。
Error bound：50%
假设最后一个bucket的size：2r
我们在统计中算了它的一半“1”，所以，最多产生2r-1的错误
比它size小的bucket有2r-1，2r-2 ，2r-3 ，…，1，每种至少有一个
所以，它们包含的“1”的个数至少为： 2r-1 + 2r-2 + 2r-3 + … + 1 = 2r – 1.
最后一个bucket在窗口中至少还有1个“1”，所以， “1”的个数至少为2r
所以，最大的错误率：2r-1/ 2r = 1/2 = 50%
扩展
同样size的bucket数目可以是r或r-1个。r > 2
最大Size的bucket，可以有1,…,r个
错误的上界1/(r-1)
实践中，根据需要选择r
应用：窗口内整数的和
把整数的每一个bit作为一个stream
统计每一个stream的1的个数，Ci
求和：
小结
百分比取样
按feature（用户）取样
固定Size取样
滑动窗取样
估计1的个数
求整数和
过滤
Bloom filter（布隆过滤器）
Bloom filter
Bloom是一个人
从stream中选择符合特定条件的元素
例1：垃圾邮件检查
白名单
例2：Google Alert
Pub-Sub系统，每个人可以设定订阅的关键词
明显的方法
建立Hash表，查询，命中
大数据下，filter太多，数据太多，怎么办？
包括10 billion 个白名单
初始化
白名单中包括s个允许的key值
s = 1 billion
n个检查位，n >> s，初始化为0
把这s个白名字Hash到1,…,n上
对应的bit位设1
最后，n中大约有s个“1”
事实上小于s个，因为会重合。
到底有几个1？
一个白名字，被均匀地撒在n个比特上
撒上概率：1/n
一个比特位，没有被撒上的概率
被1个白名字错过的概率：1 - 1/n
被所有s个白名字都错过的概率
(1-1/n)s = (1-1/n)n(s/n)
近似等于 e-s/n
所以，一个比特位，被撒上的概率
1 – e–s/n
总共，n(1 – e–s/n)个比特位被撒上
值为“1”
检查
来了一个邮件，把发件人地址，hash一下，如果对应的比特位为0，肯定不在白名单里，Reject
不在白名单里，也会被均匀撒在n个比特位上
如果那个比特位碰巧是“1”，就会pass
False positives - 假阳（FP）
Pass：Positive
和n中“1”的比例有关，
n(1 – e–s/n)/n = 1 – e–s/n
所以，可以通过增加n，降低FP概率
s = 109, n = 8×109，概率 1 - e–1/8 = ～ 1/8 = s/n
改进：多个hash函数
初始化
对s中任一元素，用k个独立hash函数，分别撒k次
“1”的个数：
类似前面，只是撒了ks次
n(1 – e–ks/n)
检查
来一封信，用这k个hash检查，全部为“1”才行。
False positive率
混过去一个hash函数，概率(1 – e–ks/n)
混过去全部k个hash检查，概率(1 – e–ks/n)k
K=2，概率 ~ 1/20 << 1/8
改进了性能
K的选择
K不是越大越好
对这个例子，最优的在6的样子。
Bloom Filter总结
只会false positive
不会false negative
错杀概率 = 0
适合预处理
先筛选一些
适合硬件实现
适合并行
Map-reduce
Distinct元素统计
统计出现的不同元素个数
应用
爬网站时，边爬，边检查其网页中不同单词的个数
太多或太少，都表明是一个作弊的网站
统计一个用户，一周内，访问了多少不同的网页
统计淘宝，上周，卖了多少种不同的商品？
明显的方法
建立一个Distinct元素列表（hash表）
进来一个，和列表中已有的元素对照，如果不同，就加入
跟踪列表Size的变化
大数据情况下
存不下
维护成本很高
需要
减少存储要求
减小计算复杂度
Tradeoff：
准确性 <> 实用性
估计
Flajolet-Martin方法

大数据存储与应用数据流挖掘-精选来自淘豆网m.daumloan.com转载请标明出处.