大家好
第一页,共29页。
东北大学秦皇岛分校
Northeastern University at Qinhuangdao
位置大数据的价值提取与协同挖掘方法
软件工程课程设计
第二页,共29页。
,共29页。
补充:
信息熵
信息论之父 C. E. Shannon 在 1948 年发表的论文中指出,任何信息都存在冗余,冗余大小与信息中每个符号的出现概率或者说不确定性有关。衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。
不确定性函数f是概率P的单调递降函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即:
第十五页,共29页。
( )
二
设计理论
移动转移性
Jaccard 系数,又叫Jaccard相似性系数,用来比较样本集中的相似性和分散性的一个概率。Jaccard系数等于样本集交集与样本集合集的比值,即J=|A∩B|/|A∪B|。
第十六页,共29页。
( )
二
设计理论
移动期望性
第十七页,共29页。
( )
二
设计理论
移动期望性
第十八页,共29页。
( )
二
设计理论
移动期望性
第十九页,共29页。
( )
二
设计理论
位置大数据建模
第二十页,共29页。
( )
二
设计理论
空间尺度上的降维处理
介数是所有经过 ri 的最短路径数量(,,其核心思想是:
i) 如果网络中大量交通行为会同时选择两个结点 ri和 rj作为其最短路径的传播点,那么这两个结点的重要性是共生关系,记为ζij>,造成了重要性的高估;
ii) 如果对网络中结点 ri 进行摘除后可以发现,原本那些以 ri 为最短路径的链路大部分“取道”结点 rj,说明结点 rj 对结点 ri 具有潜在的替代作用,记为ζij<,从而造成了结点交通重要性的低估.
第二十一页,共29页。
( )
二
设计理论
空间尺度上的降维处理
第二十二页,共29页。
( )
二
设计理论
时间尺度上的降维处理
第二十三页,共29页。
( )
二
设计理论
研究目的:大数据研究中还有一个突出问题,即,数据稀疏性导致的结果失真。群体往往比较喜欢在一些特定场所聚集,,由于缺少采集手段,却又无法获得真实的位置记录.
第二十四页,共29页。
( )
二
设计理论
空间尺度上的协同挖掘
第二十五页,共29页。
( )
二
设计理论
空间尺度上的协同挖掘
第二十六页,共29页。
( )
三
总体模型
第二十七页,共29页。
( )
四
参考文献
[5] Pan G, Qi GD, Wu ZH, Zhang DQ, Li SJ. Land-Use classification using taxi GPS traces. IEEE Trans. on Intelligent Transportation Systems, 2012, 14(1):113−123. [doi: .2209201]
[7] de Montjoye YA, Hidalgo CA, Verleysen M, Blondel UD. Unique in the CROWD: The privacy bounds of human Reports, 2013,3. [doi: ]
[8] Song X, Zhang QS, Sekimoto Y, Horanont
大数据(数据挖掘)以及位置地理信息 来自淘豆网m.daumloan.com转载请标明出处.