下载此文档

大数据阅读汇报幻灯片.pptx


文档分类:办公文档 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
——
文献阅读情况
一大数据 二文献阅读 三个人想法
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
大数据时代的背景
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
占总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
大数据的4V特征
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
一些相关技术
存储
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop(MapReduce技术)
流计算(twitter的storm和yahoo!的S4)
数据采集
数据储存
数据管理
数据分析与挖掘
大数据赋予我们洞察未来的能力
机遇
马云成功预测2008 年经济危机
“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”
通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。
人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》
大数据的营销案例
未卜先知怀孕案例
塔吉特:比父亲更早知道女儿怀孕
曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。
提问:
为什么塔吉特能知道这个用户怀孕了?必须有哪几个关键环节
A:用户数据收集 B:怀孕特征库 C:怀孕潜在用户筛选
塔吉特在和顾客沟通过程中采用了哪种营销方式
A:电子邮件 B:直邮 C:电话营销 D:数据库营销
大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
二部分文献
网络舆情演化模式
一种自适应网络舆情演化建模方法
网络舆情传播阶段与模型比较研究
基于语义文法的网络舆情精准分析方法研究
基于大数据的网络舆情分析方法研究
浅谈大数据时代的机遇与挑战
基于大数据舆情分析的图书馆信息增值服务
大数据分析下的中国社会舆情:
总体态势与结构性特征

大数据阅读汇报幻灯片 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数19
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yzhfg888
  • 文件大小920 KB
  • 时间2018-01-14
最近更新