——文献阅读情况一大数据二文献阅读三个人想法20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。大数据时代的背景4体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长?占总数据量的80~90%?比结构化数据增长快10倍到50倍?是传统数据仓库的10倍到50倍大数据的异构和多样性?很多不同形式(文本、图像、视频、机器数据)?无模式或者模式不明显?不连贯的语法或句义?大量的不相关信息?对未来趋势与模式的可预测分析?深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析?数据输入、处理与丢弃?立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。5?分析技术:?数据处理:自然语言处理技术?统计和分析:A/B test; top N排行榜;地域占比;文本情感分析?数据挖掘:关联规则分析;分类;聚类?模型预测:预测模型;机器学习;建模仿真?大数据技术:?数据采集:ETL工具?数据存取:关系数据库;NoSQL;SQL等?基础架构支持:云存储;分布式文件系统等?计算结果展现:云计算;标签云;关系图等一些相关技术?存储?结构化数据:?海量数据的查询、统计、更新等操作效率低?非结构化数据?图片、视频、word、pdf、ppt等文件存储?不利于检索、查询和存储?半结构化数据?转换为结构化存储?按照非结构化存储?解决方案:?Hadoop(MapReduce技术)?流计算(twitter的storm和yahoo!的S4)大数据的相关技术?ETL?数据众包(CrowdSouring)?结构化、非结构化和半结构化数据?分布式文件系统?关系数据库?非关系数据库(NoSQL)?数据仓库?云计算和云存储?实时流处理?A/B Testing?关联规则分析?分类?聚类?遗传算法?神经网络?预测模型?模式识别?时间序列分析?回归分析?系统仿真?机器学习?优化?空间分析?社会网络分析?自然语言分析?MapReduce?R语言?标签云(Tag Cloud)?聚类图(Clustergram)?空间信息流(Spatial information flow)?热图(Heatmap)7大数据赋予我们洞察未来的能力机遇马云成功预测2008 年经济危机?“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”?通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》大数据的营销案例未卜先知怀孕案例塔吉特:比父亲更早知道女儿怀孕曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。提问:为什么塔吉特能知道这个用户怀孕了?必须有哪几个关键环节A:用户数据收集B:怀孕特征库C:怀孕潜在用户筛选塔吉特在和顾客沟通过程中采用了哪种营销方式A:电子邮件B:直邮C:电话营销D:数据库营销大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。二部分文献网络舆情演化模式一种自适应网络舆情演化建模方法网络舆情传播阶段与模型比较研究基于语义文法的网络舆情精准分析方法研究基于大数据的网络舆情分析方法研究浅谈大数据时代的机遇与挑战基于大数据舆情分析的图书馆信息增值服务大数据分析下的中国社会舆情:总体态势与结构性特征
大数据阅读汇报精品 来自淘豆网m.daumloan.com转载请标明出处.