Hadoop.ppt


文档分类:IT计算机 | 页数:约45页 举报非法文档有奖
1/45
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/45
文档列表 文档介绍
Hadoop概述
1
背景介绍
1
Hadoop基本概念



目录
大数据处理方案-hadoop
2
总结
3
Hadoop生态系统介绍



2
*
facebook
社交网络

淘宝、ebuy
电子商务

微博、Apps
移动互联

21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。
大数据时代的背景
3
*
GB
TB
PB
EB
ZB
想驾驭这庞大的数据,我们必须了解大数据的特征。
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;
在2011 年,。
而有市场研究机构预测:
到2020 年,整个世界的数据总量将会增长44 倍,(1ZB=10 亿TB)!
1PB = 2^50字节
1EB = 2^60字节
1ZB = 2^70字节
数据大爆炸
4
*
大数据的4V特征
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
5
*
大数据不仅仅是“大”
多大?
至少PB 级
比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值
6
*
大数据的应用
通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景
消费行业
金融服务
食品安全
医疗卫生
军事
交通环保
电子商务
气象
7
*
管理大数据“易”理解大数据“难”
虽然大数据是一个重大问题,真正的问题是让大数据更有意义
目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心
非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等
8
具体案例
9
难点分析
10

Hadoop 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数45
  • 收藏数0 收藏
  • 顶次数0
  • 上传人119060444
  • 文件大小5.46 MB
  • 时间2018-04-28
最近更新