大数据解决方案
段建民: @
一、大数据特点
二、传统DW处理方式的挑战
三、Hadoop 技术简述
四、Oracle 面向大数据的集成解决方案
以下内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料, 代码或
功能的承诺, 并且不应该作为制定购买决策的依据. 所描述的有关 Oracle 产品的
任何特性或功能的开发、发布和时间安排均由 Oracle 自行决定。
一、大数据特点
1. 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理
和处理的数据集合”—维基百科
2. 三大特征( 3V )
1. Volume:数量大(;
Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上传
168Tb视频)
2. Velocity:时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查
询到)
3. Variety:种类和来源多样化(结构化/半结构化/非结构化;关系数据
库/数据仓库/互联网网页等)
3. 通常用于分析型的应用场景,如搜索引擎网页处理、用户行为分析、商
业智能(BI)等
Oracle 对大数据的理解-4V特征
具有4V特性的数据称为大数据
•巨大的数据量 Volume
•集中储存/集中计算已经无法处理巨大的数据量
SOCIAL
3亿用户,每天
Volume BLOG 中型城市每月数十
上亿条微博
亿智能电表数据
SMART
METER
•多结构化数据 Variety
Variety •文本/图片/视频/文档等 2015年全球移动终端产生的数据
量6300PB
•增长速度很快 Velocity
101100**********
Velocity 11010101010111001 •海量数据的及时有效分析
010**********
•用户基数庞大/设备数量众多/实时海量/数据指数级别增长
•价值密度低Value
Value
•
单条数据并无太多价值,但庞大的数据量蕴含巨大财富
Why Oracle ? Oracle Exadata
Volume
101100101001
001001101010
Unstructured 101011100101
Data 0**********
Velocity Value
SOCIAL
BLOG
SMART
METER
Variety
Stream | Acquire | Organize Oracle Exalytics
二、传统DW数据处理方式的挑战
海量数据的出现、数据结构的改变,对数据管理及分析带来挑战
传统数据源 VS 新数据源
非结构化
半结构化
数据
结构化
数据
数据量、复杂的数据种类剧增带来新的挑战
结构化
更多的多样化数据和非结构化的内外部数据快速增长
更多的变化和不确预定义的模型、信息板和报告无法
定性满足意外业务需求
能够根据需要以自助方式挖掘数据、
更多的意外问题添加新数据和构建分析
需要革新的技术手段 Hadoop技术
Hadoop几乎成为大数据处理的事实标准
•海量数据“分而治之”------批量分布式并行计算Hadoop
•海量数据“灵活多变”------实时分布式高吞吐高并发数据
存取处理NoSQL
•海量数据“跨越鸿沟”------大数据超高速装载进数据库
Hadoop 包括两个部分:
1. HDFS
(Hadoop分布式文件系统)
Hadoop Distributed File System
2. MapReduce 的实现
三、Hadoop 技术简述
Hadoop
两大核心设计
分布式文件系统
MapReduce HDFS MapReduce 编程范式
Map: 任务分解 NameNode 高度可伸缩的数据处理能力
Reduce: 结果的汇总DataNode
Client
大数据解决方案v1-段建民 来自淘豆网m.daumloan.com转载请标明出处.