下载此文档

大数据解决方案v1-段建民.pdf


文档分类:IT计算机 | 页数:约52页 举报非法文档有奖
1/52
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/52 下载此文档
文档列表 文档介绍
大数据解决方案
段建民: @

一、大数据特点
二、传统DW处理方式的挑战
三、Hadoop 技术简述
四、Oracle 面向大数据的集成解决方案

以下内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料, 代码或
功能的承诺, 并且不应该作为制定购买决策的依据. 所描述的有关 Oracle 产品的
任何特性或功能的开发、发布和时间安排均由 Oracle 自行决定。
一、大数据特点
1. 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理
和处理的数据集合”—维基百科
2. 三大特征( 3V )
1. Volume:数量大(;
Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上传
168Tb视频)
2. Velocity:时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查
询到)
3. Variety:种类和来源多样化(结构化/半结构化/非结构化;关系数据
库/数据仓库/互联网网页等)
3. 通常用于分析型的应用场景,如搜索引擎网页处理、用户行为分析、商
业智能(BI)等
Oracle 对大数据的理解-4V特征
具有4V特性的数据称为大数据
•巨大的数据量 Volume
•集中储存/集中计算已经无法处理巨大的数据量


SOCIAL
3亿用户,每天
Volume BLOG 中型城市每月数十
上亿条微博
亿智能电表数据
SMART
METER
•多结构化数据 Variety

Variety •文本/图片/视频/文档等 2015年全球移动终端产生的数据
量6300PB
•增长速度很快 Velocity
101100**********
Velocity 11010101010111001 •海量数据的及时有效分析
010**********
•用户基数庞大/设备数量众多/实时海量/数据指数级别增长
•价值密度低Value
Value

单条数据并无太多价值,但庞大的数据量蕴含巨大财富
Why Oracle ? Oracle Exadata
Volume

101100101001
001001101010
Unstructured 101011100101
Data 0**********
Velocity Value
SOCIAL
BLOG
SMART
METER
Variety
Stream | Acquire | Organize Oracle Exalytics
二、传统DW数据处理方式的挑战
海量数据的出现、数据结构的改变,对数据管理及分析带来挑战
传统数据源 VS 新数据源
非结构化
半结构化
数据
结构化
数据
数据量、复杂的数据种类剧增带来新的挑战
结构化
更多的多样化数据和非结构化的内外部数据快速增长
更多的变化和不确预定义的模型、信息板和报告无法
定性满足意外业务需求
能够根据需要以自助方式挖掘数据、
更多的意外问题添加新数据和构建分析
需要革新的技术手段 Hadoop技术
Hadoop几乎成为大数据处理的事实标准
•海量数据“分而治之”------批量分布式并行计算Hadoop
•海量数据“灵活多变”------实时分布式高吞吐高并发数据
存取处理NoSQL
•海量数据“跨越鸿沟”------大数据超高速装载进数据库

Hadoop 包括两个部分:
1. HDFS
(Hadoop分布式文件系统)
Hadoop Distributed File System
2. MapReduce 的实现
三、Hadoop 技术简述
Hadoop
两大核心设计
分布式文件系统

MapReduce HDFS MapReduce 编程范式


Map: 任务分解 NameNode 高度可伸缩的数据处理能力
Reduce: 结果的汇总DataNode
Client

大数据解决方案v1-段建民 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数52
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xwhan100
  • 文件大小0 KB
  • 时间2014-10-22