大数据解决方案段建民:@ ?以下内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料,代码或功能的承诺,、发布和时间安排均由Oracle自行决定。一、大数据特点二、传统DW处理方式的挑战三、Hadoop技术简述四、Oracle面向大数据的集成解决方案一、大数据特点 1. 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”—维基百科 2. 三大特征( 3V ) :数量大(; Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上传 168Tb视频) :时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查询到) :种类和来源多样化(结构化/半结构化/非结构化;关系数据库/数据仓库/互联网网页等) 3. 通常用于分析型的应用场景,如搜索引擎网页处理、用户行为分析、商业智能(BI)等 Oracle 对大数据的理解-4V特征具有4V特性的数据称为大数据 Volume Velocity Variety BLOG Value 101100********** 11010101010111001 010********** ?多结构化数据Variety ?文本/图片/视频/文档等?增长速度很快Velocity ?海量数据的及时有效分析?用户基数庞大/设备数量众多/实时海量/数据指数级别增长?价值密度低Value ?单条数据并无太多价值,但庞大的数据量蕴含巨大财富?巨大的数据量Volume ?集中储存/集中计算已经无法处理巨大的数据量 3亿用户,每天上亿条微博中型城市每月数十亿智能电表数据 2015年全球移动终端产生的数据量6300PB Why Oracle ? Stream | Acquire | Organize Oracle Exadata Oracle Exalytics Volume Variety BLOG Velocity Unstructured Data Value 101100101001 001001101010 101011100101 0********** 二、传统DW数据处理方式的挑战海量数据的出现、数据结构的改变,对数据管理及分析带来挑战传统数据源VS新数据源非结构化半结构化数据结构化数据数据量、复杂的数据种类剧增带来新的挑战更多的多样化数据结构化和非结构化的内外部数据快速增长更多的意外问题能够根据需要以自助方式挖掘数据、添加新数据和构建分析更多的变化和不确定性预定义的模型、信息板和报告无法满足意外业务需求需要革新的技术手段 Hadoop技术 Hadoop几乎成为大数据处理的事实标准?海量数据“分而治之”------批量分布式并行计算Hadoop ?海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL ?海量数据“跨越鸿沟”------大数据超高速装载进数据库 Hadoop 包括两个部分: 1. HDFS (Hadoop分布式文件系统) HadoopDistributed File System 2. MapReduce 的实现三、Hadoop技术简述分布式文件系统 MapReduce编程范式高度可伸缩的数据处理能力 Hadoop 两大核心设计 MapReduce ?Map: 任务分解?Reduce: 结果的汇总 HDFS ?NameNode ?DataNode ?Client
大数据解决方案v1-段建民 来自淘豆网m.daumloan.com转载请标明出处.