下载此文档

微软大数据解决方案交流.pptx


文档分类:IT计算机 | 页数:约44页 举报非法文档有奖
1/44
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/44 下载此文档
文档列表 文档介绍
微软银行业大数据解决方案交流PresalesArchitect,微软服务部目录大数据分析挑战微软解决方案介绍大数据案例分享数据复杂度:/ 设备社交网络音频/视频日志文件空间& GPS坐标数据数据集市电子政务气候文本/图像大数据就是资本–但究竟什么是大数据?未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”—维基百科8万亿GB2015全球信息量1s数据处理速度85%非结构化数据占比数据价值Volume数据体量大Variety数据类型多Velocity处理速度快Value大数据的挑战大数据的4V特点:Volume,Variety,Velocity,Value传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”------批量分布式并行计算Hadoop海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL海量数据“实时响应”------大数据流计算模型我们希望从大数据获得什么?更高一层数据层面整合企业内外部大数据改变数据分析思维过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。10大数据改变数据分析思维全体数据混杂数据精确数据抽样数据因果关系相关关系采样的目的在于用最少的数据得到最多的信息,但在样本分析过程中不可避免会有一部分信息丢失。在可以获得海量数据的情况下,对全体数据进行挖掘和分析可以获得更多信息。只有15%的数据是结构化且能适用于传统数据化的,接受不精确性能使更多的非结构化数据得到利用。建立在相关关系分析法上基础上的预测是大数据的核心。传统大数据大数据分析不同于传统BI分析传统BI分析批处理大数据分析集群化事务关系型数据库数据仓库分析非结构化流式分析组织多种数据源(MapReduce)•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•支持流式分析11如果业务需求是分析多种来源的数据。。来源:ForresterResearch,2012年6月全球大数据在线调查数据仓库与大数据的整合集成大数据和数据仓库功能以增加运营效率需要利用多种类型数据扩展仓库基础架构通过将很少使用的数据迁移到Hadoop来优化存储、维护和许可成本通过智能处理流数据来降低存储成本通过确定仓库中要填充的数据来改善仓库性能深度分析所需要的结构化、非结构化和流数据源低延迟要求(几小时,而非几周或几个月)级别传统数据仓库In-MotionAnalyticsDataAnalytics,DataOperations&ScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResults传统/关系型数据源非传统/非关系型数据源传统/关系型数据源非传统/非关系型数据源100111STREAMING

微软大数据解决方案交流 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数44
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2623466021
  • 文件大小4.32 MB
  • 时间2019-01-23
最近更新