大数据成功关键
- - 高效地实现大数据的移动
刘春霞
.
IBM软件部资深信息整合顾问
3
InfoSphere:维护信息供应链
信息治理
治理
质量
安全和隐私
生命周期
标准
事务和协作应用
业务分析应用
外部信息源
分析
整合
管理
多维数据集
流
大数据
主数据
内容
数据
流信息
数据仓库
内容分析
整合和清洗
Thirst for Information
可靠信息移动的速度
敏捷用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)
对分析的需求
两者都需要!
权威性在一个流程框架内内的可靠信息避免信息冗余
需要敏捷和可靠的数据访问
任何数据到大数据
大数据到任何数据
大数据中心
批量数据整合(用于大数据)
任何数据
ETL / ELT
ETL / ELT
ELT
加载获益
利用探索性分析方法
最佳性能/最小批处理窗口和实时流数据
提取获益
从多种来源提取数据:机器数据、社交数据、多结构
成熟的整合工具,更高的生产力
数据中心获益
以大数据形式产生和分析的数据–从不清除
用于完成大数据运行时内的工作的图形工具
将现有的企业数据引入一个探索性分析平台
将社交数据和机器数据引入一个企业数据仓库系统
自动化一个低成本数据暂存区域的工具
对数据的推送处理(不是其他方法)
BigInsights
Hadoop
InfoSphere BigInsights 的批量数据整合
集市
数据仓库
仓库
集市
DataStage
数据库
Files
Files
文件
并行
写入
DataStage
子集
并行
读取
细节和
摘要
与大数据来源交换信息
将企业信息转移到大数据来源,使它可包含在分析中
获取 Hadoop 的分析结果,并将它们应用于其他 IT 解决方案
并行性和规模
对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性
作业血统与大洞察来源/目标步骤
使用信息服务器中的扩展性功能
大数据文件组件
使用 BDFS 作为来源
BDFS 引入了新来源选项 Namenode Cluster Host 和 Port
BDFS 可并行读取文件模式
BDFS 可使用 Readers 选项并行读取单个文件
BDFS 数据流程图
名称节点
文件请求
BDFS
数据节点
BDFS
数据
数据
PX
PX
BDFS 使用多个读取器流程并行化 HDFS 读取
InfoSphere DataStage
使用 BDFS 作为目标
BDFS 引入了新的目标选项 Namenode Cluster Host 和 Port
BDFS 通常写入单个文件
BDFS 能够并行写入多个文件
刘春霞:大数据成功关键 来自淘豆网m.daumloan.com转载请标明出处.