下载此文档

大数据方案介绍.pdf


文档分类:通信/电子 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
: .
对于硬件没用特别要求,平台可以部署在 Amazon 等云服务上,可以部署在实体物理
PC 服务器构成的集群上,也可以部署在基于 OpenStack 等其他虚拟节点上。
大数据平台功能列表
在开源 Hadoop 模块的基础上,本公司的 hadoop 大数据平台对各模块做了整合,从而形成一
word 资料.
个通用的、企业级的数据平台。
系统结构图
平台功能模块
系统管理
系统管理模块提供如下功能:
1. 节点管理,负责集群节点控制,可以增加、停用、启用或者移除节点。
2. 服务管理,对节点上每个服务进行管理,如 HDFS,Yarn,HBase 等,包括停止,启动,
重启。
3. 对象管理,Hive、HBase、HDFS 数据对象的增删改查。
4. 日志审计,操作日志记录了所有改变系统配置的操作,通过日志的查询审计,发现不当
操作,保证系统安全稳定运行。
word 资料.
多租户管理
多租户管理模块提供如下功能:
1. 用户管理,负责用户的增删改查。
2. 角色管理,负责角色的增删改查。
3. 权限管理,负责授权和取消授权。
4. 队列管理,负责 Yarn 队列管理。
5. 资源使用规则管理,负责资源使用规则的增删改查。
系统监控
系统监控提供如下功能:
1. 集群监控,显示集群 cpu、内存、网络、IO 使用情况。
2. 节点监控,显示节点上每个组件服务的状态及运行情况;显示节点 cpu、内存、网络、
IO 使用情况。
3. 任务监控,监控节点上每个作业的完成情况。
调度管理
Prospector 大数据平台提供所有类型的任务调度管理。Prospector 大数据平台的任务类型
包括:数据集成任务、数据预处理任务和数据分析任务三类。
Prospector 大数据平台可以对所有类型任务实线以下类型调度:
 一次性执行
 定期执行
 条件执行
数据集成 (Data Integrator)
数据集成理模块负责将外部数据源导入到 Prospector 大数据平台,同时也负责将数据分享
到其他的外部数据存储。
睿帆 Data Integrator用于将外部数据源的数据集成到Hadoop大数据平台。Data Integrator
支持三大类数据源:
1. 数据库、NoSQL 系统
2. 文件系统(FTP、HDFS)
3. 消息队列(Kafka、ActiveMQ)
word 资料.
数据库、NoSQL 系统数据源
 DB2
 Oracle
 Teradata
 MySQL
 Netezza
 PostgreSQL
 Sybase IQ
 Vertica
 Greenplum
 Hive
 HBase
文件系统与文件格式
 Apache Log
 CSV/TSV
 HTML/XML
 JSON
 AVRO
 Parquet
 Binary
 Key, Value
 ORC
消息队列数据源
 Kafka
 ActiveMQ
数据治理(Data Governor)
数据治理模块负责对导入到大数据平台中的数据进行处理,对数据进行清洗、转换、过滤、
聚合、脱敏等,将数据转化成有意义的数据供分析人员使用。
数据治理模块同时负责数据质量管理。
word 资料.
数据质量
1. 数据质量评估。提供全方位数据质量评估能力,如数据的重复性、关联性、正确性、完
全性、一致性、合规性等,对数据进行全面体检。
2. 数据质量检核和执行。提供配置化的度量规则和检核方法生成能力,提供检核脚本的定
时调度执行和第三方调度工具的调度执行功能。
3. 数据质量监控。系统提

大数据方案介绍 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cengwaifai1314
  • 文件大小1.07 MB
  • 时间2022-06-14