下载此文档

HC大数据产品技术白皮书.docx


文档分类:通信/电子 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
集团标准化办公室:[VV986T-J682P28-JP266L8-68PNN]
HC大数据产品技术白皮书
H3C大数据产品技术白皮书
杭州华三通信技术有限公司
2022年7月
目 录
将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。
数据分析挖掘
支持R语言,集成机器学习算法库Mahout和Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。
数据服务接口
提供交互式SQL和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。
可视化运维管理
提供Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显着。
服务分类
服务名称
服务功能说明
系统服务
YARN
一种全新的通用的Hadoop资源管理器,为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapReduce、Spark、Storm等共存。
ZooKeeper
分布式应用程序协调服务,保证集群的一致性。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
Slider
将已存在服务部署在YARN集群上,而不用修改已存在服务。
Oozie
提供Hadoop作业工作流管理功能,可管理MR、Hive、Pig、Sqoop和HDFS 等任务。
Kafka
一种低时延高吞吐量的分布式发布/订阅消息系统,同时满足在线和离线处理海量消息数据派发。
Kerberos
一个基于共享密钥对称加密的安全网络系统,可防止对集群的恶意使用和篡改,保障Hadoop集群的安全可靠。
计算服务
MapReduce
批处理框架,将一个大任务分成多个独立的小任务,最后汇总各个小任务的结果。用户只需关注上层应用的逻辑,完全不用关注底层分布式细节,大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。
Spark
迭代计算框架,基于内存计算。性能比MR快10-100倍,通用性好,支持批处理、流处理、SQL查询、机器学习、图计算等。
Storm
流处理框架,具有效率高、能保证每条消息都能被处理和实践应用很多等优点。
Tez
MapReduce程序性能优化器。将MR程序转化为有向无环图,大大提升性能。
存储服务
HDFS
Hadoop分布式文件系统,具有高容错性,可以部署在廉价的机器上。提供高吞吐量来访问应用程序的数据,适合存储超大数据集。
HBase
分布式、面向列数据库,利用HDFS作为持久化数据存储,使用Zookeeper作为协同服务组件。具有容量巨大、面向列存储和权限控制、稀疏性、高可用和高性能等特点。
数据处理
Sqoop
Hadoop和关系型数据库之间进行批量数据转移的工具。
Flume
一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
Hive
基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,采用HiveQL作为查询语言。将HiveQL转换为MapReduce任务,从而完成海量数据的查询和分析。
Pig
基于Hadoop的数据流处理引擎,将类SQL的数据分析请求转换为Map/Reduce任务。
Mahout
机器学习算法库,3个主要应用场景是协作筛选、集群和分类,可使用MR、Scala、Spark来提交Mahout接口。
数据即服务
提供机器学习Mahout、数据挖掘、数据检索、R语言、交互式SQL(SQL on Hadoop)、可编程API等功能,满足上次应用开发需求。
MPP分布式数据库
H3C MPP
关系型数据库集群,良好的SQL语言支持。高性能、高容错、高可用。
产品功能简介
服务名称
服务功能说明
安装部署
提供定制部署、Zero部署和虚机部署等多种集群部署方式,满足用户不用应用

HC大数据产品技术白皮书 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人Zhou666999
  • 文件大小155 KB
  • 时间2022-07-11
最近更新