HC大数据产品技术白皮书
HC大数据产品技术白皮书
1/23
HC大数据产品技术白皮书
H3C大数据产品技术白皮书
杭州华三通讯技术有限公司
2020年4月
目
录Hadoop储存非构造化/半构造化数据和低价值密度构造化数据。计算结果都存到数据库房,数
据库房中的数据可直接用于剖析和展现。数据库房是面向主题的、集成的、稳固的且随时间不停变化的数据会合,用以支持经营管理中的决议拟订过程。
第四部分数据服务,包含:机器学习、数据发掘、数据检
索、数据可视化、即席剖析、SQL和API,为应用层供给服务和中间件调用。
数据办理
关于大数据管理平台,应当成立一套标准化、规范化的数据处
理流程,比如:怎样收集内部和外面数据、构造化和非构造化
数据;怎样冲洗收集来的脏数据和无效数据;怎样对不一样根源
的数据进行打通;怎样对非构造化的数据进行构造化加工;如
安在构造化数据的基础长进行商业建模和数据发掘等等。 大数
据管理层在一条数据总线上建立了一条完好的大数据办理流
HC大数据产品技术白皮书
HC大数据产品技术白皮书
5/23
HC大数据产品技术白皮书
水线。这条流水线从数据的收集、冲洗到加工办理,把原始杂
HC大数据产品技术白皮书
HC大数据产品技术白皮书
23/23
HC大数据产品技术白皮书
乱无章的数据加工成构造化的数据组件, 供上层的大数据应用
来拼装调用,让公司拥有创立数据财产的能力。
数据分层
ODS层:数据根源于各生产系统,经过 ETL工具对接口文
件数据进行编码替代和数据冲洗变换,不做关系操作。未
来也可用于准及时数据查问。
轻度汇总层:主题域内部鉴于明细层数据,进行多维度的、用户级的汇总
明细数据层:主题域内部进行拆分、关系。是对ODS操作型数据依据主题域区分规则进行的拆分及归并。
信息子层:报表数据、多维数据、指标库等数据根源于汇总层。汇总层:主题域之间进行关系、汇总计算。汇总数据服务于信息子层,目的是为了节俭信息子层数据计算成本和计算时间。
应用层:应用系统的私有数据,应用的业务数据。精美化营销做为大数据平台的一个上层应用,由大数据平台供给
HC大数据产品技术白皮书
HC大数据产品技术白皮书
7/23
HC大数据产品技术白皮书
数据支撑。
先进的混淆计算架构
采纳Hadoop和MPP交融技术架构,对半构造化和非构造化数据支持并行计算和低成本储存,供给低时延、高并发的查问和
剖析功能;对构造化数据采纳MPP散布式列储存,支持散布式计算、智能索引等功能,实现高性能构造化数据剖析办理。
集成MapReduce、Spark、Storm、Tez等多种计算框架,利用
YARN资源管理做一致管理,可在同一份数据集上运转多种计算。离线计算、内存计算和流式计算并存,能知足高吞吐、大数据量和低时延及时办理等多方面的数据计算要求。
高性价比的散布式集群
鉴于x86服务器当地的计算与储存资源,计算集群能够动向调整,从数台到数千台之间弹性扩展,按需建立应用,减少整体成本;同时,在设计时充足考虑了硬件设施的不行靠要素,在软件层面供给计算和储存的高靠谱保证,具备较强的容错
HC大数据产品技术白皮书
HC大数据产品技术白皮书
8/23
HC大数据产品技术白皮书
性。
云化ETL
将不一样业务系统中分别、凌乱、标准不一致的各样源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、公司生产系统等各样数据源中提取数据。各种数据经过抽取、冲洗和转变后,实现多对多地加载到包含但不限于大数据集群和各种关系型数据库中。该过程由一个一致的操作接口封装,经过无代码的可视化配置后,可实现自动化地、散布式地履行整个ETL作业流程。
数据分层和分级储存
? 把数据依据不一样阶段分为 ODS(OperationalDataStore) 数
据、轻度汇总数据、信息子层数据和应用数据,分别储存在Hadoop平台、MPP散布式数据库和数据库房,知足不一样阶段的计算需求;依据在线数据、历史数据等来
HC大数据产品技术白皮书 来自淘豆网m.daumloan.com转载请标明出处.