大数据平台技术方案1. 大数据平台技术方案 4动静态信息交换 6系统概述 6122 数据采集服务 6数据采集服务配置 7平台认证服务 7动静态数据发布订阅服务 8负载均衡服务 8协议分析转换功能 8128动静态数据分发服务 9129 数据分发服务配置 10大数据存储 10数据仓库工具 10大数据在线存储 11大数据离线存储 16分布式ETL工具 16ETL功能介绍 19实时数据流处理 19152 数据挖掘分析引擎 21大数据在线分析 21大数据离线分析 22大数据可视化管理 25大数据全文检索 26调度与业务监控 27资源与安全 28租户管理 29资源分配 29权限管理 □封装 、勺之处,请联系改正或者删除。、实时性、高性能、低延迟分析、高度容错性、可用性、、易用性,同时也希望具有较低成本;其核心技术包括大规模数据流处理技术以及大规模数据管理、分析技术。系统技术架构采用庖向服务的体系结构(Service-OrientedArchitecture,SOA),遵循分层原则,每一层为上层提供服务。将大数据平台进行逐层解析,从下至上分别是数据接□层、、数据分析层、、。数据接□层:为保证数据接入层的接□灵活性,采用Restful风格接□实现方式Restful有轻量级以及经过HTTP直接传输数据的特性,Web服务的RESTful方法已经成为最常见的方法。同时数据的接入及交换采用Kafka集群和WebService方式,Kafka是一种高吞吐量的分布式发布订阅消息系统,能够满足系统与大数据平台的高并发量数据交换。WebService是一个平台独立的,低耦合的,自包含的、基于可编程的web的应用程序,、,用于开发分布式的互操作的应用程序。文件存储层:为满足大数据的存储要求,文件存储采用HDFS文件系统,Hadoop分布式文件系统(HDFS)是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。数据存储层:根据本工程数据资源设计的需要,数据存储分别采用关系数据库、内存数据库Redis、分布式大数据存储。数据分析层:采用Storm技术完成实时流分析的需求,。能够方便地在一个计算机集群中编写与扩展复杂的实时计。采用MapReduce和Spark实现离线分析。Spark是类HadoopMapReduce的通用并行框架,能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。数据接入层:应用与数据库的交互采用JDBC级Hibernate技术实现。Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的orm框架,hibernate能够自动生成SQL语句,自动执行,使得Java程序员能够随心所欲的使用对象编程思维来操纵数据库。业务控制层:采用当今最流行的轻量级Java开发框架Spring,同时与SpringMVC整合。Spring具有轻量、低侵入式设计、方便解耦,简化开发、AOP编程的支持、方便集成各种优秀框架等优点。表现层:采用EasyUI,Ajax,FreeMarker,JavaScript技术,这些技术能极大提高开发效率,同时能满足工程中各种复杂的前端展现要求。监控层:采用Zookeeper分布式服务框架。主要是用来解决分布式应用中经常遇到的一些数据管理冋题,女[]:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。它的作用主要是用来维护和监控你存储的数据的状态变化。经过监控这些数据状态的变化,从而能够达到基于数据的集群管理。□定义,实现采集各类动态和静态数据,实现与接入平台的数据通信与交换共享。数据采集交换系统根据数据交换的对象和内容的不同,服务对象包括省市级管理机构等。数据交换平台包含一系列的服务,如:数据采集服务、平台认证服务、发布订阅服务等。、各行业业务系统的数据信息,对这些静动态数据进行收集,用以进行后续操作。数据采集模块按照定义的接□规
大数据平台解决方案样本 来自淘豆网m.daumloan.com转载请标明出处.