下载此文档

曹彬彬 证券行业大数据应用探讨.pdf


文档分类:研究报告 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
该【曹彬彬 证券行业大数据应用探讨 】是由【彩屏】上传分享,文档一共【26】页,该文档可以免费在线阅读,需要了解更多关于【曹彬彬 证券行业大数据应用探讨 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
ArchSummit全球架构师峰会
深圳站2015
证券行业大数据应用探讨:.
大数据时代:买票上车还是继续行走?
:.
我们面临的挑戓不困难
:.
大数据技术带来的管理挑戓
•数据安全
–领导要求:丌保证安全,丌接入数据。
–证券行业的特点,导致对数据权限的要求非常细致。
•数据治理
–数据质量问题没有随大数据的引入而自劢解决,反而更加严重和突出。
–传统的数据治理更多着眼于结构化数据,对于半结构化数据、非结构化数据的数
据治理是大数据环境下的管理和技术上的难点。
•数据安全和数据治理强相关,需要统一考虑和应对管理挑戓。:.
业务分析人员的新角色和面临的挑戓
•大数据环境下,自劣数据分析、数据挖掘的能力使得业务分析人员丌再只作为需求提
出方,而是成为数据分析流程中的枢纽。
•面临的挑戓
–业务元数据的重要程度明显提升,必须提供业务分析人员易懂、易用的业务元数
据,并不分析工具完全集成。
–私有数据和公共数据的整合在数据安全方面面临较大挑戓,需要支持业务分析人
员使用私有数据,并不公共数据进行整合,以便获叏所需分析结果。
–新工具,以及简单编程能力需要一定时间进行学习和掌握。虽然工具可以尽量简
化,但对业务分析人员仍有一定技术知识的需求。
–数据分析的协同需要有技术平台支持,数据权限的限制、岗位技能和数据知识的
限制等导致数据分析需要更好的协同。:.
对策
•数据安全
–建设统一的权限体系,从底层重写权限管理机制。
–建设数据沙箱,实现数据脱敏。
–强制使用虚拟桌面,严格限制数据下载。
–技术元数据管理体系重写,和数据管控系统打通。
•数据治理
–推劢数据治理管理体系建设
–同步建设数据管控系统。
–实现元数据驱劢。
•数据工厂
–为业务人员提供支持自劣分析、自劣挖掘的技术平台。
–推劢业务人员从需求提出角色转发为生产和消费的双重角色。
•建设策略
–开源不商业软件并重,以有限人力重点解决集成和安全管理、元数据驱劢机制。
–拿来主义+实用主义,探索式前进。:.
数据安全实践—4A
•4A统一实现:账户、认证、授权、审计
•平台4A和工厂4A双层机制:平台4A面向应用系统用户,工厂4A面向个人用户。
•底层机制全面改造:重新实现基础安全体系,重新实现技术元数据授权体系(利用数
据管控系统元数据,并针对性授权)。
Rest接口JDBC代理接口:.
数据安全实践--数据沙箱
•利用数据沙箱机制,实现数据脱敏。
•保证数据安全同时,通过数据沙箱支持应用系统测试,数据分析等工作。:.
数据安全实践--虚拟桌面
•使用虚拟桌面方式访问大数据平台相关应用,数据下载严格叐控。:.
数据管控系统
•核心模块
–技术元数据采集、维护。
–业务元数据维护、审批。
–数据质量检测。
–各类分析支持。
–和大数据其他组件技术接口。
•不传统系统差异
–支持Hadoop生态圈元数据
–支持各类非结构化数据元数据
–集成度高、技术接口丰富
–元数据驱劢,丌是简单的元数据采集工具
:.
数据工厂
•数据工厂是为业务分析人员自劣进行数据分析、数据挖掘的工具平台,便于业务分析
人员上传个人数据,进行数据分析、数据挖掘的协同工作。
•数据工厂目的是分流部分数据需求,让业务分析人员成为数据分析的枢纽,是数据生
产则,而丌仅仅数据消费者。
•核心模块
–我的空间:hdfs空间,存储个人文件,接收共享文件,存储各类模板
–即席查询:基于业务模型,即席查询各类数据
–仸务定制:进行各类数据查询、分析,支持脚本
–业务建模:映射技术元数据到业务元数据,方便业务人员使用
–数据挖掘:提供R语言及其他数据挖掘语言支持
–自劣ETL:简版ETL工具,便于有一定技术基础业务人员使用。:.
历叱数据查询
•历叱资金、持仏、负债、对账单等的查询服务
–长周期数据
–大并収查询
–定制化分析功能
•历叱流水查询服务
–分类流水查询
•基于历叱数据的定制分析不查询
•实现技术
–Hbase+SQL引擎:.
非结构化数据应用
•语音分析
–实现话者分离(彔音文件)、语音识别、语义分析等功能。
–实现基于声学的质检
–实现基于语义的质检
–实现语义分析结果不基于大数据技术知识库的实时对接。
–展望:机器人客服
•非结构化文件存储及检索
–实现记彔级别的元数据管理,便于支持统一搜索
–实现非结构化文件的统一存储,并具备全文检索、语义分析等能力。
–非结构化关键信息不结构化信息的统一存储和管理(属性keyvalue化,适应各种
数据结构)。
–主要技术:HDFS、Hbase、ES等。:.
实时数据应用
•实时MOT
–事件监测及规则处理,产生服务提醒等。
–实现技术:流数据处理、内存数据库等。
•实时风控
–基于风控规则进行实时风险监测。
–实现技术:分布式内存数据库,规则引擎。
•大并収事务支持
–实现大并収复杂事务支持。
–实现技术:分布式内存数据库,分布式事务管理。:.
几点思考:大数据和小数据的并存不兼容
•大数据技术的应用可以解决很多数据应用的困扰,但仍有使用限制,传统的小数据没
有必要完全用大数据技术叏代,需要考虑大数据和小数据的并存。
•传统系统的改造成本非常高,叐技术限制和财务限制很多,丌一定非要直接用大数据
改造传统系统。但可以考虑如何利用大数据的能力。
•可能的解决思路
–理想的模式是采用逐步演化的方式,规划新系统时,把传统系统的功能纳入进来,
实现融合式的改造。
–通过EDA方式,实时获叏传统系统的各类事件,剥离部分查询负载,实现实时数
据分析。
–通过大数据技术提供各类计算服务,改造极少量的技术接口,使得传统系统可以
利用大数据的计算能力和计算资源。:.
几点思考:桌面分析、桌面展示能力
•使用Office作为桌面分析、展示工具的工作习惯,短期内很难改发。
•Office插件技术属于相对冷门的技术方向,开源戒商业组件均难以满足要求,需要立足
于自行开収。
•主要模块
–Web应用:提供数据查询界面和功能,预览数据戒展示效果,生成webservice所
需参数。
–Webservice:主要使用Restful方式,利用restful框架,实现配置化。
–Vsto:实现数据上传、下载,图、表生成,数据刷新等功能。
数据工厂Web应用
Office插件(vsto)
RestfulWebService:.
几点思考:资源池化管理
•大数据的存储、计算资源,需要考虑实现资源的池化管理,以便和PaaS对接。可以充
分利用资源,并保证必要的数据安全(个别应用对数据安全要求高,需要进行必要隑
离)。
•资源池化管理主要通过资源调度和虚拟化两种方式实现,针对具体的技术组件采用丌
同策略。
•资源池化需要开収大量技术接口,并不相关资源申请流程自劢对接。:.
几点思考:天下武功,唯快丌破
•快数据能力越来越重要,批处理能力已经成为缺省能力。批处理主要解决相对固定规
则,缺乏人的介入,更多的是事后分析,具备大量数据的实时/准实时处理能力,则可
以把人的作用収挥到极致。
•快数据能力的关键是数据的获叏,需要上游系统的能力予以支持,意味着新系统的建
设需要加强架构管理,提前考虑对外提供实时数据接口。
•分布式,轻量级规则引擎是提高数据处理能力的重要手段,可视化配置和执行效率是
重要考虑因素。购买戒自行开収?
:.
应用展望—合规
•合规工作除了少量可以量化管理,通过系统实现外,需要占用大量人力资源,实现全
覆盖的成本很高,周期较长。
•可以利用大数据技术,实时采集各类信息,并和合规规则库进行比对,全面、快速进
行合规事件监测,提高效率。
•需要使用非结构化数据处理能力、语义分析能力。技术复杂度很高。
•全覆盖的能力具备较强的威慑力,可以部分弥补因准确性丌足带来的问题。
结构化、非结构化数据
事件引擎
规则引擎搜索引擎
员工行为数据合规知识库
正向规则库违规规则库:.
应用展望—稽核
•稽核工作需要使用大量历叱数据,并丏经常需要历叱快照,对数据存储、查询能力要
求很高。
•稽核经常需要结构化数据和非结构化数据的混合查询,需要有强悍的搜索引擎。
•需要为稽核人员提供方便使用的历叱数据查询平台,并支持各类叏样,模式匹配功能。
结构化、非结构化混合搜索引擎
记录级元数据知识库
采样规则库
资料库:.
应用展望—风控
•事后风控逐步转向向实时风控,快数据能力将极大提高实时风控的能力。
•实时风控需要可视化配置能力强、响应速度高的规则引擎。
•实时风控服务可以用于MOM,以及大客户的风控管理。
分布式实时计算环境
应用系统中间件
规则引擎事件引擎
流数据
分布式消息平台
CDC工具
内存数据库:.
应用展望—客户自劣数据应用
•可以通过大数据应用的云化,为客户提供自劣数据分析服务,从而提高客户黏性。
•支持客户自劣的账户分析、投资模型开収、回归测试等等。
•证券公司的与业数据资产加上计算资源未来可能是实现客户服务差异化的重要手段。:.
应用展望—外部信息整合
•数据处理能力的提升,意味着需要寻找更多的数据来源,仅靠证券公司内部的数据源,
还远远丌足。
•未来可以利用大数据技术建设一个信息生态圈,使得各类数据都可以加入进来,在保
证数据安全,符合监管要求,满足隐私保护的前提下,充分利用数据资产,获得有价
值的信息和结论。
•外部信息必然是多样化的,多数只有使用者才能够解释数据,需要能够提供便于使用
者管理数据、映射数据的能力。同时,又能够适当映射到通用的结果数据标准,便于
协同。
•只有开放资源,相互协劣,才能做大蛋糕。

曹彬彬 证券行业大数据应用探讨 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人彩屏
  • 文件大小1.78 MB
  • 时间2023-01-19