阿里云ODPS简介
阿里云·互联网云计算·产品
王乐珩
自我介绍
王乐珩()
目前在阿里云,任云计算业务线产品经理,主要负责数据分析领域。
此前在计算所生物信息组,任pFind蛋白质搜索引擎的架构师和程序经理。
什么是ODPS(一)
阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。
ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,上还有一个Web演示界面。
什么是ODPS(二)
与传统数据仓库工具相比ODPS有以下优势:
处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案,但是都无法适应剧烈膨胀的数据规模。
成本低廉,伸缩灵活:由于云计算的业务特点,用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四”和“应用案例五”的客户的支出,是与其网站业务量,以及产品线复杂程度一起增长的。
什么是ODPS(三)
与HIVE、Big Query相比ODPS有以下特点:
企业级特征:定制化ETL、窗口函数、存储过程、作业调度、M\R、UDF等。
项目支撑:项目空间和帐号授权机制(Project/ User/Role/ACL)。Quota和Priority的管理。
Web Service: RESTful API、多语言SDK、事件订阅。
ODPS与RDS、OTS的区别(一)
阿里云关系型数据库服务(Relational Database Service,简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。
RDS适合较小数据规模的常规OLTP(online transactional processing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQL Server)迁移到云平台上,主要重视兼容性,可以选择RDS。
ODPS与RDS、OTS的区别(二)
阿里云开放结构化数据服务(Open Table Service,简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。
OTS服务的特点是大规模、低延时、强一致,其适用场景是对数据规模和实时性要求高的应用。
ODPS与RDS、OTS的区别(三)
ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(On-Line Analytical Processing),适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应用。
OTS和ODPS可以配合使用,前者支撑大规模并发的日常访问(例如铁路售票前台系统),然后每隔24小时就把交易数据推入ODPS支撑的数据仓库,利用后者进行进一步的业务分析。
在线计算与离线计算
在线计算(Online)
数据稀疏,一般情况半结构化
存取少量数据(单条或一个range)
响应实时,低延迟
每天响应请求次数达数千万
7*24小时服务
离线计算(Offline)
数据稠密,对数据结构化无要求
一经存储,不会改变
批量作业处理,几十分钟/作业,甚至数天
每天扫描数据可达数千亿条
在线计算的技术特点
注重随机存取性能
注重取值区间(Range) 的性能
文件块(Block)容量较小
索引(Index)较多,主键(Key)不易太大
需要一个主节点控制
各节点需要有守护进程
各节点内存占用较多
ODPS介绍.pptx 来自淘豆网m.daumloan.com转载请标明出处.