下载此文档

Sqoop开发者指南.doc


文档分类:IT计算机 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
Sqoop开发者指南
目 录
1 引言 1
2 支持的发行版 1
3 Sqoop发行版 1
4 先决条件 1
5 Sqoop源码 2
6 开发者API参考 2
61 外部API 2
62 扩展API 2
621 的 2
63 Sqoop内部实现 2
631 2
632 的 2
633 Hadoop大数据处理技术架构 3
引言
如果你是一个开发者或应用程序的程序员打算修改的Sqoop或通过使用Sqoop内部API进行扩展,你应该阅读此文档。以下各节描述的每一个API的作用,包括内部API和支持其他数据库必须的API。
支持的发行版
本文档适用于Sqoop V142。
Sqoop发行版
Apache的Sqoop是Apache软件基金会的一个开放源码的软件产品。Sqoop产品的发展在:http://svnapacheorg/repos/asf/sqoop/trunk。在该网站上,你可以得到:
最新版本的源代码
An issue tracker
包含WIKI的Sqoop文档
先决条件
Sqoop开发需要如下先决知识:
JAVA开发:
&熟练掌握JDBC
&熟练掌握Hadoop的API(包括新的MapReduce 02版本以上的API)
关系型数据库和SQL
本文档假定您使用的是Linux或类似Linux的环境。如果你使用的是Windows,您可能能够使用cygwin完成以下任务。如果你使用的是Mac OS X,你应该看到一些兼容性错误(如果有的话)。 Sqoop主要在Linux环境上进行测试。
Sqoop源码
您可以从如下网站上获取Sqoop的源代码:http://svnapacheorg/repos/asf/sqoop/trunk
Sqoop源代码被保存在一个“Git”仓库中,从仓库中获取Sqoop源码的操作说明被提供在如上网站中提供的一个“TODO”页面上。
编译指令由源码根目录下的“COMPILINGtxt”文件提供。
开发者API参考
本章节的内容提供给那些需要整合或者扩展Sqoop的应用程序开发者。
下面三个部分都是为了接下来的用例而写的:
使用Sqoop生成的类和公共类
Sqoop扩展(即,于更多数据库交互的额外的ConnManager的实现)
修改Sqoop内部实现
每一部分逐步深入的描述Sqoop系统。
外部API
Sqoop在执行的时候自动生成将关系型数据库里表导入(import)到HDFS系统中的java类,这个类包含导入表的每一列的成员字段,这个类的一个实例保存导入表的每一行(每一行为一个实例),这个类通过Hadoop实现序列化API,命名为Writable 和 DBWritable接口。并且包含其他比较方便的方法:
parse():可以解析带分隔符文本的方法。
toString():可以保留用户选择的分隔符的方法
确保自动生成的类中的所有方法都存在于下面的抽象类中:
comclouderasqooplibSqoopRecord
SqoopRecord实例可能依赖于Sqoop的公共API。所有的类都存在于comclouderasqooplib包中。这些被简要的描述如下。Sqoop客户端并不需要直接与这些类发生关系,尽管由Sqoop生成的类依赖于他们。因此,这些AOP被认为是公开的,并且需要继续优化的。
RecordParser类将解析文本文件中的一行到一个字段列表中,使用可控的分隔符和引号字符。
静态类FieldFormatter提供了一个被用于SqoopRecordtoString()的方法,该方法处理引用和转义字符。
封装ResultSet、PreparedStatement objects、SqoopRecords之间的数据是通过JdbcWritableBridge实现的。
BigDecimalSerializer在Writable接口之上包含了一组对BigDecimal(小数)对象序列化的方法。
扩展API
HBase的序列化扩展
本章节包含了API和最基本的用于扩展Sqoop的类,这些类使得Sqoop可以与更多的数据库提供商做接口。
Sqoop使用JDBC和DataDrivenDBInputFormat的从数据库中读取数据,对不同的数据库提供商及JDBC元数据之间的不同,必须为大多数数据库提供特定的代码路径。Sqoop针对这个问题的解决方案是引入ConnManager API (comclouderasqoopmanagerConnMananger)。
ConnManager是一个静态类,这个类定义了数据库本身

Sqoop开发者指南 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1314042****
  • 文件大小214 KB
  • 时间2020-11-28