下载此文档

Greenplum数据库设计开发规范--精选文档.doc


文档分类:IT计算机 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 0 页
Greenplum数据库设计开发规范--精选文档
目 录
第一章 前言 2
文档目的 2
子句指定用于存储的表空间,而不是把所有表都存储在默认表空间;例如:
Create table employee ( id int,name varchar)
TABLESPACE tpc_data_01 distributed by (id);
6、对于数据量超过1TB的大表,需从应用设计方面,考虑对大表进行优化,例如是否可划分为历史数据表和当前数据表,并分开存放;是否应采用压缩存储节省空间;是否合理分区;是否应定期清理数据等等。
表结构设计
字段命名
表字段的命名,与表名类似。在GP系统表中保存的表名称都是以小写保存。通常SQL语句中字段名称对大小写不敏感。但不允许在建表语句中使用双引号(“”)包括字段名,这样会影响系统表中存储的名称,使得表名存在大小写或特殊字符。字段命名也不允许出现中文字。
数据类型
数据类型的定义与相关数据的加载和使用紧密相关,数据类型的定义决定了数据所占用的空间大小,因此,必须慎重设计GP数据仓库数据表的字段类型。
数据仓库的数据来自于多个异构的业务应用系统,通常情况下,业务应用系统的字段类型选择较为随意,不同的业务系统数据类型定义存在多样化,彼此之间差异较大;因此,在数据仓库中,需在参考源系统字段类型定义的情况下,结合Greenplum 数据仓库平台的特点和要求,对字段数据类型进行设计。
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 5 页
Greenplum数据库设计开发规范--精选文档
Greenplum数据库的数据类型定义需遵循以下原则:
1、在满足业务需求的条件下,尽可能选择空间占用最小的数据类型;以节省数据存储空间;
2、在GP系统中,CHAR、VARCHAR和TEXT之间不存在性能差异,在其他的DB系统中,可能CHAR会表现出最好的性能,但在GPDB中是不存在这种性能优势的。在多数情况下,应该选择使用VARCHAR而不是CHAR;
3、定长字符串类型使用varchar,而不使用char.
4、对于数值类型来说,应该尽量选择更小的数据类型来适应数据;比如,选择BIGINT类型来存储SMALLINT类型范围内的数值,会造成空间的大量浪费。
5、用来做Table Join的Column来说,应该考虑选择相同的数据类型。如果做Join的Column具有相同的数据类型(比如主键PrimaryKey与外键ForeignKey),其工作效率会更高。
6、一般情况下,应尽量使用上述规范数据类型,避免出现诸如:Address,INET,ARRAY等特殊类型字段。
数据分布
基于Greenplum 数据仓库平台的特点,每张数据表都必须指定分布键DK,Greenplum 数据库根据数据分布键(Distributed Key,简称DK,后同)值来决定记录存储在哪一个segment 上,DK不仅决定了数据在集群节点上的分布,还严重影响数据查询和处理操作的执行效率,需要非常慎重的选择数据表的分布键。对于Greenplum 数据仓库平台,DK的选择需要遵循以下原则:
1、数据均匀分布原则
为了尽可能达到最好的性能,所有的Instance应该尽量储存等量的数据。若数据的分布不平衡或倾斜,那些储存了较多数据的Instance在处理自己那部分数据时将需要耗费更多的工作量。为了实现数据的平坦分布,可以考虑选择具有唯一性的DK,如主键。
2、本地操作原则
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 7 页
Greenplum数据库设计开发规范--精选文档
在处理查询时,很多处理如关联、排序、聚合等若能够在Instance本地完成,其效率将远高于跨越系统级别(需在Instance之间交叉传输数据)的操作。当不同的Table使用相同的DK时,在DK上的关联或者排序操作将会以最高效的方式把绝大部分工作在Instance本地完成。
3、均衡的查询负载原则
在一个查询正被处理时,我们希望所有的Instance都能够处理等量的工作负载,从而尽可能达到最好的性能。通过合理的DK设计,尽量使得查询处理的负载均匀分布在每个节点上,并且尽量保证where条件产生的结果集在各个节点上也是均匀的。
4、关联一致原则
当表于表之间存在关联时,各表应选择相同字段作为DK,并且做关联查询

Greenplum数据库设计开发规范--精选文档 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数24
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xv五哥
  • 文件大小103 KB
  • 时间2022-03-20