登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
Greenplum数据库设计开发规范--精选文档.doc
文档分类:
IT计算机
|
页数:约24页
举报非法文档有奖
分享到:
1
/
24
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
24
下载此文档
文档列表
文档介绍
Greenplum数据库设计开发规范--精选文档.doc
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 0 页
Greenplum数据库设计开发规范--精选文档
目 录
第一章 前言 2
文档目的 2
子句指定用于存储的表空间,而不是把所有表都存储在默认表空间;例如:
Create table employee ( id int,name varchar)
TABLESPACE tpc_data_01 distributed by (id);
6、对于数据量超过1TB的大表,需从应用设计方面,考虑对大表进行优化,例如是否可划分为历史数据表和当前数据表,并分开存放;是否应采用压缩存储节省空间;是否合理分区;是否应定期清理数据等等。
表结构设计
字段命名
表字段的命名,与表名类似。在GP系统表中保存的表名称都是以小写保存。通常SQL语句中字段名称对大小写不敏感。但不允许在建表语句中使用双引号(“”)包括字段名,这样会影响系统表中存储的名称,使得表名存在大小写或特殊字符。字段命名也不允许出现中文字。
数据类型
数据类型的定义与相关数据的加载和使用紧密相关,数据类型的定义决定了数据所占用的空间大小,因此,必须慎重设计GP数据仓库数据表的字段类型。
数据仓库的数据来自于多个异构的业务应用系统,通常情况下,业务应用系统的字段类型选择较为随意,不同的业务系统数据类型定义存在多样化,彼此之间差异较大;因此,在数据仓库中,需在参考源系统字段类型定义的情况下,结合Greenplum 数据仓库平台的特点和要求,对字段数据类型进行设计。
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 5 页
Greenplum数据库设计开发规范--精选文档
Greenplum数据库的数据类型定义需遵循以下原则:
1、在满足业务需求的条件下,尽可能选择空间占用最小的数据类型;以节省数据存储空间;
2、在GP系统中,CHAR、VARCHAR和TEXT之间不存在性能差异,在其他的DB系统中,可能CHAR会表现出最好的性能,但在GPDB中是不存在这种性能优势的。在多数情况下,应该选择使用VARCHAR而不是CHAR;
3、定长字符串类型使用varchar,而不使用char.
4、对于数值类型来说,应该尽量选择更小的数据类型来适应数据;比如,选择BIGINT类型来存储SMALLINT类型范围内的数值,会造成空间的大量浪费。
5、用来做Table Join的Column来说,应该考虑选择相同的数据类型。如果做Join的Column具有相同的数据类型(比如主键PrimaryKey与外键ForeignKey),其工作效率会更高。
6、一般情况下,应尽量使用上述规范数据类型,避免出现诸如:Address,INET,ARRAY等特殊类型字段。
数据分布
基于Greenplum 数据仓库平台的特点,每张数据表都必须指定分布键DK,Greenplum 数据库根据数据分布键(Distributed Key,简称DK,后同)值来决定记录存储在哪一个segment 上,DK不仅决定了数据在集群节点上的分布,还严重影响数据查询和处理操作的执行效率,需要非常慎重的选择数据表的分布键。对于Greenplum 数据仓库平台,DK的选择需要遵循以下原则:
1、数据均匀分布原则
为了尽可能达到最好的性能,所有的Instance应该尽量储存等量的数据。若数据的分布不平衡或倾斜,那些储存了较多数据的Instance在处理自己那部分数据时将需要耗费更多的工作量。为了实现数据的平坦分布,可以考虑选择具有唯一性的DK,如主键。
2、本地操作原则
Greenplum数据库设计开发规范--精选文档
Greenplum数据库设计开发规范--精选文档
第 7 页
Greenplum数据库设计开发规范--精选文档
在处理查询时,很多处理如关联、排序、聚合等若能够在Instance本地完成,其效率将远高于跨越系统级别(需在Instance之间交叉传输数据)的操作。当不同的Table使用相同的DK时,在DK上的关联或者排序操作将会以最高效的方式把绝大部分工作在Instance本地完成。
3、均衡的查询负载原则
在一个查询正被处理时,我们希望所有的Instance都能够处理等量的工作负载,从而尽可能达到最好的性能。通过合理的DK设计,尽量使得查询处理的负载均匀分布在每个节点上,并且尽量保证where条件产生的结果集在各个节点上也是均匀的。
4、关联一致原则
当表于表之间存在关联时,各表应选择相同字段作为DK,并且做关联查询
Greenplum数据库设计开发规范--精选文档 来自淘豆网m.daumloan.com转载请标明出处.
猜你喜欢
推迟入学申请书(3篇)
6页
教培旅游工作总结优选5篇
13页
汽车发动机电控系统原理
33页
江南水乡风情中国风PPT模板
8页
汉字字体书写方法
10页
求不规则物体的体积ppt
11页
水稳基层材料设计及施工控制
41页
水滴角测试原理
8页
2024小学卫生工作心得体会
2页
2025年感恩节教师祝福语9篇-大文斗范文网
32页
2024年乐山市金口河区事业单位考试真题
25页
2025年感恩老师演讲稿汇编9篇-大文斗范文网
20页
2025年感恩的心作文初三年级700字(精选13篇)..
21页
2025年感恩环卫工人作文600字(精选16篇)
33页
2025年感恩父母感动流泪句子(精选16篇)
78页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
24
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
xv五哥
文件大小
:
103 KB
时间
:
2022-03-20
相关标签
数据库开发规范
数据库设计规范
数据仓库开发规范
mysql数据库设计规范
数据库规范
酒精库设计规范
大数据开发规范
数据库设计案例
数据库设计方案
数据库开发面试题
计算机原理
PHP资料
linux/Unix相关
C/C++资料
Java
.NET
windows相关
管理信息系统
软件工程
网络信息安全
网络与通信
图形图像
行业软件
人工智能
计算机辅助设计
多媒体
软件测试
计算机硬件与维护
网站策划/UE
网页设计/UI
网吧管理
电子支付
搜索引擎优化
服务器
电子商务
Visual Basic
数据挖掘与模式识别
数据库
Web服务
网络资源
Delphi/Perl
Python
CSS/Script
Flash/Flex
手机开发
UML理论/建模
并行计算/云计算
嵌入式开发
计算机应用/办公自动化
数据结构与算法
SEO
最近更新
绿色供应链在食品行业
聚美优品案例分析
室外照明系统保养记录
安全作业保障措施
婚庆公司创业计划书范文
联想企业文化
公司短期操作工聘用合同
全绿化养护工作计划
初中转学申请书
职业危害及预防知识培训
医学检验毕业生自我鉴定(5篇)
2025年菏泽医学专科学校单招职业技能测试题..
100以内30道加减法混合练习题及答案(二年级..
一般自我效能感量表GSES
2024年山东省青岛市城阳区中考生物模拟试卷..
2025年疼痛科前景可行性报告模板
建筑施工高处作业安全技术规范
人教版初中物理八年级上册期末试卷及答案(2..
三年级语文上册阅读理解练习题可直接打印(一..
双鸭山煤业集团公司矿井安全监控信息网络系..
产程中的人文关怀
在线
客服
微信
客服
意见
反馈
手机
查看
返回
顶部