代号 10701 学号 0822980047
分类号 TP301 密级公开
题( 中、英文) 目分布式数据库查询策略优化的研究
Study of Query Strategy Optimization of Distributed
Database
作者姓名李川指导教师姓名、职务臧明相副教授
学科门类工学学科、专业计算机应用技术
提交论文日期二○一二年四月二十日
摘要
分布式数据库系统是数据库与计算机网络逻辑上的结合。它是一组结构化的
数据集合,物理上分布在计算机网络的不同站点上,而逻辑上是一个整体。但分
布式数据库分布性和冗余性,使得数据查询操作变得复杂。如何提高分布式数据
库查询效率、即查询优化,成为分布式数据库研究领域的一个重要课题。
分布式查询优化的目标是使通信费用最低和响应时间最短,即以最小的代
价,在最短的响应时间内获得需要的数据,以此为目标,查询优化的方法主要有
基于直接连接的查询优化算法及基于半连接的查询优化算法。本文首先研究了直
接连接查询,并对构造站点依赖的 Hash 划分算法进行了重点分析,针对 Hash
划分算法中重 Hash 划分开销较大的缺点,采用先判断后连接的思想进行了改进,
优化了 Hash 划分算法。另外,分析了一般半连接查询优化算法的过程,针对该
算法平均传输数据量较大的缺点,采用对连接的数据先分析再压缩传输的模式改
进了半连接查询优化算法,降低了平均查询代价;又对半连接查询优化的经典算
法 SDD-1 进行了分析,针对该算法未考虑最后一次传输的代价的缺点,采用在
计算半连接代价时将最后一点传输率作为计算因子的思想对 SDD-1 算法进行了
改进,提高了 SDD-1 算法的总体查询效率。本文通过实验测试计算对改进算法
进行了验证分析并得出结论,改进算法提高了分布式数据库的查询效率。
本文的研究成果及提出的改进算法中,基于缓存的 Hash 划分算法、SDD-1
算法的并行性等问题仍存在一定的局限性,这将是今后的研究方向。
关键词:查询优化,直接连接,半连接,Hash 划分
Abstract
Distributed database system is bination of database puter
network logic which is a structured data collection. It distributed in different sites of
works in physical; however, it belongs to the integration in logical.
But the distribution and redundancy of distributed database makes the data query
plicated. Therefore, the important subject is how to improve the query
efficiency of the distributed database in distributed database research field. It named
query optimization.
The goal of distributed query optimization is to reduce munication cost
to a minimum and shorten the response time to the shortest, namely to use a minimum
cost, in the shortest response time to obtain the data needed. Base on this target, there
are two major query optimization methods: direct connection based query
optimization algorithm and semi-join based query optimization algorithm. Firstly, this
research studies the direct connection query. Then, analyze the construct site
dependence hash partitioning algorithm. The cost of Hash partitioning algorith
分布式数据库查询策略优化的研究 来自淘豆网m.daumloan.com转载请标明出处.