沈阳建筑大学
硕士学位论文
基于K-medoids聚类算法Web信息集成方法的研究与实现
姓名:王忠强
申请学位级别:硕士
专业:计算机应用技术
指导教师:李贵
2011-03
硕士研究生学位论文摘要 I
摘要
随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web 上拥有大量的信息资
源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同
的数据格式,所以构建一个 Web 信息集成系统是很有必要的。聚类算法改进的研究是 Web
信息集成系统实现过程中的热点问题,可以更方便用户对分布在不同网站上的信息查询,
为了实现这一目标,我们首先要把来自不同网站的数据进行聚类,通过聚类可以把海量的
数据聚集成几个分类,在各个分类中选择出各个聚类的中心点,以各个中心点来代表各个
聚类,新的数据只需与聚类的中心点作比较,不用再与聚类的每个数据点一一作对比,这
样可以有效的降低数据集成的复杂程度。这就是聚类方法,具有重大的现实意义。
本文通过对近几年国内外研究成果的分析和研究,针对现有的聚类方法准确度低,效
率低等缺点。对传统的聚类方法进行改进,使其达到在准确度相对较高的情况下,效率有
所提升。
论文主要的研究内容有以下几个方面:
()对传统的 K-medoids 聚类算法进行改进。在改进的过程中,主要是针对初始的聚
类中心点的选择方法进行优化,在实行新的选择方法的过程中有效的降低了相邻数据对象
同时作为初始的聚类中心点的可能性,缩减了在寻找最终的聚类结果过程中的迭代计算的
次数,在一定程度上降低了聚类过程的复杂度,从而有效地提高了聚类的效率,同时在聚
类的过程中设定聚类的半径,这样做的目的是可以将一些与聚类本身不相关的数据剔除
掉。
()将改进后的 K-medoids 聚类算法与 Web 集成技术相结合。并且按照 Web 信息集
成的基本步骤,实现对 Web 页面的解析器、数据抽取器和数据集成模块的设计,有效的将
聚类算法运用到 Web 信息集成技术中。
()根据以上的两个研究结论,并且结合信息集成技术,HTML的相关知识、JAVA
程序设计方法、XML 技术和相似性计算等相关技术对传统的 Web 数据集成的方法进行相
关的改进,为用户提供了一个快速的、便捷的、准确的、高效的数据集成方法,并使其具
有良好的实用性。
关键词:Web数据集成;聚类算法;解析;抽取
硕士研究生学位论文 Abstract III
Abstract
Along with the continuous development of information society, people has increasingly
demand for information. Web site has a wealth of information resources, which has gradually
e an important way for people to obtain information. However, build a web information
integration system is necessary due to different sites use different data formats, the research of
the improved clustering algorithm is the hot issues in the process of the implementation of the
Web information integration system, it can be more convenient for users inquire information on
different website. In order to achieve this goal, we first cluster data which from different sites.
Clustering method means cluster immense amounts of data into several categories. Through
clustering, we can select central point of each clustering from each categories, and each central
point represents each clus
基于K-medoids聚类算法Web信息集成方法的研究与实现 来自淘豆网m.daumloan.com转载请标明出处.