国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
工学硕士学位论文
基于CUDA的并行SOM算法
优化及应用
硕士研究生: 张金超
导师: 叶允明教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2012年12月
授予学位单位: 哈尔滨工业大学
哈尔滨工业大学工学硕士学位论文
Classified Index:
:
Dissertation for the Master Degree of Engineering
OPTIMIZATION OF CUDA-BASED
PARALLEL SOM ALGORITHM AND ITS
APPLICATION
Candidate: Zhang Jinchao
Supervisor: Prof. Yunming Ye
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: Shenzhen Graduate School
Date of Defence: Dec, 2012
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的
数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖
掘和机器学习算法为我们从繁杂的数据中提取有价值的信息提供了可行的方
法,但是这些算法的学习流程复杂,往往需要迭代学习,处理大规模的数据时
间代价大。虽然有用信息能被挖掘,但是信息可能已经不具有时效性,这就需
要加速算法的执行。采用高性能机或 CPU 集群的方式固然能加快算法的执行,
但是企业需要承担巨额的资金投入。
目前,多核技术已经发展的相对成熟,GPU 的性能远远超过了 CPU 的性能,
利用 GPU 的多核特性,充分发掘算法的并行能力成为科学研究领域的热点。本
文主要研究的就是如何将 SOM 算法进行并行化改造,使其在 CPU 和 GPU 协作的
环境中加速,并利用 CUDA 平台来加速文本数据的聚类过程。
本文从数据挖掘算法中的 SOM 聚类算法的发展和当前瓶颈出发,重点研究
了 SOM 算法在 CUDA 环境下的并行学习方法和 CUDA 加速文本聚类的方法,取得
了以下的研究成果:
本文对 SOM 算法的概念和逻辑设计进行了研究,设计并实现了基于 CUDA
平台的并行 SOM 算法,充分利用了 GPU 的多核性能。经过实验证实,并行的 SOM
聚类算法在大数据环境下,加速效果十分明显。
本文设计了利用 CUDA 平台加速文本挖掘中文本特征向量计算的方法,这种
方法改进了传统的串行文本特征向量提取方法,经过实验证实,采用并行计算
文本特征向量的方法可以获得优秀的加速效果。通过使用 CPU 和 GPU 的协作框
架,对算法任务进行了合理的分配,实现了基于 CUDA 平台使用并行 SOM 算法进
行文本聚类的加速。经验证,利用 CUDA 平台可以有效的加速文本聚类。
基于上述算法创新,本文实现了基于 CUDA 的并行 SOM 文本聚类系统,并使
用了合适的数据集对改进的并行算法和串行算法进行了对比试验,实验证明,
并行的 SOM 算法用于文本聚类,可以充分利用 GPU 多核高性能的特点,在大规
模高维数据的应用环境中实现快速文本数据自动聚类,可以大大缩短聚类的时
间。
关键词:CUDA;GPU;并行;SOM 算法;文本聚类
-I-
哈尔滨工业大学工学硕士学位论文
ABSTRACT
With the fast development puters and the , the number of
users keeps growing every day. Therefore, users produce large
amounts of information every second. Meanwhile, the management systems of big
companies also produce a large amount of new data. Dat
基于CUDA并行SOM算法优化及应用 来自淘豆网m.daumloan.com转载请标明出处.