摘要近年来,随着互联网技术与企业信息处理技术的快速发展,文本数据数量略飞速增长。如何有效地从这些海量的文本数据中找到经营决策所需要的信息越来越被人们所关注。将网格计算与数据挖掘相结合是当前国际上的一个热门研究课题,而如何将网格计算应用于文本挖掘系统则刚刚起步。本文主要针对基于网格计算的分布式海量文本分类系统进行了研究。首先分析比较三种传统的分类算法的性能及其适应环境,提出了基于词频、词长、词语的首现位置的综合权重算法来处理海量文本。其次,在该算法的基础上构建了基于桌面网格的海量文本分类挖掘系统以及基于网格的分布式文本数据仓库集成模型,用于存储文本数据挖掘的结果,便于数据的统计分析。最后,成功地将这些研究成果应用于电信突Пг瓜低场本文设计并实现了相关的算法与系统,并对挖掘系统的有效性进行了分析。实验结果表明,本文算法及系统的挖掘结果是令人满意的,具有较好的性能和一定的实用价值。关键词:数据挖掘,文本分类,网格计算,数据仓库河海丈学硕畚
瓼琧琣.,.,瑆’瓵,疭:,女Ⅱ,琱.—.琒..瑆,
逊删年滦本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一明并表示了谢意。如不实,本人负全部责任。学位论文使用授权说明河海大学、中国科学技术信息研究所、国家图书馆、中国学术期子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅。论文全部或部分内容的公布ǹ授权河学位论文独创性声明:同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说论文作者┟:刊馀贪电子杂志社有权保留本人所送交学位论文的复印件或电海大学研究生院办理。澳月
,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够通过对其进行更高层次的分析,以便更好地利用这些数据。现有数据管理系统,可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏”的现象。因此从大量数据集合中挖掘有价值的潜在目前,由于和τ玫牧:贤贫Γ谙钟惺菁现形谋竞超文本的数据量超过了结构化数据“桓鲎橹男畔⒂ナ且晕谋镜男问酱放的”╓页面、技术文档、电子邮件、访谈记录、网络留言、短信息等。随着信息资源的不断增长,人们迫切需要从大量的文本信息中有效地收集和选择所感兴趣的信息,在日益增多的信息中自动发现新的概念,并由计算机自动分析它们之间的关系,能够真正做到信息处理的自动化。在这样的需求驱动下,文本挖掘作为一个新的数据挖掘领域出现了。企业内部存储的常年积累的文本数据,可能达到相当大的规模,而且每年都企业、邮政企业、大型连锁企业、政府部门等都在地理上有分布的特点,而这些组织内部产生的文本数据也就有了分布的性质。面对这样海量的分布式文本数据,要从其中获得有用的知识时,碰到两个问题:①对它们进行高效地挖掘;②对这些文本数据挖掘结果进行集成分析。对文本进行挖掘,仅靠提高挖掘算法的性能无法提高整体的效率和效益,因为它们太庞大了。例如,经过测试,利用一台内存为、∥溃。服务器群集是解决问题①的一种途径,但是昂贵的服务器大大增加了系统成信息变得越来越重要,数据挖掘应运而生。在以高速度递增,例如电信企业每天的数据量都是惊人的。企业或组织例如电信~进行分类分析,耗时为~分钟,内存使用量超过。如果有个用户同时提交个文本的分类任务,系统将无法处理,而导致分类系统崩河海人学硕畚
.研究目的及意义本,而企业要生存,要降低成本,所以要寻找其他可能的方案。文本挖掘结果的集成分析也很重要,有两种方法可以进行集成:①将原始文本复制到指定位置,然后利用挖掘工具统一处理,集中存放挖掘结果:②各个分布式数据节点各自按照统一的规则进行挖掘,再将挖掘结果进行集成。在网络带宽受限制的情况下,由于分布式海量数据传输耗时、耗资源,方法①显然不合适。网格技术的出现,为分布式的海量文本数据挖掘提供了一个值得尝试的途径。“网格之父”博士对网格的经典定义。和袷且桓黾的计算资源环境,或者说是一个计算资源池算能力。网格系统所提供的资源,是增强和放大后的可以动态任意组合的资源。通俗地讲,网格是将来社会信息化必不可少的一种基础设旖,这个基础设施将会为全球的商业、政府、科学研究和娱乐等领域提供最强有力的支持。网格把整个互联网或企业内网整合成一台巨大的超级计算机,使计算资源、数据资源、存储资源、知识资源、信息资源、专家资源等
基于网格计算的文本挖掘系统研究(可复制毕业论文) 来自淘豆网m.daumloan.com转载请标明出处.