下载此文档

Web文本挖掘的研究.pdf


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
兰州理工大学
硕士学位论文
Web文本挖掘的研究
姓名:王娜
申请学位级别:硕士
专业:通信与信息系统
指导教师:李明
20050501
要摘关键词:数据挖掘,谋就诰颍畔⒓焖鳎谋炯焖鳎拍罡信息技术的发展使鱿至恕靶畔⒎岣欢J断喽载逊Α钡奈侍狻S于目7判约耙旃剐裕没Ш苣芽焖僮既返卮覹上获取所需信息,因此,如何快速有效地提取所需信息是一项重要的研究课题。谋就诰蜃魑一种有效的信息检索技术,在近几年倍受研究者的关注。本文以此为研究重点,主要做了以下工作:教至薟文本挖掘的意义,系统地给出了诰虻亩ㄒ澹訵挖掘的任务进行了分类,讨论了诰蛴氪车氖萃诰颉信息检索之间的关系。低巢隽薟文本挖掘的工作流程,重点研究了谋就诰虻奶征表示、文本分类、聚类等相关技术,介绍了文本挖掘的研究课题及应用领域。此外,对谋就诰蛳低砏曲辛讼低辰樯堋樯芰烁拍罡竦幕纠砺郏教植⒀芯苛烁拍罡窭砺墼谑荽碛敕治方面的优势。深入分析了当前搜索系统存在的缺点,在谋炯焖髦性擞酶念格理论挖掘文本中潜在的概念结构及概念间的相互关系,提出了一种基于概念格理论的谋炯焖鞣椒ā兰州理工太学硕士学位论文摘要
詓砷甋甴鷐膇:“保瓸:’..,.琩。
作者签名。耳聊签名:么笠牡嘲址年鱼月鱼日腓逝“月尘原刨性声明关于学位论文使用授权说明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得兰州理工大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。本人了解兰州理工大学有保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文:学校可根据国家或甘肃省有关部门规定送交学位论文。作者签名:
兰州曩工大学硬士学使敝第一章绪论§问题的产生数据型诰蚯痹诘摹⒂欣眉壑档男畔有用知识飧肜嗟闹悄苄畔⒋能力提出了前所未有的挑战。由此产生了人工智能的一个崭新的领域——数据挖当今社会已经送入了两络信息时代,诗算机与鼹络信息技术的飞速发震使得各个领域的数据和信息急剧增加,并且由于人类的参与使数据与信息系统中的不确定性更加显著丛酉低。如何从大量的、杂乱无章的、强干扰的数据A掘,褪菘庵J斗⑾数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机酶数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【“。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是阋宓慕徊嫜Э疲汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。近年来,粤钊四岩灾眯诺乃俣仍诜伤俜⒄梗嚼丛蕉嗟幕埂团体、个人在戏⒉夹畔ⅰ⒉檎倚畔ⅲ捎赪是无结构的、动态的,人们要想找到自己想要的数据犹如大海捞针一般困难。解决问题的一个途径就是将传统的数据挖掘技术和酆掀鹄矗托蠾挖掘。当前,国际上研究正方兴未艾,预计在世纪还会形成更大的高潮,研究焦点主要集中到以下几个方面【浚芯孔庞米又J斗⑾值氖萃诰蛴镅裕残砘嵯馭语言一样走向形式化和标准化;扒笫萃诰蚬讨械目墒踊椒ǎ谷熘J斗⑾值墓棠芄槐挥没Ю解,也便于在知识发现过程中的入机交互:芯吭谕缁肪诚碌氖萃诰蚣际酰乇鹗窃贗辖务器,与数据库服务器配合,实现数据挖掘;萃诰蛑械囊奖;び胄畔踩ǎ忧慷愿髦址墙峁够莸耐诰诰,如文本数据、图形图像数据、多媒体数据。就目前来看,研究热点包括网站的数据挖掘⑸镄息或基因痝的数据挖掘以及文本的数据挖掘。篇一章鲭论
§课题的目的意义谋就诰蛴欣诩焖鹘峁淖橹谋就诰蛴欣诩铀偌焖鞴的研究嘲,以及东南大学的陈滢和王能斌等对半结构化数据模型进行的研究【薄把检索到的页面一个一个再筛选一遍。利用谋就诰蚩墒酝几侠淼淖橹。国内的计算机科学研究者从年以来对也即诰蚪辛诵矶嘌芯浚渲兄饕5陌暇┐笱У恼鸥Q椎榷牡档男畔⒊槿〗械难芯縫】,复旦大学的施伯乐等对半结构化数据模型近几年来许多非学术性报刊也开始关注鲜萃诰蚝椭J痘袢。扑慊界、中国计算机报和微电脑世界等都刊登过关于这方面的介绍文章。但是,目前人们很关心的一个话题是文本数据挖掘。因为万维网以超文本的形式呈现给用户,一个网页星包含了多种不同的数据类型,如书籍、研究论文、新闻报道、数字图书馆、趁婕暗缱佑始雀髦指餮姆墙峁够氖菪问剑其中最主要的信息源就是文本数据。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知识。面对浩瀚的文本资源,传统的文档和文本处理工具已经不能满足用户的需求。因此,文本挖掘就成为数据挖掘中一个目益

Web文本挖掘的研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数46
  • 收藏数0 收藏
  • 顶次数0
  • 上传人化工机械
  • 文件大小0 KB
  • 时间2012-08-20
最近更新