辽宁工程技术大学
硕士学位论文
基于Web日志的数据挖掘的研究
姓名:张文升
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘万军
20051201
挖掘中的关键步骤一一数据准备,详细地分析了预处理阶段的各项任务;摘要本篇论文主要从以下四个方面对罩就诰蚪辛讼低车姆治龊脱究。第一是对数据挖掘、萃诰蚝蚖日志挖掘进行了概述,阐述了本篇论文的研究背景及罩就诰蜓芯肯肿矗坏诙茄芯苛薟日志第三是认真研究分析了模式发现阶段的基于聚类的数据挖掘的基本原理和一般方法,并时间为度量、模糊聚类算法的对象严格地聚类算法对问次数或浏览糊相似度和图介绍了模糊聚类理论。第四是提出了一个以用户离散化浏览以图论法取得模糊相似矩阵的传递闭包的没т滥J。针对传统的聚类方法属于硬划分的方法,即把每个待辨识划归到某个类中,具有非此即彼的性质,本文提出了用模糊事务进行聚类。在聚类的相似性度量上,不再单纯地以访时间来度量,而是采用用户浏览离散化时间为度量。并将模论相结合提出了以图论法取得模糊相似矩阵传递闭包的方法。经实验证明,该算法比传统算法准确性高,运行时间少,扩展性好。关键词:数据挖掘罩就诰蚰:劾郬事务离散化时间辽宁工程技术大学硕上学位论文
,.琣甌,;辽宁工程技术大学硕士学位论文.,;/篋;
研究背景随着作为传播各种信息的媒体迅速膨胀,许多机构的计算机系统经过多年的积累,产生了大量的历史数据。而巨量的数据本身不是信息,在其背后隐含着丰富的知识,这些知识才是我们最需要的。但是,目前的数据库技术可以实现数据的高效查询、统计等功能,而通过对这些数据进行分析而得到进一步隐含信息的能力则显得不足。知识发现褪窃谡庋谋尘跋鲁鱿值模岷狭耸菘饧际鹾腿工智能技术,利用数据库管理系统来存储数据,用机器学习方法来分析数据,挖掘历史数据背后的隐含知识。伴随着某鱿郑萃诰苍嚼丛绞艿街跄俊T谝欢ǔ潭壬希J斗⑾趾褪萃诰蚴峭宕剩而一般情况下,两者是有区别的。许多研究人员认为数据挖掘只是知识发现的一个重要组成部分,而知识发现则是从大量历史数据中发现知识的完整过程⋯。近年来,由于的广泛应用和目焖俜⒄梗绾卧诤迫烟海的葜姓业叫枰5男畔ⅲ却车氖菘饬煊蚋痈丛印⒗难。诰虻睦言谟冢捍车氖萃诰蚴敲嫦蚬叵凳菘獾模蚴敲向数据仓库的,处理的数据具有完整的结构,但菔俏扌虻摹⒎结构的或半结构化的,并且存在大量的冗余和噪声。目前,该研究领域主要集中在:用户浏览模式识别,搜索引擎的设计,文件自动分类技术,关键词的自动提取,半结构化信息的知识发现等。在众多的萃诰蜓芯苛煊蛑校琖日志挖掘由于对于的结构优化和趁婺谌莸闹刈槎计鸬街匾W饔茫⒅苯踊岫訵网站产生经济效益,因此对这个领域的研究也日渐增加。罩就诰蚴墙ù统的数据挖掘技术应用在梦嗜罩臼萆洗佣⑾钟没Х梦誓J降募罩就诰虻乃惴ㄊ荳日志挖掘的最重要的环节,目前对此技术环节的研究很多,针对罩就诰蛱岢龅乃惴ㄒ埠芏啵钦庑┧惴ㄒ绪论术。辽宁工程技术大学硕士学位论文
坚主三望垫查查堂翌圭兰壁笙三有局限性,具体体现如下:甒日志挖掘中的没Ь劾嗪鸵趁婢劾嘤凶琶飨缘哪:卣鳎但是很多算法没有考虑到罩臼萆鲜鎏卣鳎诜掷嗟氖焙虿捎糜不分的方法,即把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质。因此影响了算法的准确性。诰劾嗍钡南嗨菩远攘可希ゴ康匾苑梦蚀问蜾朗奔湮6攘浚忽视两者间的关联。恍¦日志挖掘算法计算量过大,扩展性能差。罩就诰蜓芯肯肿从研究的角度,现有的基于衿魅罩臼莸难芯看笾驴梢苑治三个方向:分析系统性能;改进系统设计;理解用户意图。由于它们针对的功能不同,采取的主要技术也不同。以分析系统性能为目标的研究,主要是从统计学的角度,对日志数据项进行多种简单的统计,如频繁访问的网页,单位时间访问数,访问数据量随时间分布图等。目前己有的绝大多数商用及免费的罩痉治龉ぞ都属于这种类型,这些工具的用户一般是衿鞯墓芾碚摺Mü庑统计数据,管理员可以对衿髯飨嘤Φ牡鹘冢缁撼迳柚茫迪裾点设置等。更进一步,如果将罩臼幼龉叵当恚檬萃诰蚣际趸可以发现许多有价值的信息,如利用关联规则可能发现用户所在地区与某被访问页面间的关系。此外,许多数据挖掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于恐镜姆治觯镏芾碓狈⑾钟没У访问规律。以改进系统设计为目标的研究,由于衿鞯纳杓朴虢ㄉ璧闹饕复杂性是它能随着设计者及用户的变化而不断自我调整,研究如何以日志数据为依据,对衿鞯淖橹捅硐中问浇凶远虬胱远髡人机交互和软件煊蛱岢鯽的概念,它在技术手段上与数据挖掘技术有某些交叉和重叠。以理解用户意图为目标的研究,一般是通过算法从衿魅罩局
找出频繁的用户访问路径或访问模式。这些都是为了从大量的罩臼据中找出~定的模式和规则。目前,罩就诰蚍椒ㄖ饕S辛街帧热耸紫冉萃诰蚣际应用于衿魅罩疚募云诜⑾钟没т滥J健K翘岢隽俗畲笄向引用序列母
基于web日志的数据挖掘的研究 来自淘豆网m.daumloan.com转载请标明出处.