大连理工大学专业学位硕士学位论文摘要数据挖掘是数据库最活跃的领域之一,在国内外的学术界和信息产业界备受关注。数据挖掘技术主要研究结构化的数据挖掘,的技术研究,是从半结构或无结构的wcb页面中,抽取感兴趣的、潜在的模式。是一个半结构化的系统,很难对它进行处理。但是Web服务器日志记录具有良好的结构,非常有利于数据挖掘的进行。此外,w曲日志挖掘是web使用挖掘的一个分支,它作为Web挖掘的一个重要组成部分,具有独特的理论和实践意义。本篇论文主要从以下四个方面对Web日志挖掘进行了系统的分析和研究。主要完成了以下几个方面的工作:(1)对数据挖掘、web数据挖掘和w曲日志挖掘进行了概述,阐述了本篇论文的研究背景及Web日志挖掘研究现状。(2)研究了web日志挖掘中的关键步骤——数据准备,详细地分析了预处理阶段的各项任务。(3)认真研究分析了模式发现阶段的基于聚类的数据挖掘的基本原理和一般方法,井介绍了模糊聚类理论。(4)提出了一个以用户离散化浏览时间为度量、以图论法取得模糊相似矩阵的传递闭包的web用户浏览模式模糊聚类算法。本文提出了用模糊聚类算法对web事务进行聚类。在聚类的相似性度量上,不再单纯地咀访问次数或浏览时间来度量,而是采用用户浏览离散化时间为度量。并将模糊相似度和图论帽结合提出了以图论法取得模糊相似矩阵传递闭包的方法。经实验证明,该算法比传统算法准确性高,运行时问少,扩展性好。关键词:数据挖掘;Web日志挖掘;模期聚类;,,,,theweb8evel.|logfileshaveani∞,,andpresentthesignificanceofthercsearchonWcbLogMining,,,
Web日志数据挖掘研究 来自淘豆网m.daumloan.com转载请标明出处.