下载此文档

Web日志挖掘数据预处理综述.pdf.pdf


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
维普资讯
广西轻工业
年月
第期总第期计算机与信息技术
日志挖掘数据预处理综述
王东升,李垒
河南工业职业技术学院计算机工程系,河南南阳
【摘要】数据预处理关系到日志挖掘的质量。本文对此领域的大量文献进行分析,深入探讨了数据预处理环节的主
要任务,综述了面向日志挖掘中数据预处理的关键技术,指出进一步的研究方向。
【关键词】日志挖掘;数据预处理;用户识别:数据挖掘
【中图分类号】【文献标识码】【文章编号】———

在数据挖掘研究领域中,日志挖掘是数据服务器响应用户请求时,在将请求的文件下载给用户
挖掘研究领域中一个最重要的应用方面。日志挖掘是将数的同时,也把这次请求的相关信息写入日志。并且由于本地缓
据挖掘的技术应用于服务器上的日志文件,以发现用户存、代理服务器以及防火墙等因素的影响,使得日志挖掘
的浏览模式,分析站点的使用情况【。它通过挖掘服务器的日志中的日志记录存在不精确性,直接在其上进行挖掘非常困难,
文件,抽取感兴趣的用户的访问模式,并分析和研究日志记录而且可能会得到错误结果。因此,日志记录必须在经过预
的规律,进一步分析这些数据可以帮助理解用户的行为以及用处理之后才能用于日志挖掘。
户的网络行为数据所具有的意义,从而改进站点的结构及性. 数据预处理中的关键技术
能,构造自适应网站,或者通过统计和关联分析为用户提供个日志挖掘的目的是通过对日志中用户访问信息的分
性化的服务,发现潜在的用户群体。析,得到用户访问模式。因而,对日志进行预处理,从中识别出
本身的开放性使得丰富的日志信息用于挖掘前用户会话是日志挖掘的首要工作,并且可以解决由于日
必须先进行数据预处理,这样才能保证结果的有效性和准确性。志的不精确所带来的问题。
在日志挖掘过程中,数据预处理是基础,它关系到日数据预处理是在将日志文件转换成数据库文件以后进行
志挖掘的质量。为此,本文对此领域的大量文献进行分析,深入的,其目的是把日志转化为适合进行数据挖掘的可靠的
探讨了数据预处理环节的主要任务,并综述了面向日志挖精确的数据。这个过程共包括四个步骤:数据清洗、用户识别、
掘中数据预处理的关键技术,指出进一步的研究方向。会话识别和路径补充。
数据清理
日志挖掘过程数据清理是指根据需求,对日志文件进行处理,包括删除
日志挖掘又称使用挖掘主要是从的访无关紧要的数据,合并某些记录,对用户请求页面时发生错误
问记录中抽取感兴趣的模式嘲。其输入包括:服务器访问的记录进行适当的处理等等。其目的是通过分析用户请求的文
记录本、代理服务器日志记录、浏览器日志记录、用户简介、注件序列,获得用户的行为模式,以了解用户对哪些内容真正感
册信息、用户对话或交易信息等等。输出为:经过模式分析得到兴趣,并不关心那些用户没有显式请求的文件,因为这些文件
的用户感兴趣的规则和模式,并以友好、直观、形象的界面展示不能代表用户的兴趣。所以它们对于日志挖掘算法来说是没有
给用户。意义的。
整个日志挖掘主要分为三个步骤【: 假如用户挖掘的目的是用户访问模式,那么当用户请求一
数据预处理:根据挖掘的目的,将原始日志文件个网页时,自动下载并记录在日志文件中与该网页有关的

Web日志挖掘数据预处理综述.pdf 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人hqpkhvg379
  • 文件大小0 KB
  • 时间2015-12-16