下载此文档

基于web日志挖掘的数据预处理研究.pdf.pdf


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
丁技术基于web日志挖掘的数据预处理研究曹明闪四清(北京航空航天大学经济管理学院管理信息系统系北京,00o83)摘要:Web日志信息的预处理是Web日志挖掘任务中的重要阶段,而且含有大量和挖掘无关的记录和冗余项。也是工作最较大的一部分。Web服务器上的数据是半结构化的,是通过一系列的清洗、集成、别等过程。这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式。转换等来得到合适的待挖掘数据。本文重点介绍了数据清理、用户识别、会话识别、Web日志预处理就路径补充、事务识关键词:web日志挖掘数据挖掘中图分类号:TP391IWeb日志预处理概述会话识别事务识别文献标识码:A文章编号;1672一3791(2007)02(a卜0103一03对挖掘对象是Web日志的Web使用挖掘来说,Web日志文件的格式不同于传统意义上的具有良好结构的数据库或者数据仓库中的数据。它是半结构化的,再加上各种原因导致日志中的数据不够完整,以及Web日志挖掘的目的也有别于针对事务数据的挖掘等。这些特殊性都要求在挖掘之前对日志文件进行预处理,将其转化为易于挖掘的格式,为提高最后模式挖掘的精度和效果打下基础。数据预处理是将日志文件转换成数据库文件或者具有特定结构的文本文件以后进行的,其目的是把Web日志转化为适合进行数据挖掘的可靠的精确的数据。数据预处理的具体过程见图1。ZWeb日志预处理的步骤下面分别对Web日志预处理过程中的数据清理、用户识别、会话识别、路径补充和事务识别进行讨论。,对日志文件进行处理,删除那些不是用户直接点击产生,而是由浏览器自动“请求”而产生的访问记录。主要有:(1)多媒体文件(*.GIF、。.SWF、*.JPG、*.MIDI、*.MP3、)以及JavaapPlet文件、JS脚本文件、CSS层叠式样式表文件等的记录(2)搜索引擎Robot和离线浏览软件对网站的访问所产生的记录(3)产生错误的访问记录当然,如果那些多媒体文件并非是网页自动下载的,而是需要用户点击才能浏览欣赏,则这些访问记录不能删除。接下来,针对上述提及的数据清理的几个方面分别进行讨论:(1)删除与Web日志挖掘目的无关的记录在数据清理时,首先结合网站的拓扑结构,通过检查URL的后缀名删除认为不相关的文件。(2)Robot和离线浏览软件访问记录清除搜索引擎Robot和许多离线浏览软件(如OfflineExPlorer等)对网站的访问所产生的访问记录,如果不加分辨直接用于数据挖掘,则会引起用户访问模式结果的失真,所以需要清除这些不是由人点击产生的访问记录。(3)错误的访问记录当服务器对用户发出的请求响应失败时,Web日志同样会记录这种情况,但这对Web日志挖掘没有意义。所以在进行数据清理的时候,通过日志中的状态码删除服务器对请求响应失败的记录。如状态码4(X)到499指示错误;。而用户识别一般是针对某一个站点区分访问该站点的所有单独个体。但由于互联网传输协议HTTP的无状态性、客户端缓存的存在以及代理服务器(包括网吧、局域网等环境)的使用,使识别用户这一过程变得复杂。在本文中,我们对用户在客户端的浏览行为做如下的启发式假设:假设

基于web日志挖掘的数据预处理研究.pdf 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人ying_xiong01
  • 文件大小0 KB
  • 时间2016-02-24