下载此文档

网站日志分析的具体方法和步骤【基础】.doc

文档分类：IT计算机 | 页数：约10页举报非法文档有奖

1/10

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/10 下载此文档

文档列表 文档介绍

网站日志挖掘分析的方法日志文件的格式及其包含的信息①2006-10-1700:00:00②③④GET⑤/⑥Mozilla/+(Windows;+U;+Windows+NT+;+;+rv:)+Gecko/20060426+Firefox/。①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。一、日志的简单分析1、注意那些被频繁访问的资源2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:3、观察搜索引擎蜘蛛的来访情况4、观察访客行为应敌之策:1、封杀某个IP2、封杀某个浏览器类型(Agent)3、封杀某个来源(Referer)4、防盗链5、文件重命名作用:,可以得到服务器在某些时间段的访问情况。,可以得到用户的分布情况。,可以得到网站页面关注情况。,可以更正有问题的页面。二、网站挖掘根据所挖掘的网站数据的类型,可以将网站数据挖掘分为以下三类:网站内容挖掘(网站ContentMining)、网站结构挖掘(网站StructureMining)、网站使用挖掘(网站UsageMining)(也称为网站日志挖掘)。①网站内容挖掘。网站内容挖掘是指从文档的内容中提取知识。网站内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,网站文本挖掘已经有了比较实用的功能。网站文本挖掘可以对网站上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用网站文档进行趋势预测等。网站文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强网站文本挖掘的作用。②网站结构挖掘。网站结构挖掘是从网站的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。网站结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高网站搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。网站结构挖掘还可以用于对网站页进行分类、预测用户的网站链接使用及网站链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。③网站使用记录挖掘。网站使用记录挖掘是指从网站的使用记录中提取感兴趣的模式,目前网站使用记录挖掘方面的研究较多,访问和交互的信息,可以通过分析和研究网站日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行网站日志挖掘;可以根据用户访问的网站记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些网站页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。通过对网站服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,网站日志挖掘主要被用于个性化服

网站日志分析的具体方法和步骤【基础】来自淘豆网m.daumloan.com转载请标明出处.