. .
-优选
日志挖掘分析的方法
日志文件的格式及其包含的信息
①2006-10-17 00:00:00② ③ 80 ④GET ⑤/
⑥Mozilla/+(Windows;+U;+Windows+NT+;+zh-;+rv:)+Gecko/20060426
+Firefox/。
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法("GET〞、"POST〞等);
⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。
一、日志的简单分析
1、注意那些被频繁访问的资源
2、注意那些你上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:
3、观察搜索引擎蜘蛛的来访情况
4、观察访客行为
应敌之策:
1、封杀某个IP
2、封杀某个浏览器类型〔Agent〕
3、封杀某个来源〔Referer〕
4、防盗链
5、文件重命名
作用:
,可以得到效劳器在某些时间段的访问情况。
,可以得到用户的分布情况。
,可以得到页面关注情况。
,可以更正有问题的页面。
. .
-优选
二、挖掘
根据所挖掘的数据的类型,可以将数据挖掘分为以下三类:容挖掘( Content Mining)、构造挖掘( Structure Mining)、使用挖掘( Usage Mining)〔也称为日志挖掘〕。
①容挖掘。容挖掘是指从文档的容中提取知识。容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,文本挖掘已经有了比拟实用的功能。文本挖掘可以对上大量文档集合的容进展总结、分类、聚类、关联分析,以及利用文档进展趋势预测等。文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强文本挖掘的作用。
②构造挖掘。构造挖掘是从的组织构造和关系中推导知识。它不仅仅局限于文档之间的超构造,还包括文档部的构造。文档中的URL目录路径的构造等。构造挖掘能够利用网页间的超信息对搜索引擎的检索结果进展相关度排序,寻找个人主页和相似网页,提高搜索蜘蛛在网上的爬行效率,沿着超优先爬行。构造挖掘还可以用于对页进展分类、预测用户的使用及属性的可视化。对各个商业搜索引擎索引用的页数量进展统计分析等。
③使用记录挖掘。使用记录挖掘是指从的使用记录中提取感
网站日志分析的具体方法和步骤基础 来自淘豆网m.daumloan.com转载请标明出处.