-
. z.
日志挖掘分析的方法
日志文件的格式及其包含的信息
①2006-10-17 00:00:00② ③ 80 ④GETiness /M1;65%的学习者在浏览4个或更少的页面容后就离开了。利用这些信息就可以改良站点的设计构造。
②关联规则。使用关联规则发现方法,可以从的访问事务中找到的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:*=>y的蕴含式,其中*,y为属性——值对集(或称为工程集),且*∩Y空集。在数据库中假设S%的包含属性——值对集*的事务也包含属性——值集Y,则关联规则*=>Y的置信度为C%。
③序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项〞这样的部事务模式。它能发现数据库中如“在*一段时间,客户购置商品A,接着会购置商品B,此后又购置商品C,即序列A→B→C出现的频率高〞之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。
④分类分析。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中*特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。例如:在/ E-Business /M4学习过的学习者中有40%是20左右的女大学生。
-
. z.
⑤聚类分析。可以从访问信息数据中聚类出具有相似特性的学习者。在事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差异尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k—means、DBSCAN等。聚类分析是把具有相似特征的用户或数据项归类,在管理过聚类具有相似浏览行为的用户。基于模糊理论的页面聚类算法与客户群体聚类算法的模糊聚类定义一样,客户访问情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[*i]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关页面。
⑥统计。统计方法是从站点中抽取知识的最常用方法, 它通过分析会话文件, 对浏览时间、浏览路径等进展频度、平均值等统计分析。虽然缺乏深度, 但仍可用于改良构造, 增强系统平安性, 提高访问的效率等。
⑦协同过滤。协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。
〔三〕最后,进展模式分析
网站日志分析的具体方法和步骤基础 来自淘豆网m.daumloan.com转载请标明出处.