下载此文档

Web用户访问信息数据挖掘.pdf


文档分类:IT计算机 | 页数:约56页 举报非法文档有奖
1/56
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/56 下载此文档
文档列表 文档介绍
天津大学
硕士学位论文
Web用户访问信息数据挖掘
姓名:尉海立
申请学位级别:硕士
专业:计算机系统结构
指导教师:梁洪峻
20030201
论文详细摘要随着τ玫目焖俜⒄梗瑆曲数据挖掘正成为数据挖掘领域的热点之一。通常情况下,根据挖掘的目的和数据对象不同,萃诰蚩梢苑治猈访问信息数据挖掘、谌萃诰蚝荳服务器在用户对它进行访是梦市畔⑹萃诰蛑饕7椒ǎ浞治鼋峁梢杂糜谕镜设计,商业和市场决策支持,个性化,可用性研新的序列模式数据挖掘方法,并使用该方法来对用户的访问过程现实生活中有许多按时间进行排序的事件序列,例如一位顾客超市为了卖出更多的商品,获得更多的利润,不仅需要分析顾客在购买活动中可能同时购买哪些商品唇泄亓9娣治觯沟可能同时被购买的商品在货架上摆放到一起剐枰7治龉丝驮如顾客在购买了打印机之后,一个月之内可能要购买墨盒治序列模式挖掘的概念是瓵和甋在年提等。年,瓵和甋在算法的基多倍。,并在新的格式上进行序列模式挖掘。峁雇诰颉】【俊问的时候对该用户的访问活动的记录。对萃诰蚍治觯究以及网络流量分析等。在本文中,我们的主要工作是提出一种进行分析。另外,我们还对技术在治錾系挠τ对某超市的购买活动序列;网络用户对镜愕姆梦市蛄械取购买某些商品之后,在以后的购买活动中将会买些什么商品多次购买活动的商品之间的联系,这导致了序列模式数据挖掘的出来的,他们提出了一些算法,例如和础上提出了惴ǎ谒惴ㄋ俣壬媳華惴ㄌ岣吡做了初步的研究。产生。
使得是绲淖蛹其中怼躮虺艬为淖有蛄小R甈等分别在年和年提出了和算法,这些算法是建立在投影数据库的概念基础之上的,利用投影数据库来分隔模式序列集合,以缩小序列数据库的方式来提高序列模式挖掘是在多个有序事件序列中查找出现频率大于某个阈值的序列模式的数据挖掘方法。我们称这些有序事件序列为对于顾客在超市进行购买活动的序列来说,,长度为男蛄谐莆我们使用琒瑂。幢硎疽桓鍪菪蛄校渲齣至是一个元素。对于数据序列瑊模式序列是指可能在数据序列中出现的子序列,例如“用户在访问完趁鍭和螅种又冢デ榭鱿禄岱梦室面本褪怯没Х梦市蛄械哪J叫蛄小6杂谝桓鍪菪蛄屑希我们将包含某个模式序列的数据序列在所有数据序列中所占的比例称为对这个模式序列的支持度,称包含这个模式序列的数据序列的个数为该模式序列的支持数。计算模式序列的支持度时,如果一个模式序列在同一个数据序列中多次出现,则按出现一次来算法的性能。数据序列。恍蛄小T诒匾!ぞ鱿拢菪蛄谢辜锹剂嗣看谓灰椎氖奔洹和都是脑K兀鴄、、元素中的项,因为邪个项,所以某ざ任,且对于序列琣!和序列琤渲衜≤⑶以赽。≤躰校衚躪堋躪称贏中出现或者С諦。,此祘、个恍蛄小计算。
蔝墨。其中躨≤序列模式挖掘所要解决的问题就是给出一个数据序列集合和最小支持度,找出支持度大于最小支持度的所有的模式序列,我们称这样的模式序列为频繁序列。支持度未确定的模式序列称为候选序列。在校珹等还提出了最大频繁序列的概念,即在频繁序列集合中那些不包含其它频繁序列的频繁序列。有时候我们对顾客访问模式提出一些时间上的约束要求,例如购买了电视机旰笥止郝蛄说缒裕颐侨衔5缡踊墓郝蚧疃并没有对电脑的购买活动产生影响,所以不希望这样的序列出现些组合可以更有效率。在模式序列中。因此,在模式序列中相邻元素还要有时间性的限制。晏岢隽耸奔湓际母拍睿前ɑ间窗口,最小时间间隔,最大时间间隔等【假设瑂琒。且桓鍪菪蛄校珹,,⋯,蛂,硎維交易时间,如果珹,则存在正整数≤≤≤≤⋯⋯≤≤必须同时满足下列条件:渲一躮..渲≤渲除了上述时间约束之外,甁等还总结了一些新的约束,并根据序列模式挖掘的不同应用给出了一些结构约束、时间约束、支持度计算方法的组合,在不同的应用环境下使用这是一模式序列,滑动时间窗口,最大时间间隔和最小时间间隔分别为、一躷籺≤躰躨≤
通过总结前人的算法和经验,本文提出了一个新的算法——传统的序列模式挖掘方法在不断地得到改进的同时,人们对序列模式挖掘的增量、多维、并行等方式和算法也进行了深入地研究。这是序列模式挖掘最新的比较重要的几个发展方向,在本文中我们也会探讨在惴ǖ幕≈鲜迪中蛄心J酵诰虻脑量、多维和并行算法的可能性。我们通常所用的序列模式挖掘算法包括惴ā算法和Ⅸ算法。这三种算法分别代表了三种不同的经典并使用哈希树来减少扫描序列数据库的次数,使得惴ㄔ谒性能将大大降低。在滑动时间窗口算法就会“退化”到算法的状态下。另外,由于引入了时间约束,算法与惴ㄔ谠怂憬峁喜⒉皇峭全相同的。所以惴ㄓ階男阅鼙冉现荒苁橇车考虑了对算法性能的提高,而且考虑它在应用上的灵活性。算法的基本原理和所采用的数据结构也会对序

Web用户访问信息数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数56
  • 收藏数0 收藏
  • 顶次数0
  • 上传人779277932
  • 文件大小0 KB
  • 时间2011-07-22