科技论文发表基于Web数据挖掘技术的研究.doc科技论文发表基于Web数据挖掘技术的研究
ok3ail、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。
2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。
3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。
4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。
3 数据挖掘分类
在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖[3],如图2所示。
4 数据挖掘相关技术
互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。
网页内容挖掘
网页文档挖掘
网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析,然后根据网页文档进行预测。在Inter
[1][2]下一页
ok3l格式的网页文档出现,要采集这些网页文档数据,然后把这些文档数据变成记录的形式存贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式, 由于文档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对数据分析不利,因此一个好特征表示主要集中在特征集的选取方面,特征集需求好,对数据进行分析的时间就相对少,如果选取不好,将要花很长时间去等待。因此特征集选取好坏成为数据分析额关键。一旦特征集选择好后,就可以采用聚类、分类、数据关联等方法来进行提取信息,然后对这些提取的信息进行评价分析,找到有用的信息,为后续的决策工作提供指导。
挖掘网页多媒体
在进行网页多媒体挖掘主要关注的是特征提取,这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL,最后根据这些特征进行数据挖掘。
挖掘网站空间中的知识,不仅关注包含在各个网页内容中的信息数据,同时也关注网站与网站之间的网页结构和超级链接结构,这也是非常重要的。进行网页结构挖掘主要分析网页结
科技论文发表基于Web数据挖掘技术的研究 来自淘豆网m.daumloan.com转载请标明出处.