下载此文档

加权朴素贝叶斯算法及其weka程序分析20151216a.docx


文档分类:IT计算机 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
局部加权朴素贝叶斯算法及其 Weka 程序分析 1 局部加权朴素贝叶斯算法及其 Weka 程序分析 1 张伟( 北京交通大学计算机与信息技术学院,北京, 100044) 摘要: 局部加权朴素贝叶斯是一种改进朴素贝叶斯算法独立性假设缺陷的算法. 通过实验证明加权朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和 K 最近邻方法的效果都要好。关键字:局部加权,朴素贝叶斯在机器学习中直接使用贝叶斯定理是不现实的,因为训练集不足以获得全概率分布的准确估计。朴素贝叶斯分类算法是一种优秀的分类算法,但由于其必须满足属性独立性假设,使得该算法具有了一定的局限性。局部加权朴素贝叶斯算法为了从该算法的弱点独立性假设入手,对朴素贝叶斯算法进行改进,提出了一种基于 K 近邻法的局部加权朴素贝叶斯分类算法。实验表明该算法提高了分类的可靠性与准确率。 1 局部加权朴学习局部加权学习( locally weighted learning ,简称 LWL ) ,既可用于回归问题(如局部加权线性回归) ,又可用于分类问题(如局部加权朴素贝叶斯) 。局部加权分类是一种比较新的方式,在一些实验中表现出更高的准确率。分类过程需要对训练实例根据它们离测试实例的距离进行加权。在传统的加权学习算法中通常使用欧几里德距离来度量实例间的距离。局部加权学习是方法是懒惰学忆学习( memory-based learning )的一种形式,它需要存储数据集,当需要对一个新实例进行处理,通过距离函数计算训练实例和测试实例的距离以确定和测试实例相关的训练实例的加权集合构,然后用该集合构造一个新的模型来处理新实例。 1 本文是多年来经过无数次修正的版本,,本文仅供学生学习使用,并不适合于发表在任何公开媒体上,,与一般学术论文不同,本文许多地方采用第 1 人称进行讲述. 局部加权朴素贝叶斯算法及其 Weka 程序分析 2 局部加权朴素贝叶斯原则上,贝叶斯定理保证了对一个给定属性值向量的新实例的类标的最优预测。不幸的是,直接将贝叶斯定理用于机器学习是不现实的,因为不可避免训练数据不足以获得全概率分布的精确估计。为了使推理可行必须先满足一些独立性假设。朴素贝叶斯方法把独立性假设发挥到了极致,假定属性对于给定的类标值是统计上独立的。虽然这个假设在实际中并不成立,朴素贝叶斯在许多分类问题上表现的非常好。此外,朴素贝叶斯计算效率—训练在实例个数和属性个数上都是线性的且易于执行。机器学习相关文章开始关注朴素贝叶斯学习算法归功于 Clark 和 Niblett 2 规则学习的文章。在这篇文章中他们在实验评估中使用了一个简单的贝叶斯分类器(朴素贝叶斯)作为对比,朴素贝叶斯分类器比其他更成熟的学习算法表现更好。虽然已经对朴素贝叶斯在一些违反属性独立假设的情况下具有良好表现进行了解释,但一个基本事实没有改变,那就是当独立性假设不成立时,概率估计精度和效果都会下降。很多用于提高朴素贝叶斯效果的方法被提出,其中许多方法在保持原算法的简单性和计算高效性的同时降低算法的“朴素性”。 Zheng 和 Webb 在这个领域的工作进行了很好的总结。最有效的方法包括:贝叶斯网络的限制子类、结合了属性选择的朴素贝叶斯或者将朴素贝叶斯模型结合到其他分类器(例如决策树)。事实证明局部加权的朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和 K 最近邻方法的效果都要好。我们用来加权朴素贝叶斯的方法是从一项源于用来对非线性回归模型进行估计的技术中借鉴而来,线性回归模型适合基于加权函数的数据,这个加权函数用来处理要进行预测的实例。由于加权函数随着每个需要处理的实例改变,所以由此产生的估计是非线性的。本文我们研究了用于分类的局部加权学习,局部加权学习在机器学习中没有得到很多关注。 Loader ( 1999 )和 Hastie(2001) 从统计学角度研究了所谓的“局部可能性”方法,包括局部加权线性逻辑回归和局部加权密度估计。朴素贝叶斯是用密度估计进行分类的例子。和逻辑回归相比它具有优势:在属性个数上是线性的,这是这种方法在具有多属性的学习问题上具有更高的计算有效性。我们使用朴素贝叶斯的方式和在局部加权线性回归中使用线性回归的方式一样:一个局部朴素贝叶斯模型适合于用来预测类属性实例(我们称这个实例为测试实例)的领域中的数据集的子集。此领域中的训练实例是加权的,距离测试实例越远的例子具有的权重越小。然后一个分类器可以从朴素贝叶斯模型获得,朴素贝叶斯模型将测试实例的属性值作为输入。用来训练每个局部加权朴素贝叶斯模型的数据集的子集由最近邻算法决定。用户指定的参数 k 控制使用多少个实例。这通过使用具有紧支撑的加权

加权朴素贝叶斯算法及其weka程序分析20151216a 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rabbitco
  • 文件大小0 KB
  • 时间2016-07-27