下载此文档

决策树算法..doc


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
图10决策树模型图从上图可以看到,决策树由“树的节点”和“树枝”组成,节点有两种类型:内部结点和叶结点,分别用圆形和矩形表示,内部结点表示一个特征或属性,叶结点表示一个类。用决策树解决分类问题,从根结点开始,对实际问题中的某一个特征变量进行检测判断,根据判断的结果,将某个实例分配到其相应的子结点中,按这样一直分下去,最终到达其中的某个叶结点,说明该实例属于该节点对应的类[7]。,基本上可以分为三步:特征选择、决策树的生成、决策树的剪枝。(1特征选择选出对训练数据集有较好分类能力的特征。特征选择一般采用的准则是基尼系数、信息增益或者信息增益比。1先给出熵的定义(熵是表示随机变量不确定性的度量:对于一个离散的有限的随机变量X,概率分布为nipxXPii,...,2,1,(===(8则∑=-=niiippXH1log(叫做关于X的熵。由定义可知熵只依赖于分布,而与X的取值无关,所以也可以把熵记为(pH。下面我们给出条件熵的概念。∑===niiixXYHpXYH1|(|((9经验熵:由已知的数据估计得到的熵。对应的条件熵为经验条件熵。2信息增益表示得知特征X的信息而使类Y的信息的不确定性减少的程度。|((,(ADHDHADg-=(10为特征A对训练集D的信息增益。由信息增益的定义可知,信息增益和特征的分类能力呈正比,故利用信息增益来选择特征的步骤如下:对于训练数据集D,计算每个特征的信息增益,尽量选取信息增益大的特征,来构建决策树。在实际应用中,信息增益一般都是用经验熵和经验条件熵的差来近似的,其算法如下:设|D|表示样本容量,即样本个数;设有K个类KC,|KC|表示属于KC的样本个数。设特征A有n个子集nDDD,...,,21,|iD|为iD的样本个数。记子集iD中属于类KC的样本的集合为ikD,同样|ikD|为ikD样本个数。所以,训练数据集D的经验熵[8]:∑=-=KkkkDCDCDH12||||log||||((11而特征A对数据集D的经验条件熵:∑∑∑===-==niKkiikiikiniiiDDDDDDDHDDADH1121||||log||||||||(|||||((12所以信息增益:|((|(ADHDHADg-=(133以信息增益当作划分训练数据集的特征的准则,存在的问题:该准则对于取值较多的特征有优选考虑的问题,而使用信息增益比可以对这一问题进行校正:(,(,(DHADgADgAR=(14其中,∑=-=niiiADDDDDH12||||log||||(,n是特征A取值的个数

决策树算法. 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小32 KB
  • 时间2019-10-25