下载此文档

决策树算法.docx


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二 叉树,将目标变量区分出来,所有决策树算法的关键点如下:
1•分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量 中,优先选择哪个自变量进行分叉。而采用何种计算方式选变量该怎样计算信息增益呢?只需将连续 型变 量由小到大递增排序,取相邻两个值的中点作为分裂点,然后按照离散型 变量计算信息增益的方法计算信息增益,取其中最大的信息增益作为最终的分裂 点。如求修 障时长的信息增益,首先将修障时长递增排序,、12、14、 16、18、20、22、23、24、25,取相邻两个值的中点,如10. 2和 12,中点即为
(+12)/2=,同理可得其他中点,、13、15、17、19、21、 22. 5、23. 5、24. 5。对每个中点都离散化成两个子集,如中点11. 1,可以离散 化为两个<=>,然后按照离散型变量的信息增益计算方式计 算其信息增益,:
—hz 1/1 Ik 9/4 4^ 5 5\
1就°燔膚时虽(満青度=77" (_T* <0S2g_g * 10g2gj = °'222+J
(修障时长)=1-=
中点13的信息增益计算过程如下:
Info〔满童度 I = ^log-. — # logz — =1>
' 7 10 210 1D " 10
+土 2 /I 1 1 1\ 8 / 4 4 4 4\
【就口 悔底旺艮(满意康 二力* (一亍* 10ga2 _ 2*10§22^ +10 * : - ':■ - -' * ^§2 g J = 1+J
(修障时长)=1-1=0
同理分别求得各个中点的信息增益,选取其中最大的信息增益作为分裂点,如取 。然后与故障原因和故障类型的信息增益相比较,取最大的信息增益 作为第一个树叉的分支,此例中选取了故障原因作为第一个分叉。按照同样的方 式继续构造树的分支。
总之,信息增益的直观解释为选取按某个自变量划分所需要的期望信息, 该期望信息越小,划分的纯度越高。因为对于某个分类问题而言,Info(D)都是 固定的,而信息增益 Gain(A)=Info(D)-InfoA(D) 影响信息增益的关键因素为: -InfoA(D),即按自变量A进行划分,所需要的期望信息越小,整体的信息增益 越大,越能将分类变量区分出来。
算法的增益率:
由于信息增益选择分裂属性的方式会倾向于选择具有大量值的属性(即 自变量),如对于客户ID,每个客户ID对应一个满意度,即按此变量划分每个 划分都是纯的(即完全的划分,只有属于一个类别),客户ID的信息增益为最 大值1。但这种按该自变量的每个值进行分类的方式是没有任何意义的。为了克 服这一弊端,有 人提出了采用增益率(GaInRate)来选择分裂属性。计算方式 如下:
Pl% |DJ
SplitIfifoA(D)=-基 币厂 ^ga(—)+^
Gain (A)
Gain Rate. : Dj = /
A SplitInfoA
其中Gain(A)的计算方式与ID3算法中的信息增益计算方式

决策树算法 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jiyudian11
  • 文件大小136 KB
  • 时间2022-06-16