下载此文档

决策树算法.docx

文档分类：IT计算机 | 页数：约6页举报非法文档有奖

1/6

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/6 下载此文档

文档列表 文档介绍

决策树算法：顾名思义，以二分类问题为例，即利用自变量构造一颗二叉树，将目标变量区分出来，所有决策树算法的关键点如下：
1•分裂属性的选择。即选择哪个自变量作为树叉，也就是在n个自变量中，优先选择哪个自变量进行分叉。而采用何种计算方式选变量该怎样计算信息增益呢？只需将连续型变量由小到大递增排序，取相邻两个值的中点作为分裂点，然后按照离散型变量计算信息增益的方法计算信息增益，取其中最大的信息增益作为最终的分裂点。如求修障时长的信息增益，首先将修障时长递增排序，、12、14、 16、18、20、22、23、24、25,取相邻两个值的中点，如10. 2和 12，中点即为
（+12）/2=,同理可得其他中点，、13、15、17、19、21、 22. 5、23. 5、24. 5。对每个中点都离散化成两个子集，如中点11. 1，可以离散化为两个＜=＞，然后按照离散型变量的信息增益计算方式计算其信息增益，：
—hz 1/1 Ik 9/4 4^ 5 5\
1就°燔膚时虽(満青度=77" (_T* <0S2g_g * 10g2gj = °'222+J
(修障时长)=1-=
中点13的信息增益计算过程如下：
Info〔满童度 I = ^log-. — # logz — =1>
' 7 10 210 1D " 10
+土 2 /I 1 1 1\ 8 / 4 4 4 4\
【就口悔底旺艮(满意康二力* (一亍* 10ga2 _ 2*10§22^ +10 * : - '：■ - -' * ^§2 g J = 1+J
(修障时长)=1-1=0
同理分别求得各个中点的信息增益，选取其中最大的信息增益作为分裂点，如取。然后与故障原因和故障类型的信息增益相比较，取最大的信息增益作为第一个树叉的分支，此例中选取了故障原因作为第一个分叉。按照同样的方式继续构造树的分支。
总之，信息增益的直观解释为选取按某个自变量划分所需要的期望信息，该期望信息越小，划分的纯度越高。因为对于某个分类问题而言，Info(D)都是固定的，而信息增益 Gain(A)=Info(D)-InfoA(D) 影响信息增益的关键因素为： -InfoA(D)，即按自变量A进行划分，所需要的期望信息越小，整体的信息增益越大，越能将分类变量区分出来。
算法的增益率：
由于信息增益选择分裂属性的方式会倾向于选择具有大量值的属性(即自变量)，如对于客户ID,每个客户ID对应一个满意度，即按此变量划分每个划分都是纯的(即完全的划分，只有属于一个类别)，客户ID的信息增益为最大值1。但这种按该自变量的每个值进行分类的方式是没有任何意义的。为了克服这一弊端，有人提出了采用增益率(GaInRate)来选择分裂属性。计算方式如下：
Pl% |DJ
SplitIfifoA(D)=-基币厂 ^ga(—)+^
Gain (A)
Gain Rate. : Dj = /
A SplitInfoA
其中Gain(A)的计算方式与ID3算法中的信息增益计算方式

决策树算法来自淘豆网m.daumloan.com转载请标明出处.