决策树法
决策树分类算法概述
决策树(Decision Tree),顾名思义就是一个类似于流程图的树型结构。有人
也说它因形状像树且能用于决策而得名。—个决策树由—个根节点(Root nodes)、
一系列内部节点(Internal nodes)和分支以及若干个叶节点(Terminal nodes)组成,
每个内部节点只有一个父节点和两个或多个子节点,节点和子节点之间形成分支。
其中树的每个内部节点代表一个决策过程中所要测试的属性;每个分支代表测试
的一个结果,不同属性值形成不同分支;而每个叶节点就代表一个类别,即图像
的分类结果。树的最高层节点称为根节点,是整个决策树的开始。图 就是—
棵用于遥感影像分类的二叉决策分类器的简单示意图。从中可以看到决策树的基
本组成部分:根节点、节点、分支和叶节点。
图 决策树分类器示意图
决策树分类算法起源于概念学习系统CLS(Concept Iearning System),然后发
展到ID3方法而为高潮,,有名的决策树
方法还有CART和Assistant,Sliq、Spdnt等等。其中决策树方法中最为著名的算
法是Quinlan于1986年提出的ID3算法,算法以信息熵的增益进行属性选择。但由
于ID3算法采用基于信息熵的属性选择标准,因此偏向于选择属性取值较多的属
性,而属性取值较多的属性却不一定是最佳的分类属性。1993年,Qullan对ID3
算法进行了改进,利用信息增益率进行属性选择,。
还在ID3算法的基础上增加对连续型属性、属性值空缺情况的处理,对剪枝也有
了较成熟的算法。
决策树分类算法主要是利用信息论原理对大量样本的属性进行分析和归纳
而产生的。决策树的根节点是所有样本中信息量最大的属性;树的中间节点是以
该节点为根的子树所包含的样本子集中信息量最大的属性;决策树的叶节点是样
本的类别值。为了对未知数据对象进行分类识别,可以根据决策树的结构对数据
集中的属性值进行测试,从决策树的根节点到叶节点的一条路径就形成对象的类
别预测,即生成一棵决策树,再剪枝,优化,然后把决策树转化为规则,利用这
些规则可以对新事例进行分类。
从商业角度看,决策树是一种深层次的商业信息分析技术。它借助企业现
有的数据仓库,对大量的企业客户信息进行分析,最后对客户进行分类,揭示客
户本身特征与最终购买行为之间的对应关系,并进一步将其模型化,从而自动提
取出用以辅助商业决策的相关商业模式。例如,在金融产品的营销过程中,利用
决策树对金融客户的特征数据进行分析,可以对金融客户进行分类,在此基础上
通过对过去购买不同金融产品的客户的分析,发现优质客户所对应的一些习惯性
的交易方式,再回过头来对具有这些交易方式的客户采取相应的营销对策, 为
近期或长期客户的投资交易行为做出预测,实现最大收益化。因此研究大量金融
客户的特征数据是金融机构制定市场营销策略和进行收益规划的基础。
决策树分类算法的构建过程及 ID3 算法
决策树分类器的构造通常分两步走:第一步是初始决策树的生成,即利用训
练集生成一棵决策树,建立决策树模型。这个
决策树分类 来自淘豆网m.daumloan.com转载请标明出处.