基于决策树ID3算法的销售模型.doc基于决策树ID3算法的销售模型
:随着决策树技术在销售领域的广泛应用,为了对隐藏在销售数据背后的销售策略进行挖掘。本文以电脑销售客户信息为例,通过使用ID3算法,对电脑销售数据信息进行挖掘,以获取所需的销售信息,并基于VC 设计和实现该系统。实践表明,该系统对电脑销售客户信息数据的分类,有很好的效果,能达到预期的要求,对电脑销售有很好的指导作用和并具有广阔的发展前景。
关键词:决策树技术销售 ID3算法 VC
一、引言
随着经济的发展,各行各业都面临着竞争的压力,如何从大量数据中挖掘出用价值的信息,显得越来越重要。电脑销售积累了大量的历史数据,常规的统计手段无法根据现有的数据预测未来的发展趋势和隐含的规律。数据库中数据挖掘(DataMining),它是由数据库、机器学习、统计学等多门学科形成的一门新兴学科。其目标是从大量原始数据中挖掘出隐含的、有用的、未知的知识,所发现的知识可以是描述数据特性的规则、频繁出现的模式、数据集中目标的聚类、预测模型等。目前数据挖掘技术被认为具有广阔的研究前景。本文使用了决策树ID3算法建立了以购买电脑的客户信息作为输入,生产购买电脑与否的决策树模型。
开发的基于Visual C ,同时可以根据用户的输入数据进行预测并进行决策树的生成。
二、决策树技术
决策树是一个可以自动对数据进行分类的树型结构,通过树形结构的知识,可以直接转换为决策规则,它能被看作一棵树的预测模型,树的根节点是整个数据集合空间,每个分节点是一个分裂问题,它是对一个单一变量的测试,给测试将数据集合空间分割成两个或更多块,每个叶结点是带有分类的数据分割。
当我们把购买电脑的客服信息作为训练实例集进行训练,。该决策树可以根据属性的取值对一个未知实例集进行分类。由树根开始对该对象的属性逐渐测试其值,,此叶结点代表的类即为该对象所处的类。
三、ID3算法的介绍
对所有的决策树算法来说,关键的问题是分支属性应该如何选择,也就是应该选用什么样的分支策略。ID3算法则是基于信息熵的决策树分类算法,它通过计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分支根据该属性进行划分样本。
ID3算法以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。以下是一些信息论的基本概念:
(1)对一个样本集合D,它包含m个类别的样本,D的熵值定义为Info(D)有公式:
其中Pi为D中任意元组属于类D的概率。
(2)此时若按属性A划分D中的元组,则属性A根据训练数据的观测具有V个不同的值,可以将D划分为V个子集{D1,D2,D3…Dv}。
(3)为得到准确的分类信息,需要得到按属性划分的元组分类的期望信息InfoA(D),有公式:
数值v对应的是按属性划分测试上的V个输出,Info(Dj)表示各个属性分类的期望信息。
信息增益定义为原来的信息需求与新的需求(
基于决策树ID3算法的销售模型 来自淘豆网m.daumloan.com转载请标明出处.