基于决策树算法在学生成绩上的应用
摘 要:决策树是从一组无规则并且无次序的数据集中求解分类问题的重要技术。决策树不仅是从数据集中生成分类器的有效方法,同时也是数据挖掘技术中一个活跃的研究领域。通过决策树挖掘可以对数据进行分类基于决策树算法在学生成绩上的应用
摘 要:决策树是从一组无规则并且无次序的数据集中求解分类问题的重要技术。决策树不仅是从数据集中生成分类器的有效方法,同时也是数据挖掘技术中一个活跃的研究领域。通过决策树挖掘可以对数据进行分类。该文以学生学习态度、完成作业情况、考勤等为因素,利用决策树技术分析影响学生成绩的因素,对学生成绩的影响因素加以探讨。
关键词:数据挖掘 决策树方法 学生成绩
中图分类号:G64 文献标识码:A 文章编号:1672-3791(2019)12(c)-0083-02
在数据挖掘和数据分析中,决策树起着非常重要的作用,其可以构建一个决策系统,对数据进行预测。决策树的结构类似树型结构,利用树的结构将记录进行分类,树的一个叶结点就代表某个条件下的一个记录集。并根据记录字段的不同取值建立分支,以此重复,便可生成决策树。根据决策树的结构对数据集中的属性值进行测试可以对未知数据对象进行分类识别。决策树的常用算法包括:ID3算法、、CART算法、CHAID算法等。
1 決策树方法的特点
决策树因其形状像树。所以特点包括:(1)一个决策树由一系列节点和分支组成。(2)节点和子节点之间形成分支,节点代表着决策过程中所考虑的属性,不同属性值形成不同分支。
基于CLS算法思想和Quinlan的ID3算法思想,改进的决策树学习算法如下。
(1)生成一颗空决策树和一张训练样本表。
(2)若训练样本集T中的所有样本都属于同一类,则生成结点T,并终止学习算法。
(3)根据最大信息增益的原则,先从训练样本属性中选择信息增益最大的属性,并生成测试性结点,即根结点A。
(4)若A的取值为a1,a2,…,am,则根据A取值不同,将 T划分为m个子集T1,T2,…,Tm。
(5)对每一个Ti(1≤i≤m),转步骤(2)。
2 实证分析
该研究用例是采用某大学学生期末数学成绩数据作为挖掘对象,数据来源于网络。通过挖掘分析,找出影响学生成绩的主要因素。该文采用基于ID3算法的改进算法建立决策树。建立决策树,应从以下属性考虑:(1)学生对数学课的感兴趣程度;(2)学习态度;(3)出勤情况;(4)独立完成作业情况。
如表1所示,经过数据处理后的数据成绩信息的训练集,将考试结果分为4类。具体为:A(优秀)、B(良好)、C(及格)、D(不及格)。我们的输出结果是A、B、C、D,一共30条记录。其中,取值为A的记录有17个,取值为B的记录有9个,取值为C的记录有2个,取值为D的记录有2个。则样本S记为:S1=17,S2=9,S3=2,S4=2。
根据熵的计算公式,得到:
下面计算信息增益:分别以“对数学课感兴趣的程度”“学习态度”“课堂考勤”等作为根结点,计算其信息增益。以属性“对数学感兴趣的程度”作为根节点。取值为感兴趣的记录有17个,其中有14个A、2个B、1个C,0个D;取值为一般
基于决策树算法在学生成绩上的应用 来自淘豆网m.daumloan.com转载请标明出处.