数据挖掘模型评估
2018/1/14
1
一、评估分类法的准确率
2018/1/14
2
评估分类法准确率的技术有保持(holdout)和k-折交叉确认(k-fold cross-validation)方法。
另外,还有两种提供分类法准确率的策略:装袋(bagging)和推进(boosting)。
1、保持和k-折交叉
在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。
2018/1/14
3
“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。
随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。
K—折交叉确认
在k—折交叉确认(k—fold cross—validation)中,初试数据被划分成k个互不相交的子集或“折”,每个折的大小大致相等。训练和测试k次。在第i次迭代,第i折用作测试集,其余的子集都用于训练分类法。
准确率估计是k次迭代正确分类数除以初始数据中的样本总数。
2018/1/14
4
2、提高分类法的准确率
2018/1/14
5
装袋
为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。
还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。
2018/1/14
8
其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数,
t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负( “non_cancer”)样本数,
而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数
2018/1/14
9
灵敏性
特效性
精度
2018/1/14
10
预测值
1(实际“cancer”)
0(实际no_cancer)
1(预测“cancer”)
0
0
0(预测“no_cancer”)
10
90
数据挖掘数据挖掘模型评估[精] 来自淘豆网m.daumloan.com转载请标明出处.