基于随机森林的特征选择算法
姚登举1,2,杨 静1,詹晓娟3
(,哈尔滨 150001;,哈尔滨 150040;
,哈尔滨 150050)
摘要:提出了一种基于随机森林的封装式特征选择算法 RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在 UCI数据集上的对比实验结果表明,RFFS 算法在分类性能和特征子集选择两方面具有较好的性能。
关键词:人工智能;随机森林;特征选择;封装式
中图分类号:TP18 文献标志码:A 文章编号:1671-5497(2014)01-0137-05
DOI:
Featureselectionalgorithmbasedonrandomforest
YAO Deng-ju1,2,YANGJing1,ZHAN Xiao-juan3
(,HarbinEngineeringUniversity,Harbin150001,China; Software,HarbinUniversityofScienceandTechnology,Harbin150040,China; Technology,HeilongjiangInstituteofTechnology,Harbin150050,China)
Abstract:Afeatureselectionalgorithm basedonrandomforest (RFFS) adoptsrandomforestalgorithmasthebasictool,uracyasthecriterionfunction. The sequential backward selection and generalized sequential backward selection methods are employedforfeature experimentalresults on UCI datasetsshow thatthe RFFS uracyandfeatureselectionsubsetthantheother methodsinliteratures.
Keywords:artificialintelligence;randomforest;featureselection;wrapper
0 引 言
图像处理、信息检索以及生物信息学等技术的发展,产生了以超大规模特征为特点的高维数据集。如何有效地从高维数据中提取或选择出有
用的特征信息或规律,并将其分类识别已成为当今信息科学与技术所面临的基本问题[1]。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集,以使在该最优特征子集上所构建的分类或回归模型达到与特征选择前近似甚至更好
收稿日期:2012-08-21.
基金项目:国家自然科学基金项目(61073043,61073041);黑龙
基于随机森林的特征选择算法 来自淘豆网m.daumloan.com转载请标明出处.