下载此文档

随机森林 一种重要的肿瘤特征基因选择法.doc


文档分类:论文 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
:一种重要的肿瘤特征基因选择法李建更,高志坤(北京工业大学电子信息与控制工程学院,北京100124)摘要:特征选择技术已经被广泛地应用于生物信息学科,随机森(林randomforests,RF)是其中一种重要的特征选择方法。利用RF对胃癌、结肠癌和肺癌等5组基因表达谱数据进行特征基因选择,将选择结果与支持向量机(supportvectormachi,neSVM)结合对原数据集分类,并对特征基因选择及分类结果进行初步的分。析同时使用微阵列显著性分析(significantanalysisofmicroarray,SAM)和ReliefF法与RF比较,结果显示随机森林选择的特征基因包含更多分类信息,分类准确率更高。结合该方法自身具有的分类方面的诸多优势,随机森林可以作为一种可靠的基因表达谱数据分析手段被广泛使用。关键词:肿瘤;特征选择;随机森林;SM;ReeFAlif中图分类号:TP391集进行特征基因的选择,然后将所选结果结合支持引言0向量机vectormachine,SVM对原数据support()集分类比较,最后分析实验结果。在肿瘤的预测及治疗过程中,通常需要对病变部位的组织样本进行DNA提取,得到每个样本对应各基因的表达谱数据这些数据通常具有小样。方法及原理1本超高维的特点,即临床样本少而包含的基因有、成千上万,,大量冗余基因和噪声给研究人员的工作造成很随机森林是一种操作方便、结果可靠的分类大困难。此外,利用原始数据构建分类器对新样本器,在不增加原样本集样本的情况下通过拔靴法进行预测,不但会花费大量时间,还会降低分类效果。因此,特征选择在表达谱数据分析过程中是不(bootstra)p选择样本子集构建一组分量分类器,可或缺的,是研究人员挑选有价值的基因进行有针然后利用投票(voting)机制综合分量分类器的结对性和高效的研究的重要手段根据特征选择过程。果得到最终分类结果。在构建分量分类器时,未被与分类器设计的关系,特征选择算法一般可以分为选中的样本组成袋外(out-of-bag,OOB)数据集,用袋外数据进行测试得到袋外误差(out-of-bag过滤法(filter)、绕封法(wrappe)rerror,OOBEr)r。随机森林有很多优点,如:不和嵌入法[1]需要对数据预处理适用于变量数目远大于样本数、(embedde)d。其中,filter法独立于分类器,目的问题对多类问题处理方便快捷不会过拟合、、wrapper法和Embedded法与分类器结合使用。本(overfitting)、分类结果稳定等。随机森林的分类文采用的随机森林(randomforests,RF)属于[4]效果要等于或优于其它分类器。文献[5]从减弱embedded法,该方法是基于决策树(decision“森林”中树分类器的相关性及改善投票机制两个tre)e的分类器集成算法,最早由LeoBreiman提[2]方面对随机森林进行了改进,取得了一定的效果。出。通过随机置换分离点基因值判断其对分类效果的影响从而决定被置换基因的重要性,并对所有在对数据集进行分类的同时,随机森林得出变量重要性分析,通过分析决定特征选择变量。基因的重要性进行排序。本文同时使用ReliefF法在RF中,尽管参数的选择对结果的影响很和基于检验(-tes)t的SAM法与RF进行结果tt[3]对比。ReliefF算法利用欧式距离(Euclideandistanc)e计算基因与类之间的关系;SAM的核心收稿日期:2008-05-06思想是统计学的假设检验法,通过比较基因在不t基金项目:国家自然科学基金项目(60234020)同类别中的差异表达计算该基因与类别的显著性关通讯作者:高志坤,电话:(010)67396155,E-mail:******@。本文首先利用上述提到的三种方法对5组数据[4]小,,需要进数,分别是:=3(每个分离mtrynumberofgene姨行数据预处理,如缺失值估计缺失值估计有多种。点选择的基因数);(决策树数)。决策=1200ntree方法,这里只采用最简单的近邻法K树数对结果的影响相对较大,数目少训练不充分,(-nearest-neighbors,KNN)。即对于样本的第Kij数目大又会增加计算量。实验证明构建1200棵决个缺失基因表达值,首先计算该样本与个最近gkij策树既能有最高的分类正确率,又能保证结果的稳邻的欧氏距离(…,),利

随机森林 一种重要的肿瘤特征基因选择法 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库旗舰店
  • 文件大小37 KB
  • 时间2020-03-11