下载此文档

基于遗传算法的随机森林模型GARF用于特征基因筛选.pdf


文档分类:论文 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
2011年中国卫生统计学年会论文集基于遗传算法的随机森林模型(GARF)用于特征基因筛选赵发林1△张涛2李康2 特征基因筛选是基因组学研究的主要目的之一。特征基因筛选不仅要求能够通过筛选到的特征变量对样本进行有效分类,而且要保证筛选得到的特征变量集有较小的假发现率(false discovery rate,FDR),否则将极大增加生物学验证的工作量,浪费大量资源,甚至无法实现生物学验证。近年米,随机森林(random forests,RF)被广泛应用于高维数据分析中并取得了良好的效果。 RF可以在对样本分类的同时给出变量重要性评分(variable importance measures,VlMs)作为特征筛选的依据。但当变量个数非常多时,其中包含的大量对分类无作用的“噪声”变量对分类效果仍会有较大影响,使VIMs不稳定,真正对分类有作用的变量很可能在筛选得到的变量子集中排序靠后甚至无法被选入。遗传算法(ic algorithm,GA)是按照随机搜索策略进行特征筛选的,可以由不同的染色体提供多样化的特征筛选结果,采用适当的GA与RF相结合将有可能降低“噪声”对筛选结果的影响,同时降低FDR水平。本研究期望给出一种基于GA的RF搜索策略GARF,用于高维数据的特征筛选。GARF在遗传过程I-I中加入基于VIMs的启发式变量搜索方法,能够降低噪声变量对分类的影响,,既能够避免人为确定筛选界值的主观性,同时能够解决单纯采用多变量启发式搜索策略存在的变量竞争问题。原理与方法 (2001)提出,它通过自助法(bootstrap)重采样技术,从原始训练样本集Ⅳ中有放回地重复随机抽取b个样本生成新的训练自助样本集合,然后根据白助样本集生成b 个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。随机森林的主要特点是在处理高维数据时不会产生过拟合现象,在分类的同时能够给出变量的重要性评分,依据该评分,可以筛选出对分类起重要作用的变量0,21。 ,是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,其基本原理是进化机制和自然选择法则13,4l。遗传算法的特点是采用简单编码技术表示复杂结构,并通对编码的遗传操作一复制(reproduction)、交叉(crossover)和变异(mutation)产生备择解集,通过优胜劣汰的选择机制进行导向性搜索。进化算法不需要了解问题的全部特征,就可以通过体现进化机制的进化过程完成问题求解。 : GARF采用RF模型对变量在样本分类中的作用进行评价,以Permutation方法确定特征筛选界值作为最终确定特征变量的依据。为减少噪声变量对RF变量评价结果的干扰,每个RF模型仅包含由GA算法选取的部分变量,并且在遗传过程中加入了变量筛选步骤以进一步降低噪声变量影响, 尽量减少RF模型过拟合的可能。GA算法的启发特性使对分类作用较强的变量有更多的机会被评价, 从而增强RF评价结果的稳定性;同时,GA算法的“变异”过程使搜索结果向一定方向收敛的同时具备较强的多样性,使分类作用较弱的变量也可以获

基于遗传算法的随机森林模型GARF用于特征基因筛选 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w3332654
  • 文件大小0 KB
  • 时间2016-07-05
最近更新