下载此文档

多因素回归知识点总结.docx


文档分类:高等教育 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
多因素回归知识点总结一. 哑变量因变量: 即结果变量、应变量、被预测变量自变量: 即协变量、解释变量、预测变量哑变量:回归分析中有两组以上的分组情况。若自变量是无序多分类变量,需要“哑变量化”处理。方法是设置“分组数减 1”个指示变量。职业 g1 g2 g3 g4 工人 1000 农民 0100 商人 0010 学生 0001 其他 0000 uy= u0+ b1× g1+ b2× g2+ b3× g3+ b4× g4 则学生组总体均数为 u0+ b4× g4 二. 混杂因素控制举例:是否服药(分现服药组、曾服药组、从未服药组) 、年龄两个因素对血糖的影响若只考察“是否服药”一个因素,哑变量化是否服药 g1 g2 现服药 10 曾服药 01 从未服药 00 uy= u0+ b1× g1+ b2× g2 则 g1、 g2的P 值皆< ,说明血糖受“是否服药”影响但发现 3 组人的年龄是不同的, 因此必须排除年龄是否是混杂因素考察“是否服药”和年龄两个因素 uy= u0+ b1× g1+ b2× g2+ b3×X 发现 g1、 g2的P 值皆> ,而 X的P 值< , 说明 3 组血糖不同其实是由于年龄不同导致,“是否服药”反而是混杂因素理论上, 更严格的实验要求分析“是否用药”与年龄是否对血糖构成交互作用三. 影响因素的筛选 1. 最优预测模型: 需满足以下三个条件: ①自变量个数一定时,残差的平方和最小②进入回归模型的自变量都有统计学意义③再增加任一自变量,会导致更多自变量失去统计意义 2. 寻求最优预测模型方法: ①前进法:计算所有自变量的 P 值,从 P 值最大的开始,逐个纳入自变量,出现有 P 值> 则剔除新加自变量,直到有统计学意义的自变量全部进入回归模型。缺点:后续变量的引入可能会使先进入方程的变量变得不重要②前进逐步回归法:计算所有自变量的 P 值,从 P 值最大的开始,逐个纳入自变量,出现有 P 值> 则剔除无统计意义且 P 值最大的自变量, 依次循环引入、剔除, 直到回归模型中所有自变量都有统计学意义, 且再增加任一自变量,会导致更多自变量失去统计意义③后退法:纳入所有自变量,先剔除无统计学意义且 P 值最大的自变量,再次计算并依前标准剔除,直到模型中所有自变量都有统计学意义。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果④后退逐步回归法:纳入所有自变量,先剔除无统计学意义且 P 值最大的自变量,再次计算并依前标准剔除,剔除后还要考察已剔除的自变量是否能回纳入回归模型,直到既没有自变量可以引入,也没有自变量要剔除为止 3. 举例: 有5 个自变量 X1~ X5 X1 X2 X3 X4 X5 说明步骤 1 回归系统 b - 全部纳入, X3的P 值最大,先剔除 P值 步骤 2 回归系统 b 重新计算, X5的P 值最大,故剔除 P值 步骤 3 回归系统 b

多因素回归知识点总结 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人ielbcztwz24384
  • 文件大小97 KB
  • 时间2017-04-22
最近更新