22. 方差分析
一、方差分析原理
1. 方差分析概述
方差分析可用来研究多个分组均值有没有差异,其中分组是按影响原因不一样水平值组合进行划分。
方差分析是对总变异进行分析。看总变异是由哪些部分组成,这些部分间关系怎样。
方差分析,是用来检验两个或两个以上均值间差异显著性(影响观察结果原因:原因变量(列变量)个数大于2,或分组变量(行变量)个数大于1)。一元时常见F检验(也称一元方差分析),多元时用多元方差分析(最常见Wilks’∧检验)。
方差分析可用于:
(1)完全随机设计(单原因)、随机区组设计(双原因)、析因设计、拉丁方设计和正交设计等资料;
(2)可对两原因间交互作用差异进行显著性检验;
(3)进行方差齐性检验。
要比较几组均值时,理论上抽得多个样本,全部假定来自正态总体,且有一个相同方差,仅仅均值能够不相同。还需假定每一个观察值全部由若干部分累加而成,也即总效果可分成若干部分,而每一部分全部有一个特定含义,称之谓效应可加性。所谓方差是离均差平方和除以自由度,在方差分析中常简称为均方(Mean Square)。
2. 基础思想
基础思想是,将全部测量值上总变异根据其变异起源分解为多个部份,然后进行比较,评价由某种原因所引发变异是否含有统计学意义。
依据效应可加性,将总离均差平方和分解成若干部分,每一部分全部和某一个效应相对应,总自由度也被分成对应各个部分,各部分离均差平方除以各自自由度得出各部分均方,然后列出方差分析表算出F检验值,作出统计推断。
方差分析关键是总离均差平方和分解,分解越细致,各部分含义就越明确,对多种效应作用就越了解,统计推断就越正确。
效应项和试验设计或统计分析目标相关,通常有:主效应(包含多种原因),交互影响项(原因间多级交互影响),协变量(来自回归变异项),等等。
当分析和确定了各个效应项S后,依据原始观察资料可计算出各个离均差平方和SS,再依据对应自由度df,由公式MS=SS/df,求出均方MS,最终由对应均方,求出各个变异项F值,F值实际上是两个均方之比值,通常情况下,分母均方是误差项均方。
依据F值分子、分母均方自由度f1和f2,在确定显著性水平为α情况下,由F(f1, f2)临界值表查得单侧Fα界限值。当F<Fα时,则P值>α,不拒绝原假设H0,说明不拒绝这个效应项效应为0原假设,也即这个效应项是可能对总变异没有实质影响;若F>Fα则P值≤α,拒绝原假设H0,也即这个效应项是很可能对总变异有实质影响。
为了确定方差分析表中各个相关效应项,需要在试验设计阶段就作出安排,再依据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中各项。
在试验设计阶段通常需要考虑以下4个方面:
(1)研究因变量
即试验所要观察关键指标,一次试验时能够有多个观察指标,方差分析时也能够同时对多个因变量进行分析;
(2)原因和水平
试验原因(factor)能够是品种、人员、方法、时间、地域等等,原因所处状态叫水平(level)。在每一个原因下面能够分成若干水平。
(3)原因间交互影响
多原因试验设计,有时需要分析原因间交互影响(interaction),2个原因间交互影响称为一级交互影响(A×B);3个原因间交互影响称为二级交互影响(A×B×C)。
当交互影响项展现统计不显著时,表明各个原因独立,当展现统计显著时,就需要列出这个交互影响项效应,以助于作出正确统计推断。
举例解释上述概念:要考察焦虑症诊疗疗效,一个原因是诊疗方案,有2种诊疗方案,即该原因有2个水平;(诊疗方案称为组间因子,因为每个患者只能被分配到一个组别中,没有患者同时接收两种诊疗);再考虑一个原因诊疗时间,也有两个水平:诊疗5周和诊疗6个月,同一患者在5周和6个月不止一次地被测量(两次),称为反复测量(诊疗时间称为组内因子,因为每个患者在全部水平下全部进行了测量)。
建立方差分析模型时,既要考虑两个原因诊疗方案和诊疗时间(主效应),又要考虑诊疗方案和时间交互影响(交互效应),此时即两原因混合模型方差分析。
当某个原因各个水平下因变量均值展现统计显著性差异时,必需时可作两两水平间比较,称为均值间两两比较。
二、R语言实现
方差分析对数据要求:满足正态性(来自同一正态总体)和方差齐性(各组方差相等),在这两个条件下,若各组有差异,则只可能是来自影响原因不一样水平。
用aov()函数进行方差分析,基础格式为:
aov(formula, data=NULL, projections=FALSE, qr=TRUE,
contrasts=NULL, ...)
其中,formula为方差分析公式;
data为数据框;
p
R语言学习系列27方差分析样稿 来自淘豆网m.daumloan.com转载请标明出处.