什么是方差分析? (一个例子)
表8-1 该饮料在五家超市的销售情况
超市
无色
粉色
橘黄色
绿色
1
2
3
4
5
例. 某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见下表。试分析饮料的颜色是否对销售量产生影响。
方差分析的两个过程
方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOVA (Analysis of variance)过程和GLM (General Liner Model)过程。前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大。GLM过程即广义线形模型过程,它使用最小二乘法对数据拟合广义线形模型。GLM过程中可以进行回归分析、方差分析、协方差分析、等等。
Anova适用于平衡试验设计的方差分析,glm对平衡和非平衡都适用;当是平衡设计时,anova方差分析比glm快;在使用anova过程时,若数据不是来自平衡设计,则会给出警告信息
在某些情况下anova可以不受平衡的要求,包括:单因素方差分析,拉丁方设计特定的部分不完全区组设计,完全嵌套设计等
当不能肯定设计是否符合anova类型,最好用glm过程进行方差分析。
PROC ANOVA 格式
PROC ANOVA <DATA=?> <OUTSTAT=?>;
CLASS 变量串;
MODEL 因变量串=效应串/<选项>;
BY 变量串;
FREQ 变量;
MEANS 效应串</选项>;
RUN;
QUIT;
其中蓝颜色是必须语句且必须按所列顺序出现;绿颜色必须出现在第一个RUN语句之前,供选择的语句;红颜色可以出现在MODEL语句之后,并可以交互使用。
PROC ANOVA 中的选项
Data= 指定用于分析的数据集
Outstat= 生成一个数据集,包含模型中每个效应的平方和,F统计量及p值
在ANOVA过程中要使用的分类变量必须首先在CLASS语句中说明。CLASS语句是必须语句,且必须放在model语句之前;class变量可以通过格式化数值变量得到
MODEL语句用来规定因变量和自变量的效应,如果没有规定自变量的效应,则anova只拟合截距项,检验假设为因变量的均值是否为0
PROC ANOVA语句说明
MEANS语句应放在MODEL语句之后,MEANS语句后列出希望得到均值的那些变量。MEANS语句有很多选项,下面列出几个常用选项,将选项写在MEANS语句的“/”之后。
SNK: 对MEANS语句列出的所有主效应均值进行Student-Newman-Keuls检验。
T | LSD: 对MEANS语句列出的所有主效应均值进行两两t检验,它相当于在样本含量相同时的LSD检验。
ALPHA=: 均值间对比检验的显著水平,。。
HOVTEST: 对means语句中所指定效应的各个水平进行方差齐性检验
PROC ANOVA语句说明续
示例1
此例数据取自1946年Erden的实验数据。分别用六种培养菌培养红丁香(clover),然后考察红丁香中的含氮量( Strain )与这六种菌有没有关系
title 'Nitrogen Content of Red Clover Plants';
data Clover;
input Strain $ Nitrogen @@;
datalines;
3DOK1 3DOK1 3DOK1 3DOK1 3DOK1
3DOK5 3DOK5 3DOK5 3DOK5 3DOK5
3DOK4 3DOK4 3DOK4 3DOK4 3DOK4
3DOK7 3DOK7 3DOK7 3DOK7 3DOK7
3DOK13 3DOK13 3DOK13 3DOK13 3DOK13
;
Run;
示例1续
proc anova;
class Strain;
model Nitrogen = Strain;
方差分析r 来自淘豆网m.daumloan.com转载请标明出处.