探索性数据分析
论文题目:同时描述两个变量的案例分析姓名:
学号:
课程老师——基于JMP软件
本次将主要对第四章的同时描述两个变量进行简单地案例分析,这章主要将数据划分分两类:定类变量(建模中包括定名型和定序型)以及连续变量。在两个变量关系的研究中,我们需要分析上述两类变量的三种组合:两个定类变量、两个连续变量、连续变量和定类变量各一个。本章中,我们将会学习上述三种成对二元数据的几种常见分析方法。
共同变化描述:两个定类变量
主要通过初识二元分布图、马赛克图、列联表描述
共同变化描述:两个连续变量
主要通过两个连续变量的分布、散点图、相关系数矩阵描述
两组比较:一个连续变量,一个定类变量
主要通过单因子分析描述
案例分析
背景:高血压仍然是美国人的主要健康问题。数据表(NHANES)包含了来自于2005年美国对大量人群调查所得到的数据。在该案例分析中,我们只关注一下变量: RIAGENDR:受调查者的性别
RIDAGEYR:受调查者的年龄(单位:年)
RIDRETH1:受调查者的种族或民族背景
BMXWT:受调查者的体重(单位:千克)
BPXPLS:受调查者的静息脉率
BPXSY1:受调查者的收缩压(最高值以BP为单位)
BPXD1:受调查者的舒张图(最小值以BP为单位)
a、绘制收缩压与年龄的散点图。在这个样本中,血压会随着人们的年龄发生什么样的变化?
绘制的散点图如下:
二元拟合,以“RIDAGEYR”拟合“BPXSY1”
线性拟合
BPXSY1 = + *RIDAGEYR
拟合汇总
R 方调整 R 方均方根误差响应均值
观测数(或权重和)
6668 平方和
标准误差
均方 790155 237
t 比
F 比 概率>F <.0001* 概率>|t| <.0001* <.0001*
方差分析
源模型误差校正总和
自由度
1 6666 6667
参数估计值
项截距 RIDAGEYR
估计值
图1 散点图
从上图可以看出,散点大部分都在红色拟合线附近,但散点呈现的形态与一条理想的直线的关系却相差甚远。,说明拟合效果较差,血压和年龄之间的关系不是很明显。
b、计算并输出收缩压和舒张压之间的相关性度量。
连续型数据的概括性描述被
探索性数据分析 来自淘豆网m.daumloan.com转载请标明出处.