绪论
科研实施的过程:科研设计、资料分析、结论。
资料分类
定量资料(quantitative data):单位间只有量的差别、有连续性。
定性资料(qualitative data):单位间可存在质的差别、有质地差别则无连续性。
等级资料(ranked data):单位间可存在质的差别、有顺序无大小。
总体(population):按研究目的确定的研究对象中所有观察单位某项取值的集合,有限或
无限。
样本(sample):从研究对象中随机抽取具有代表性或部分观察单位或某指标集合。
[同一样本或总体各个观察值必需具有同质性]
参数(parameter):描述总体特征的指标。
统计量(statistic):描述样本统计量的指标。
概率(probability):随机事件发生可能性大小的度量,0≤p≤1。
小概率原理:,认为发生概率很小,一次抽样中不会发生。
6、随机(random):保证样本代表性、可靠性,使各个组的非处理因素保持一致。包括抽样随机、分组随机、实验顺序随机。
第二章个体变异与变量分布
1、变异(variation):同质性的观察单位之间的差异。是一种或多种不可控因素的综合反映。
2、频数分布表:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。
①找出极大值和极小值,并计算极差R
②依R分组,确定组数组距组段,常取8-15组,用1/10R取整作组距
③列标划记
3、频数表的用途:①可揭示资料的分布特征和分布类型
分布类型:
对称:均数在正中,左右频数对称
偏态: 正偏态,如以儿童为主的传染病的患者年龄
负偏态, 如一些慢性病的患者年龄
②进一步计算其它统计指标和统计分析处理。
③便于发现某些可疑值
4、定量资料的集中位置描述
①算术均数(arithmetic mean),有时要加权(weighted mean),用于正态分布资料。
②几何均数(geometric mean),G=e^(∑lnX/n),用于偏态(呈倍数关系)尤其是对数资料。
注意:所有值必须大于0,否则做相应变换。
③中位数和百分位数:可应用于所有资料,但样本数要多,抗极值能力好,精确性差。
1)描述偏态分布资料的集中位置
2)资料呈显著偏态或有个别特大特小值
3)一端或两端有不确定的数值
定量资料的离散趋势描述
①全距
②四分数间距(inter-quartile range):用于偏态分布。
③标准差(standard deviation):
④变异系数(coefficient of variation).:适用于各组观察值单位不同或单位虽同而平均数相差很大的情况。
7、定性或等级资料的指标(相对数)
①率(rate):说明某事物或现象在可能发生范围内实际发生的频率或强度。
②构成比(proportion):表示事物内部各组分所占的比重或频数。
③比(ratio):两个有关指标之比。其性质可以相同或不同(如BMI)。
相对数的应用:
①分母不宜过小
②不能用构成比代替率
③各观察单位不等的几个率不能直接相加求平均率。注意同质性及可比性。
8、正态分布特性:
①单峰曲线,两边对称,中位数为u。
②u为位置参数(增大右移,缩小左移),σ为形态参数即离散程度(增大瘦高,缩小矮胖)。
③不服从的经变换可以服从。
④曲线下面积分布有规律(单95%-,99%-)。
9、二项分布性质:
①只有2个对立结果,每次条件不变,n个观察相互独立。
②均值=例数*阳性率(u=nπ),标准差σ=SQRT(nπ(1-π)),样本率标准差Sp=σ/n
③nπ或n(1-π)>5可用近似正态分布处理。
10、possion分布性质:
①λ=方差=均数(σ^2=u),
②分布具有可加性,当累加到λ≥50时按正态分布处理。
③是二项分布的极限形式。
应用条件:事件发生是独立的、概率不变、结果二分。常用于研究单位时间或空间内某疾病发生数(非传染性疾病)。
11、标准化率(standardized rate):又称调整率,实际是一组加权平均。加权系数为某小组样本数占总样本数的比例(加权系数之和为1),再用加权系数乘以相应的阳性率得出标准化率。[仅用于两者比较,不能反映实际大小,但有粗率相等标准化率大者其小组比例低的结论?]
第三章抽样误差
1、统计推断:抽样研究的目的是要用样本信息推断总体特征。指如何抽样,以及如何用样本性质推断总体特征。
2、抽样误差:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差
统计学归纳[统计学经典理论] 来自淘豆网m.daumloan.com转载请标明出处.