数据的统计描述
内容提要
统计描述
描述性统计分析:用少量数字(即描述指标)概括大量原始数字,对数据进行描述;
推断性统计分析:从样本信息回推总体特征。
统计描述中可用的工具
各种初步汇总描述方法:分组汇总、百分位数刻画
各种统计描述指标:均数、标准差、四分位数间距、百分比等;
统计表:将统计指标组成表格,可同时呈现多种统计指标,并进行复杂的样本分组、合并计算;
统计图:按照统计指标的大小将其绘制成一张图形,对于连续变量数据,常用直方图、箱图加以展示,对于分类变量,常用条图、饼图加以展示。
连续变量的统计描述
5
(一)集中趋势的描述统计量
集中趋势是指一组数据向某一中心值靠拢的倾向,是关于中心位置的描述。
在统计学中,关于数据分布的中心位置的统计量被称为位置统计量(Location Statistic)。
常用的位置统计量有:
均数——适用于正态分布和对称分布资料;
中位数——适用于所有分布类型的资料。
众数——适用于所有分布类型的资料。
1. 算术均数
算术均数(Arithmetic Mean)是最常用的描述数据分布的集中趋势的统计量。总体均数用μ表示,样本均数用X表示。
均数的最重要意义在于它高度浓缩了数据,使大量的观测数据变为一个代表性数值。但它掩盖了各个观测数据之间的差异性,且对极端值比较灵敏,在某些情况下也有一定欺骗性。
均数适用范围:
单峰和基本对称的分布情况下适用于描述集中趋势。
严格讲均数只适用于定距变量,但有时对于定序变量,求平均等级也可使用均数。
2. 中位数
中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志值。剩下的值一半比它大,一半比它小。
中位数是位置平均数,因此不受极端值的影响。
中位数适用范围:
非基本对称的分布情况下可使用于中位数描述集中趋势。
中位数对于定序变量、连续变量都可以使用。
中位数只考虑居中位置,因此用于描述连续变量会损失很多信息。所以对于对称分布的资料,往往优先考虑均数。
3. 众数
众数(Mode)是样本数据中出现频次最大的那个数字。
众数不受极端值影响,但对资料的使用不完全,使用众数反映连续变量会损失很多信息。
当数据为对称分布或接近对称分布时:
应选择均值作为集中趋势的代表值,因为此时均值与众数和中位数的差异很小,而又是全部数据的综合,因此具有很好的代表性。
当数据为偏斜度较大的非对称分布时:
均值此时受极端值的影响,而偏离数据的集中点;此时应选择众数和中位数来代表。
正偏或右偏分布
负偏或左偏分布
对称分布
(一)集中趋势的描述统计量
数据的统计描述 来自淘豆网m.daumloan.com转载请标明出处.