第一节全距、四分位距、百分位距
一、全距(Range)
1、概念
全距是一组数据中最大值与最小值之差,故又称两极差,简称极差。用符号R表示。它是表示一组数据离散程度的最简单、最易理解的一种差异量数。
2、计算
全距计算比较简单。
对于原始数据求全距的方法是:找出最大值、最小值,然后用公式:R=最大值-最小值
对于频数分布表求全距的方法:
最大一组与最小一组组中值之差;
或者是最大一组上限与最小一组下限之差。
注意:如果数据是连续型,必须用精确上下限。
极差(概念要点及计算公式)
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
4. 未考虑数据的分布
计算公式为
未分组数据 R = max(Xi) - min(Xi)
组距分组数据 R = 最高组上限- 最低组下限
全距
3 应用条件及优缺点
全距概念清楚,意义明确,计算简单,是其明显的优点.
但因它仅由最大值与最小值求得,,全距不稳定、不可靠。
它不考虑中间数值的差异,即其它数据未起作用,反应不灵敏。它明显地受取样变动的影响。
由于上述原因,全距只是一种低效的差异量数,只能作为差异量的粗略指标。
它的用处一般只用于研究的预备阶段,用它检查数据的大概散布范围,以便确定统计分组。即在编制频数分布表时决定全距范围之用。
二、四分位距(四分差)
1、四分位距的概念
为了避免全距受两极端数值影响的缺点,则用按一定顺序排列的一组数据中间部位50%个频数距离的一半作为差异量指标,即四分位距,又称四分差,用Q表示。
若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称第一个四分位数(Q1)。第三与第
四段的分界点称第三个四分位数(Q3)。则四分位距就是第三个四分位数(第75%百分位数)与第一个四分位数(第25%百分位数)差的一半。
用公式表示为:Q=(Q3-Q1)/2
四分位差(概念要点)
1. 离散程度的测度值之一
2. 也称为内距或四分间距
3. 第3四分位数与第1四分位数之差 QD = Q3 – Q1
4. 反映了中间50%数据的离散程度
7. 主要用于定序数据,也可用于数值型数据,但不能用于定类数据
2、计算方法
(1)原始数据计算法
先将原始数据从小到大排列好;
然后根据求中位数的方法求出第一个四分位数和第三个四分位数;
利用公式求四分位距。 Q=(Q3-Q1)/2
(2)频数分布表计算法
先求出第一个四分位数及第三个四分位数;
然后将它们代入公式计算四分位距,即可。
Q=(Q3-Q1)/2
2、计算方法
Lb 该分四分点所在组的精确下限
fQ1与fQ3 该四分点所在组的次数
N 数据个数
Fb 该分数所在组以下的累加次数
i 组距
数值型分组数据的四分位数(计算示例)
例
例
四分位差计算案例
2、计算方法
注意:
也有人认为:
四分位距就是75%百分位数与25%百分位数间的距离. 它代表分布中间50%的距离.
四分位距(IQR) = Q3 - Q1
semi-interquartile range:四分位距的一半(interquartile range).
SIQR = (Q3 - Q1)/2
3、四分位距的应用及优缺点
优点:
四位位距简明易懂,计算简便,较少受两极端数值的影响,比全距可靠得多。
缺点:
但它忽略了左右共50%数据的差异,又不适合代数运算,因而限制了它的应用。
使用:
当一组数据用中位数表示集中量时,就要用四分位距表示差异量。因为它们同属于百分体系。
四分位距与中位数一样,适用于有特大或特小两极端数值,有个别数值不确切、不清楚,以及用等级的数据等情况。
三、百分位距
1、概念:
百分位点 位置
百分位数数值
百分位差段距离
百分位距是指两个百分位数之差。常用的百分位距有两种:
一种是:第90与第10百分位数之差,用P90-P10表示。即按一定顺序排列的一组数据中间部位80%个频数的距离。
一种是:第93与第7百分位数之差,用P93-P7表示。是按一定顺序排列的一组数据中间部位86%个频数的距离。
2、计算方法:
先计算百分位数:百分位数的计算方法我们第二章讲中位数时,涉及到了百分位数的计算方法。
然后计算百分位距:百分位距的计算方法很简单,即P90-P10或P93-P7计算。
1)百分位数的计算
其中:Pp 表示百分位数
p 表示与百分位数相对应的比数
N 表示总频数
全距、四分位距、百分位距 来自淘豆网m.daumloan.com转载请标明出处.