Python统计学学习笔记02-数据的概括性度量

数据分布特征测度

分布的集中趋势，反应各数据向其中心值靠拢或聚集的程度；
分布的离散程度，反应各数据远离其中心值的趋势；
分布的形状，反应数据分布的偏态和峰态。

集中趋势的度量

分类数据：众数（Mode）

众数是一组数据中出现次数最多的变量值，用 $ M_o $ 表示。众数主要用于测度分类数据的集中趋势，当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下，只有在数据量较大的情况下，众数才有意义。
众数是一个位置代表值，它不受数据中极端值的影响。从分布的角度看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的数值即为众数。

顺序数据：中位数（median）和分位数

中位数（median）

中位数是一组数据排序后处于中间位置上的变量值，用 $ M_e $ 表示。中位数主要用于测度顺序数据的集中趋势，当然也适用于测度数值型数据的集中趋势，但不适用于分类数据。
中位数是一个位置代表值，其特点是不受数据中极端值的影响。

四分位数（quartile）

四分位数也称四分位点，它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据，中间的四分位数就是中位数，通常所说的四分位数是指处在25%位置上的数值（下四分位数 $ Q_L $ ）和处在75%位置上的数值（上四分位数 $ Q_U $ ）。
计算：如果位置是整数，四分位数就是该位置对应的值；如果是在0.5的位置上，则取该位置两侧值得平均数；如果是在0.25或0.75得位置上，则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。

数值型数据：平均数

平均数也称均值（mean），它是一组数据相加后除以数据的个数得到的结果，是集中趋势的最主要测度值，适用于数值型数据而不适用分类数据和顺序数据。

简单平均数和加权平均数

根据未经分组数据计算的平均数称为简单平均数（simple mean）。设一组样本数据为 $ x_1 $, $ x_2 $, $ \cdots $, $ x_n $, 样本量为 $ n $,则简单样本平均数的计算公式为：$$ \overline{x} = \frac{ x_1 + x_2 + \cdots + x_n}{n} = \frac{ \sum\limits_{i=1}^nx_i}{n} $$
根据分组数据计算的平均数称为加权平均数（weighted mean）。设原始数据被分为k组，各组的组中值分别用$ M_1 $, $ M_2 $, $ \cdots $, $ M_k $ 表示，各组变量出现的频数分别用 $ f_1 $, $ f_2 $, $ \cdots $, $ f_k $ 表示，则样本加权平均数的计算公式为：$$ \overline{x} = \frac{ M_1f_1 + M_2f_2 + \cdots + M_kf_k}{f_1 + f_2 + \cdots + f_k} = \frac{ \sum\limits_{i=1}^kM_if_i}{n} $$
从统计思想上看，平均数是一组数据的重心所在，是数据误差相互抵消后的必然结果。

几何平均数（geometric mean）

几何平均数是 $ n $ 个变量值乘积的 $ n $ 次方根，用 $ G $ 表示，主要用于计算平均比率，计算公式为：$$ G = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n} = \sqrt[n]{\prod_{i=1}^nx_i} $$
当所平均的各比率数值差别不大时，算术平均和几何平均的结果相差不大，如果各比率的数值相差较大时，二者的差别就很明显。

众数、中位数和平均数的比较

离散程度的度量

分类数据：异众比率（variation ratio）

异众比率是指非众数组的频数占总频数的比例，用 $ V_r $ 表示，计算公式为：$$ V_r = \frac{\sum(f_i - f_m)}{\sum(f_i)} = 1-\frac{f_m}{\sum(f_i)} $$ 式中，$ \sum(f_i) $ 为变量值的总频数；$ f_m $ 为众数组的频数。
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差。
异众比率主要适合测度分类数据的离散程度，对于顺序数据和数值型数据也可以计算。

顺序数据：四分位差（quartile deviation）

四分位差也称为内距或四分间距，它是上四分位数与下四分位数只差，用 $ Q_d $ 表示，计算公式为： $$ Q_d = Q_U - Q_L $$
四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的的数据越集中。四分位差不受极值的影响。四分位差主要用于测度顺序数据的离散程度，对于数值型数据也可以计算四分位差，但不适合分类数据。

数值型数据：方差和标准差

极差（range）

一组数据的最大值与最小值之差称为极差，也称全距，用 $ R $ 表示。

平均差（mean deviation）

平均差也称平均绝对离差，它是各变量值与其平均数离差绝对值的平均数，用 $ M_d $ 表示。
平均差以平均数为中心，反映了每个数据与平均数的平均差异程度，它能全面准确地反应一组数据的离散状况。平均差越大，说明数据的离散程度越大。

方差（variance）和标准差（standard deviation）

方差是各变量值与其平均数离差平方的平均数，方差的平方根称为标准差，它们是实际中应用最广的离散程度测度值。
设样本方差为 $ s^2 $，未分组数据样本方差的计算公式为：$$ s^2 = \frac{\sum\limits_{i=1}^n(x_i-\overline{x})^2}{n-1} $$
样本方差是用样本数据个数减1后去除离差平方和，其中样本数据个数减1即 $ n-1 $ 称为 自由度。
- 自由度是指附加给独立的观测值的约束或限制的个数。
- 样本方差自由度为 $ n-1 $ 的原因在于，计算离差平方和 $ \sum\limits_{i=1}^n(x_i-x)^2 $ 时，必须先求出样本平均数 $ \overline{x} $,而$ \overline{x} $ 则是附加给$ \sum\limits_{i=1}^n(x_i-x)^2 $的一个约束。因此，计算离差平方和时只有 $ n-1 $ 个独立的观测值，而不是 $ n $ 个。

相对位置的度量

标准分数（standard score）

变量值与其平均数的离差除以标准差后的值称为标准分数，也称标准化值或 $ z $ 分数，其计算公式（统计标准化公式）为：$$ z_i = \frac{x_i-\overline{x}}{s} $$
标准分数给出了一组数据中各数值的相对位置，在对多个具有不同量纲的变量进行处理时，常常需要对各变量进行标准化处理。
标准分数具有平均数为0、标准差为1的特性。

切比雪夫不等式

对于任意分布形态的数据，根据切比雪夫不等式，至少有 $ 1-\frac{1}{k^2} $ 的数据落在 $ k $ 个标准差之内，其中 $ k $ 是大于1的任意值，但不一定是整数。

相对离散程度：离散系数

对于平均水平不同或计量单位不同的不同组别的变量值，是不能用标准差直接比较其离散程度的。
为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数（变异系数，coefficient of variation）,它是一组数据的标准差与其相应的平均数之比，计算公式为： $$ v_s = \frac{s}{\overline{x}} $$
离散系数是测度数据离散程度的相对统计量，主要用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。（当平均数接近零时，离散系数的值趋于增大，此时必须慎重解释）。

偏态与峰态度量

	测度内容	统计量	符号与计算公式
偏态（skewness）	对称性	偏态系数	$ SK = \frac{n\sum(x-\overline{x})^3}{(n-1)(n-2)s^3} $
峰态（kurtosis）	平峰或尖峰程度	峰态系数	$ K = \frac{n(n+1)\sum(x-\overline{x})^4-3[\sum(x-\overline{x})^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4} $

如果一组数据的分布时对称的，则偏态系数等于0；反之非对称分布。
- 当 $ SK>0 $，正篇或右偏，此时众数<中位数<平均数；
- 当 $ SK<0 $，负偏或左偏，此时众数>中位数>平均数。
峰态分布是与标准正态分布相比较的，如果一组数据服从标准正态分布，则 $K=0$；若峰态系数的值明显不等于0.则表明分布比正态分布更平或更尖，通常称为平峰分布或尖峰分布。
- 当 $K>0$ 时为尖峰分布，数据的分布更集中；
- 当 $K<0$ 时为扁平分布，数据的分布更分散。

附表1 描述统计量应用范围一览表

统计维度	统计量	分类数据	顺序数据	数值型数据
集中趋势	众数
	中位数
	平均数
离散程度	异众比率	★	√	√
	四分位差	×	★	√
	极差			√
	平均差			√
	方差或标准差			★
	离散系数

* ★表示主要适用，√表示也可以计算，×表示不适用。

附表2 描述统计量对应函数表

集中趋势统计量	众数	中位数	平均数
Python函数
Excel函数	MODE	MEDIAN	AVERAGE

离散程度统计量	异众比率	四分位差	极差	平均差	方差	离散系数
Python函数
Excel函数				AVEDEV

分布形状统计量	偏态系数	峰态系数
Python函数
Excel函数	SKEW	KURT