Chapter 08: Statistics
:::info Translation status
This localized page provides translated navigation, metadata, and archive notices. Mathematical formulas, examples, and source-derived textbook content are preserved from the Simplified Chinese original where no manual translation is available yet.
:::
{/* label: chap:ch08 */}
{/* latex-label: fig:simpson-paradox-1 */} \begin{figure}[htbp]
\end{figure} 图:辛普森悖论示例(一):总体数据与初步结论
{/* latex-label: fig:simpson-paradox-2 */} \begin{figure}[htbp]
\end{figure} 图:辛普森悖论示例(二):分组数据揭示真相
辛普森悖论
在上面的思想实验中,一个医疗中心汇总了两种疗法A和B对肾结石的临床数据. 从整体数据来看,疗法B的治愈率为83%,显著高于疗法A的78%. 任何理性的决策者似乎都应该选择推广疗法B.
然而,一位细心的研究员发现,结石的大小是一个关键的潜在变量. 他将数据拆分为"小结石"和"大结石"两组后,一个让他下巴吓掉的结论出现了:无论是在小结石患者群中,还是在大结石患者群中,疗法A的治愈率都高于疗法B.
一个在所有局部(分组)都表现更优的选项,为何在合并(总体)后,反而显得更差?这就是著名的辛普森悖论. 它揭示了一个深刻的道理:对数据的简单汇总,可能会掩盖甚至扭曲数据内部的真实结构. 数据本身不会说谎,但我们呈现和解读数据的方式却可能导致完全错误的结论.
要避免这样的陷阱,我们不能仅仅满足于表面的数字. 我们需要一套系统性的方法,来科学地收集数据、严谨地分析数据内部的结构、并最终做出可靠的推断. 这套方法的核心,就是统计学.
描述数据
{/* label: sec:ch08-s01 */}
统计学的起点是数据. 一组原始数据,例如一个班级所有同学的身高记录,本身只是一堆无序的数字.统计学的首要任务,就是运用科学的方法,将这堆原始数据整理、提炼、总结,使其蕴含的信息和规律得以彰显.这个过程被称为描述性统计.
总体与样本
在任何统计研究中,我们首先要明确我们关心的是哪个范围的对象.
- 总体: 我们所研究的对象的全体构成的集合.例如,中国所有高三学生的身高.
- 个体: 构成总体的每一个对象.例如,每一位高三学生的身高数据.
- 样本: 从总体中实际抽取并观测的一部分个体的集合.例如,随机抽取的1000名高三学生的身高数据.
- 样本容量: 样本中所包含的个体数量,通常记为 .
在绝大多数情况下,由于成本、时间或可行性的限制,我们不可能观测整个总体.因此,统计学的核心思想就是通过研究一个(希望有代表性的)样本,来推断整个总体的特征.我们手中拥有的是样本数据,心中向往的是总体规律.
频率分布
拿到样本数据后,第一步是看一看数据“长什么样”.
将样本数据进行分组,统计每个组内数据出现的次数(频数),并计算其占样本总量的比例(频率),最终用表格或图形的形式将这种分布情况呈现出来,称为频率分布.
常用的图形表示有条形图(适用于离散或分类数据)和频率分布直方图)(适用于连续数据).
某校随机抽取了50名学生,测量其身高(单位:cm),得到如下数据.请制作其频率分布表和直方图. \tiny 168, 175, 159, 171, 166, 182, 163, 170, 176, 169, 161, 173, 178, 165, 172, 157, 180, 167, 174, 169, 164, 171, 177, 162, 168, 170, 175, 166, 179, 158, 163, 172, 168, 174, 160, 173, 167, 171, 165, 181, 169, 176, 164, 170, 166, 172, 161, 175, 168, 173.
\begin{figure}[htbp]
\end{figure} 图:50名学生身高频率分布直方图
数据的最大值为182,最小值为157. 我们将数据分为5组,组距为5.
频率分布表
| 分组 | 频数 | 频率 | 频率/组距 |
|---|---|---|---|
| 3 | 0.06 | 0.012 | |
| 7 | 0.14 | 0.028 | |
| 14 | 0.28 | 0.056 | |
| 13 | 0.26 | 0.052 | |
| 9 | 0.18 | 0.036 | |
| 4 | 0.08 | 0.016 | |
| 合计 | 50 | 1.00 | --- |
在直方图中,每个矩形的高度正比于该组的频率,其纵轴通常标为“频率/组距”,这样可以保证所有矩形的面积之和恰好为1.
数据的数字特征
图形能提供直观感受,但为了精确比较和分析,我们需要用具体的数字来概括样本数据的主要特征.
\paragraph{衡量中心趋势}
对于一个容量为 的样本 , 其样本均值, 记为 ,定义为:
样本均值是数据集中所有数值的算术平均值,它描述了数据的“重心”所在.
\paragraph{衡量离散程度} 仅仅知道中心位置是不够的.两组数据可以有相同的均值,但其围绕中心的分散程度可能截然不同.我们需要一个指标来度量数据的“离散性”或“波动性”.一个自然的想法是计算每个数据点到均值的平均距离,即 ,这被称为平均绝对离差.然而,由于绝对值在数学处理上的不便,统计学家们更倾向于使用离差的平方和来度量总体的变异程度.
对于样本 及其均值 , 其样本方差, 记为 ,定义为:
样本方差的算术平方根 称为样本标准差.
对于样本 及其均值 , 其样本方差, 记为 ,定义为:
样本方差的算术平方根 称为样本标准差.
在样本方差的定义中,分母 常常是初学者最大的困惑点.既然样本均值是对 个数据求平均, 为何在计算平均离差平方时, 却要除以 而不是?此即贝塞尔校正.
首先,我们必须明确我们的目标:我们计算样本方差 的目的, 并不仅仅是为了描述眼前这个样本的离散程度, 而是为了用它来估计未知的总体方差 .总体的真实方差 是由数据围绕总体真实均值 的离散程度所决定的.然而, 在现实中, 几乎总是未知的, 我们唯一能做的就是用我们自己计算出的样本均值 来替代它.问题恰恰出在这里.
样本均值 是根据我们手中的这 个数据点“量身定制”的中心.事实上, 算术平均值在数学上有一个最优性质:它能使该组数据的离差平方和 达到最小值.也就是说, 对于我们这个特定的样本, 用 计算出的离差平方和 , 要比用任何其他中心点(包括那个我们不知道的真实均值 )计算出的都小.
这意味着,如果我们使用 并草率地除以 来计算方差,我们得到的值将会系统性地、平均地偏小.在统计学中,这种系统性的估计偏差称为偏误.
为了修正这种必然的偏误,我们需要将偏小的结果放大一点.数学推导可以精确地证明,使用分母 恰好可以完全校正这种偏差, 使得 在平均意义上等于它所估计的 .这样的估计量被称为无偏估计量.
这个 在统计学里还有一个名字:自由度. 我们可以这样直观地理解它:我们有 个独立的样本数据点.但是, 当我们计算出样本均值 并将其用于后续计算时, 我们就给这组数据施加了一个约束, 即 .在这个约束下, 只要我们知道了其中 个离差, 第 个离差就已经被完全确定了, 它不再是“自由”的.因此, 在估计总体的离散程度时, 实际上只有 个“自由”的信息片段.
标准差 的单位与原始数据相同, 它直观地度量了数据点偏离其均值的典型距离. 越大, 表示数据越分散; 越小,表示数据越集中.
抽样方法
{/* label: sec:ch08-s02 */}
简单随机抽样
在所有抽样方法中,简单随机抽样不仅是最基础的,更是在抽样方法这扮演着一种类似基础的角色. 它的设计初衷,是为了从根本上消除抽样过程中的主观偏见和系统性误差,从而保证样本的代表性.要理解其定义的深刻内涵,我们必须首先回到抽样面临的根本挑战:如何保证公平性?
想象一下,为了调查全校学生的平均身高,我们只测量了校篮球队的成员.显然,这样得到的样本均值会系统性地高于真实值,这个样本不具备代表性.这种因抽样方法本身的缺陷导致的系统性偏差,就是抽样偏误.为了克服偏误,我们必须寻求一种机制,使得总体中的每一个个体都有机会被选中,并且这种机会是平等的.
这种思想,大抵是受老祖宗的智慧启发的,也就是古人津津乐道的抽签. 一个公平的抽签,必须保证每一支签被抽中的可能性都完全相同.将这一古老思想进行数学上的精确化,便得到了简单随机抽样的定义.
设一个总体含有 个个体, 从中逐个不放回地抽取 个个体作为样本 (). 如果在整个抽样过程中,每一次抽取时,总体中余下的每一个个体被抽到的机会都相等,则称这种抽样为简单随机抽样.
这个定义的核心,在于它描述了一个动态的、程序化的过程,而非一个静态的结果.它为公平性提供了可操作的保证.
- “逐个不放回”: 这明确了抽样的基本机制.一个个体一旦被抽中,便会移出总体,不再参与后续的抽取.这是大多数社会调查和质量检验中的标准做法.
- “每一次抽取时...机会都相等”: 这是定义的灵魂,是公平性的数学化身.它要求在抽第一步时,每个个体被抽中的概率是 ;在抽出一个个体后, 对剩下的 个个体, 每一个在第二步被抽中的概率都必须是 ,以此类推.这个条件确保了在任何阶段,抽样过程都没有对任何剩余个体产生偏好.
这种程序上的公平性,其根本的科学原理是随机化.随机化是现代统计学的基石.通过引入一个纯粹的、不受任何主观或潜在因素影响的随机机制,我们得以打乱总体中可能存在的各种内在结构或模式(例如,学生可能按身高、成绩或班级排序).随机化就像一种保险,它不能保证我们得到的某一个样本就是总体的一种很好的替代,但它能保证我们的抽样方法本身是无偏的,长期来看,由这种方法产生的样本将能公正地反映总体.
上述过程化的定义,可以导出一个在组合数学上极为重要的等价性质:在简单随机抽样下,总体中每一个容量为 的可能子集,被抽为最终样本的概率是完全相等的.
我们可以证明这一点.从 个个体中抽取 个, 总共存在 个不同的样本组合.考虑其中任意一个特定的样本组合 .按照定义的抽样过程, 以特定顺序(例如 )被抽出的概率是:
由于这个样本中的 个个体可以按 种不同的顺序被抽出,而每种顺序的发生概率都相同,因此这个特定的样本组合被抽中的总概率是:
这个结果表明,任何一个容量为 的样本组合, 其被选中的概率都是 .这一性质是所有基于古典概型的统计推断计算的理论基础.它将一个动态的抽样过程,与一个静态的、所有可能结果等概率的样本空间联系了起来.
设总体容量为 , 从中抽取一个容量为 的简单随机样本. 证明总体中任意一个个体 被抽入样本的概率为 .
我们提供两种证明思路.
法一
根据简单随机抽样的等价性质,任何容量为 的子集被抽为样本的概率均等.
从 个个体中抽取 个个体, 所有可能的样本组合总数为 .
现在,我们考虑包含特定个体 的样本. 若样本必须包含 , 我们只需从剩下的 个个体中, 再抽取 个个体与 组合.
因此,包含个体 的样本数量为 .
个体 被抽入样本的概率为
展开组合数进行计算:
证毕.
法二
我们将事件“个体 被抽入样本”分解为 个互斥事件的并集:
: “个体 在第 次抽取时被抽中” ().
则 a.
a.
aaa.
以此类推,对于任意的 , 事件 发生, 要求前 次均未抽中 , 且在第 次抽中了 .
在这个链式概率的乘积中,中间项会依次约分,最终得到:
这意味着,在简单随机抽样过程中,任何一个个体在任意一次被抽中的概率都是相同的.
因此,个体 被抽入容量为 的样本的总概率为
证毕.
这个结论是简单随机抽样“公平性”的另一种体现. 它与“每个样本组合被抽中的概率相等”是等价的,并且在理论上极为重要. 它保证了当我们使用样本均值 去估计总体均值 时,这种估计在方法论上是无偏的,因为总体中的每一个成员都有完全相同的机会对这个估计值做出贡献.
在第二次世界大战期间,盟军通过分析缴获的德军坦克的序列号来估计其总产量. 假设坦克的序列号是从 1 到 连续编号的, 其中 是未知的总产量. 盟军缴获了 辆坦克, 其序列号构成了一个从总体 中抽取的容量为 的简单随机样本. 若观测到的最大序列号为 , 请给出一个对 的合理估计.
令观测到的 个序列号为 , 样本最大值为 .
一个显而易见的事实是 . 但 具体比 大多少? 本身是对 的一个估计,但它几乎必然是一个低估值,因为我们不太可能恰好抽到序列号最大的那辆坦克.
为了改进这个估计,我们可以考虑样本数据在总体中的分布模式. 这 个被抽中的序列号, 将从 到 的整个序列“分割”开来.
一个想法是考虑这些观测值之间的“平均间距”. 我们可以期望,一个真正的随机样本,其成员在总体中会是大致均匀散布的.
样本最大值 是我们拥有的最关键信息. 我们可以用它来估计样本内部的平均间距. 个样本点, 大致将区间 分割为 个小段, 平均每段的长度约为 .
我们将这个在样本内部观察到的平均间距,推广为对整个总体的未见部分的估计. 具体而言,我们用它来估计从 到 这个“末尾间距”的长度.
据此,我们可以建立一个估计模型:
这个估计虽然合理,但仍有改进空间. 数学家们通过更严谨的推导,得到了一个在统计性质上更优的估计量. 它的思想是: 个样本点将总体的 个数字分成了 个间隔(包括从0到最小样本, 样本间的间隔, 以及从最大样本到). 在随机抽样下,我们有理由相信这些间隔的期望长度是相等的.
一个更精确的、旨在消除系统性偏差的估计量为:
例如,若缴获了 辆坦克, 其最大序列号为 , 则我们对总产量 的估计为:
德国坦克问题是统计推断中“参数估计”的一个经典范例. 它完美地展示了统计学的核心思想:如何基于一个不完整的、随机的样本信息,对一个未知的总体参数(这里是总体最大值 )做出科学的推断. 这个问题衍生出的估计量被称为“最大值的最小方差无偏估计量”的近似.
分层抽样
当总体由若干个有显著差异的、互不重叠的子群体(称为层)构成时,我们将总体划分为若干层,然后在每一个层内部分别进行简单随机抽样,最后将各层抽取的样本合并起来. 这种方法称为分层抽样.
辛普森悖论的例子警示我们,当总体存在显著的内部结构时,对这种结构视而不见可能会导致灾难性的错误结论. 简单随机抽样通过纯粹的随机化来保证长期来看的公平性,但它无法保证每一次抽样都能完美地反映总体的内部结构. 例如,在一个男女比例为 的总体中进行容量为 的简单随机抽样, 我们完全有可能因为随机性的波动, 抽到一个男女比例为 的样本,从而对依赖于性别的某些特征做出有偏的估计.
分层抽样是对纯粹随机性的一种精巧的约束和优化. 它承认并利用了总体的内在异质性. 其核心思想是“先分层,后抽样”,将一个复杂的、异质性高的总体,分解为若干个相对简单的、同质性高的子总体(层),然后在每个子总体内部实施随机化.
这种方法的优势是多方面的,首先最直接的好处是可以提升估计精度: 通过确保所有子群体都按其在总体中的重要性(通常是规模)被恰当地代表,分层抽样可以显著降低抽样误差,得到比同等规模的简单随机抽样更精确的总体参数估计值. 换言之,它能产生方差更小的估计量.其次,也可以保证子群体代表性: 它确保了样本中包含来自所有层级的足够数量的个体,这使得我们不仅能对总体进行推断,还能对各个子群体自身的特征进行有意义的分析和比较.最后,实践上也会很方便,在组织层面,将大规模的抽样任务分解到各个层级,往往更易于管理和实施.
在实际操作中,最常见的分层抽样方法是按比例分配:即每个层所抽取的样本容量占总样本容量的比例,等于该层所含个体数占总体个体数的比例. 设总体容量为 , 被划分为 个层, 每层的容量分别为 . 若要抽取容量为 的样本, 则在第 层 () 中抽取的样本容量 为:
某大学共有学生 人, 其中低年级学生 人, 高年级学生 人. 学校希望估计全体学生平均每周的自习时间. 根据以往经验, 低年级学生自习时间的波动性较大, 而高年级学生则相对稳定. 现采用分层抽样方法, 抽取一个容量为 的样本.
- 采用按比例分配的原则,应在两个年级各抽取多少名学生?
- 假设抽样结果为:低年级样本的平均自习时间 小时, 高年级样本的平均自习时间 小时. 试估计全校学生平均每周的自习时间.
- 试讨论为何在这种情况下,分层抽样的估计结果比简单随机抽样可能更为可靠.
这是一个典型的分层抽样应用场景,总体根据年级这一关键变量被自然地分为两层.
- 样本分配
根据按比例分配的原则,在第 层抽取的样本量 .
在低年级层应抽取:
在高年级层应抽取:
- 总体均值的估计
由于样本结构与总体结构成比例,我们可以通过对各层样本均值进行加权平均来估计总体均值 . 权重即为各层在总体中所占的比例 .
估计的总体均值 为:
因此,我们估计全校学生平均每周的自习时间为 19 小时.
- 可靠性分析
简单随机抽样依赖于纯粹的随机机会来获得代表性. 在本例中,一个容量为 100 的简单随机样本,其构成的年级比例可能因随机性而偏离真实的 .
例如,如果一次简单随机抽样偶然抽到了 40 名低年级和 60 名高年级学生,并且他们的样本均值恰好也是 15 和 25,那么该样本的整体均值将是 小时,这会高估真实的总体均值.
分层抽样通过强制样本结构与总体结构一致,从根本上消除了因“样本中各子群体比例不当”而引入的抽样误差. 它将随机性限制在各个同质的层内部,使得最终的加权估计量更为稳定和精确.
此例导出了分层抽样下总体均值的估计方法:. 这是一个在统计性质上优良的无偏估计量.
某市教育部门计划对一项新的教学改革方案进行民意调查,以了解全体高中生的支持率. 该市共有高中生 人, 其中高一年级 人, 高二年级 人, 高三年级 人. 由于不同年级的学生面临的学业压力和课程内容不同, 他们对改革方案的态度可能存在显著差异. 因此, 决定采用分层抽样的方法, 抽取一个容量为 的样本.
- 采用按比例分配的原则,计算应从每个年级分别抽取多少名学生?
- 调查结束后,样本数据显示高一、高二、高三学生的支持率分别为 , , . 请估计该市全体高中生对该方案的支持率.
这是一个典型的分层抽样应用场景,其中各个年级是天然的“层”,因为层内学生的同质性较高,而层间可能存在显著差异.
-
样本量分配
分层抽样中的按比例分配,是指样本中各层的比例应与总体中各层的比例保持一致.
首先计算各年级学生占总体的比例:
高一年级比例
高二年级比例
高三年级比例
根据此比例分配样本容量 :
高一应抽取样本量 人.
高二应抽取样本量 人.
高三应抽取样本量 人.
-
总体支持率估计
我们已经获得了每个层内的样本支持率,记为 .
为了估计总体的支持率 ,我们不能简单地将这三个支持率取算术平均,因为每个层在总体中的“权重”是不同的. 正确的方法是使用各层在总体中的比例作为权重,进行加权平均.
因此,估计该市全体高中生对该方案的支持率约为 $73.5\%$.
本例展示了分层抽样的两个核心操作:按比例分配样本量和对结果进行加权汇总. 按比例分配确保了样本在结构上是总体的微缩景观,从而保证了样本的代表性. 加权平均则是从样本数据推断总体参数的正确逻辑,它承认并利用了总体的内在分层结构,避免了因某一层样本比例过高或过低而导致的估计偏差. 如果研究者错误地对 求简单算术平均, 将得到 , 这将低估总体支持率,因为占比较大的高一年级的较高支持率没有得到足够的体现.
一家连锁企业拥有两种类型的门店:旗舰店和社区店. 共有旗舰店 家, 社区店 家. 根据历史数据, 旗舰店的月均销售额为 万元, 销售额的标准差为 万元;社区店的月均销售额为 万元, 标准差为 万元. 现计划抽取 家门店来估计整个连锁企业的平均月销售额. 试比较简单随机抽样和按比例分层抽样两种方法的效率.
在统计学中,抽样方法的“效率”通常通过其估计量的方差来衡量. 方差越小,表明估计结果的波动性越小,精确度越高,因此效率越高. 我们的目标是比较两种抽样方法下,样本均值 的方差.
首先,计算总体的相关参数.
总体规模 .
各层权重 , .
总体均值 万元.
总体方差 由两部分构成:层内方差的加权平均和层间方差.
1. 简单随机抽样
在此方法下,样本均值 的方差为(为简化,此处忽略有限总体校正系数):
2. 按比例分层抽样
首先分配样本量:
家.
家.
分层抽样下,总体均值估计量 的方差为:
比较后发现: .
分层抽样的估计量方差远小于简单随机抽样. 这表明,对于相同的样本量,分层抽样提供了更为精确的估计.
本例展示了分层抽样的两个核心操作:按比例分配样本量和对结果进行加权汇总. 按比例分配确保了样本在结构上是总体的微缩景观,从而保证了样本的代表性. 加权平均则是从样本数据推断总体参数的正确逻辑,它承认并利用了总体的内在分层结构,避免了因某一层样本比例过高或过低而导致的估计偏差. 如果研究者错误地对 求简单算术平均, 将得到 , 这将低估总体支持率,因为占比较大的高一年级的较高支持率没有得到足够的体现.
系统抽样
将总体的 个个体按序编号. 确定抽样间隔 . 在第1到第 个个体中随机抽取一个作为起始个体 . 之后, 依次抽取编号为 的个体. 这种方法称为系统抽样.
从样本到总体
{/* label: sec:ch08-s03 */}
No comments yet.