跳至主要内容

ch08-统计

{/* label: chap:ch08 */}

{/* latex-label: fig:simpson-paradox-1 */} \begin{figure}[htbp]

TikZ 圖 111
TikZ 圖 111

\end{figure} 圖:辛普森悖論示例(一):总體數据與初步结論

{/* latex-label: fig:simpson-paradox-2 */} \begin{figure}[htbp]

TikZ 圖 112
TikZ 圖 112

\end{figure} 圖:辛普森悖論示例(二):分组數据揭示真相

辛普森悖論

在上面的思想实验中,一個医疗中心汇总了两种疗法A和B對肾结石的临床數据. 從整體數据来看,疗法B的治愈率為83%,显著高于疗法A的78%. 任何理性的决策者似乎都應该選择推廣疗法B.

然而,一位细心的研究员發現,结石的大小是一個關键的潜在變量. 他将數据拆分為"小结石"和"大结石"两组后,一個让他下巴吓掉的结論出現了:无論是在小结石患者群中,还是在大结石患者群中,疗法A的治愈率都高于疗法B.

一個在所有局部(分组)都表現更优的選項,為何在合并(总體)后,反而显得更差?這就是著名的辛普森悖論. 它揭示了一個深刻的道理:對數据的簡單汇总,可能会掩蓋甚至扭曲數据内部的真实结構. 數据本身不会說谎,但我们呈現和解讀數据的方式却可能導致完全錯誤的结論.

要避免這样的陷阱,我们不能僅僅满足于表面的數字. 我们需要一套係统性的方法,来科學地收集數据、严谨地分析數据内部的结構、并最终做出可靠的推断. 這套方法的核心,就是统计學.

描述數据

{/* label: sec:ch08-s01 */}

统计學的起点是數据. 一组原始數据,例如一個班级所有同學的身高记錄,本身只是一堆无序的數字.统计學的首要任务,就是运用科學的方法,将這堆原始數据整理、提炼、总结,使其蕴含的信息和规律得以彰显.這個過程被称為描述性统计.

总體與样本

在任何统计研究中,我们首先要明确我们關心的是哪個范围的對象.

总體與样本
  • 总體: 我们所研究的對象的全體構成的集合.例如,中国所有高三學生的身高.
  • 個體: 構成总體的每一個對象.例如,每一位高三學生的身高數据.
  • 样本: 從总體中实际抽取并观测的一部分個體的集合.例如,随机抽取的1000名高三學生的身高數据.
  • 样本容量: 样本中所包含的個體數量,通常记為 .

在绝大多數情况下,由于成本、时間或可行性的限制,我们不可能观测整個总體.因此,统计學的核心思想就是通過研究一個(希望有代表性的)样本,来推断整個总體的特征.我们手中拥有的是样本數据,心中向往的是总體规律.

频率分布

拿到样本數据后,第一步是看一看數据“长什么样”.

频率分布

将样本數据進行分组,统计每個组内數据出現的次數(频數),并计算其占样本总量的比例(频率),最终用表格或圖形的形式将這种分布情况呈現出来,称為频率分布.

常用的圖形表示有条形圖(适用于离散或分類數据)和频率分布直方圖)(适用于连續數据).

某校随机抽取了50名學生,测量其身高(單位:cm),得到如下數据.請制作其频率分布表和直方圖. \tiny 168, 175, 159, 171, 166, 182, 163, 170, 176, 169, 161, 173, 178, 165, 172, 157, 180, 167, 174, 169, 164, 171, 177, 162, 168, 170, 175, 166, 179, 158, 163, 172, 168, 174, 160, 173, 167, 171, 165, 181, 169, 176, 164, 170, 166, 172, 161, 175, 168, 173.

\begin{figure}[htbp]

TikZ 圖 113
TikZ 圖 113

\end{figure} 圖:50名學生身高频率分布直方圖

數据的最大值為182,最小值為157. 我们将數据分為5组,组距為5.

频率分布表

分组频數频率频率/组距
30.060.012
70.140.028
140.280.056
130.260.052
90.180.036
40.080.016
合计501.00---

在直方圖中,每個矩形的高度正比于该组的频率,其纵轴通常標為“频率/组距”,這样可以保證所有矩形的面積之和恰好為1.

數据的數字特征

圖形能提供直观感受,但為了精确比较和分析,我们需要用具體的數字来概括样本數据的主要特征.

\paragraph{衡量中心趋势}

样本均值

對于一個容量為 的样本 , 其样本均值, 记為 ,定義為:

样本均值是數据集中所有數值的算术平均值,它描述了數据的“重心”所在.

\paragraph{衡量离散程度} 僅僅知道中心位置是不够的.两组數据可以有相同的均值,但其围绕中心的分散程度可能截然不同.我们需要一個指標来度量數据的“离散性”或“波动性”.一個自然的想法是计算每個數据点到均值的平均距离,即 ,這被称為平均绝對离差.然而,由于绝對值在數學处理上的不便,统计學家们更倾向于使用离差的平方和来度量总體的變异程度.

样本方差與样本標准差(高中课本定義)

對于样本 及其均值 , 其样本方差, 记為 ,定義為:

样本方差的算术平方根 称為样本標准差.

样本方差與样本標准差

對于样本 及其均值 , 其样本方差, 记為 ,定義為:

样本方差的算术平方根 称為样本標准差.

在样本方差的定義中,分母 常常是初學者最大的困惑点.既然样本均值是對 個數据求平均, 為何在计算平均离差平方时, 却要除以 而不是?此即贝塞尔校正.

首先,我们必须明确我们的目標:我们计算样本方差 的目的, 并不僅僅是為了描述眼前這個样本的离散程度, 而是為了用它来估计未知的总體方差 .总體的真实方差 是由數据围绕总體真实均值 的离散程度所决定的.然而, 在現实中, 几乎总是未知的, 我们唯一能做的就是用我们自己计算出的样本均值 来替代它.問題恰恰出在這里.

样本均值 是根据我们手中的這 個數据点“量身定制”的中心.事实上, 算术平均值在數學上有一個最优性質:它能使该组數据的离差平方和 达到最小值.也就是說, 對于我们這個特定的样本, 用 计算出的离差平方和 , 要比用任何其他中心点(包括那個我们不知道的真实均值 )计算出的都小.

這意味着,如果我们使用 并草率地除以 来计算方差,我们得到的值将会係统性地、平均地偏小.在统计學中,這种係统性的估计偏差称為偏誤.

為了修正這种必然的偏誤,我们需要将偏小的结果放大一点.數學推導可以精确地證明,使用分母 恰好可以完全校正這种偏差, 使得 在平均意義上等于它所估计的 .這样的估计量被称為无偏估计量.

這個 在统计學里还有一個名字:自由度. 我们可以這样直观地理解它:我们有 個独立的样本數据点.但是, 当我们计算出样本均值 并将其用于后續计算时, 我们就给這组數据施加了一個约束, 即 .在這個约束下, 只要我们知道了其中 個离差, 第 個离差就已經被完全确定了, 它不再是“自由”的.因此, 在估计总體的离散程度时, 实际上只有 個“自由”的信息片段.

標准差 的單位與原始數据相同, 它直观地度量了數据点偏离其均值的典型距离. 越大, 表示數据越分散; 越小,表示數据越集中.

抽样方法

{/* label: sec:ch08-s02 */}

簡單随机抽样

在所有抽样方法中,簡單随机抽样不僅是最基礎的,更是在抽样方法這扮演着一种類似基礎的角色. 它的设计初衷,是為了從根本上消除抽样過程中的主观偏见和係统性誤差,從而保證样本的代表性.要理解其定義的深刻内涵,我们必须首先回到抽样面临的根本挑战:如何保證公平性?

想象一下,為了调查全校學生的平均身高,我们只测量了校篮球队的成员.显然,這样得到的样本均值会係统性地高于真实值,這個样本不具備代表性.這种因抽样方法本身的缺陷導致的係统性偏差,就是抽样偏誤.為了克服偏誤,我们必须寻求一种机制,使得总體中的每一個個體都有机会被選中,并且這种机会是平等的.

這种思想,大抵是受老祖宗的智慧启發的,也就是古人津津乐道的抽签. 一個公平的抽签,必须保證每一支签被抽中的可能性都完全相同.将這一古老思想進行數學上的精确化,便得到了簡單随机抽样的定義.

簡單随机抽样

设一個总體含有 個個體, 從中逐個不放回地抽取 個個體作為样本 (). 如果在整個抽样過程中,每一次抽取时,总體中余下的每一個個體被抽到的机会都相等,则称這种抽样為簡單随机抽样.

這個定義的核心,在于它描述了一個动态的、程序化的過程,而非一個静态的结果.它為公平性提供了可操作的保證.

  • “逐個不放回”: 這明确了抽样的基本机制.一個個體一旦被抽中,便会移出总體,不再參與后續的抽取.這是大多數社会调查和質量檢验中的標准做法.
  • “每一次抽取时...机会都相等”: 這是定義的灵魂,是公平性的數學化身.它要求在抽第一步时,每個個體被抽中的概率是 ;在抽出一個個體后, 對剩下的 個個體, 每一個在第二步被抽中的概率都必须是 ,以此類推.這個条件确保了在任何階段,抽样過程都没有對任何剩余個體产生偏好.

這种程序上的公平性,其根本的科學原理是随机化.随机化是現代统计學的基石.通過引入一個纯粹的、不受任何主观或潜在因素影响的随机机制,我们得以打乱总體中可能存在的各种内在结構或模式(例如,學生可能按身高、成绩或班级排序).随机化就像一种保险,它不能保證我们得到的某一個样本就是总體的一种很好的替代,但它能保證我们的抽样方法本身是无偏的,长期来看,由這种方法产生的样本将能公正地反映总體.

上述過程化的定義,可以導出一個在组合數學上極為重要的等价性質:在簡單随机抽样下,总體中每一個容量為 的可能子集,被抽為最终样本的概率是完全相等的.

我们可以證明這一点.從 個個體中抽取 個, 总共存在 個不同的样本组合.考虑其中任意一個特定的样本组合 .按照定義的抽样過程, 以特定顺序(例如 )被抽出的概率是:

由于這個样本中的 個個體可以按 种不同的顺序被抽出,而每种顺序的發生概率都相同,因此這個特定的样本组合被抽中的总概率是:

這個结果表明,任何一個容量為 的样本组合, 其被選中的概率都是 .這一性質是所有基于古典概型的统计推断计算的理論基礎.它将一個动态的抽样過程,與一個静态的、所有可能结果等概率的样本空間联係了起来.

设总體容量為 , 從中抽取一個容量為 的簡單随机样本. 證明总體中任意一個個體 被抽入样本的概率為 .

證明

我们提供两种證明思路.

法一

根据簡單随机抽样的等价性質,任何容量為 的子集被抽為样本的概率均等.

個個體中抽取 個個體, 所有可能的样本组合总數為 .

現在,我们考虑包含特定個體 的样本. 若样本必须包含 , 我们只需從剩下的 個個體中, 再抽取 個個體與 组合.

因此,包含個體 的样本數量為 .

個體 被抽入样本的概率為

展開组合數進行计算:

證毕.

法二

我们将事件“個體 被抽入样本”分解為 個互斥事件的并集:

: “個體 在第 次抽取时被抽中” ().

a.

a.

aaa.

以此類推,對于任意的 , 事件 發生, 要求前 次均未抽中 , 且在第 次抽中了 .

在這個链式概率的乘積中,中間項会依次约分,最终得到:

這意味着,在簡單随机抽样過程中,任何一個個體在任意一次被抽中的概率都是相同的.

因此,個體 被抽入容量為 的样本的总概率為

證毕.

這個结論是簡單随机抽样“公平性”的另一种體現. 它與“每個样本组合被抽中的概率相等”是等价的,并且在理論上極為重要. 它保證了当我们使用样本均值 去估计总體均值 时,這种估计在方法論上是无偏的,因為总體中的每一個成员都有完全相同的机会對這個估计值做出贡献.

在第二次世界大战期間,盟军通過分析缴获的德军坦克的序列号来估计其总产量. 假设坦克的序列号是從 1 到 连續編号的, 其中 是未知的总产量. 盟军缴获了 辆坦克, 其序列号構成了一個從总體 中抽取的容量為 的簡單随机样本. 若观测到的最大序列号為 , 請给出一個對 的合理估计.

令观测到的 個序列号為 , 样本最大值為 .

一個显而易见的事实是 . 但 具體比 大多少? 本身是對 的一個估计,但它几乎必然是一個低估值,因為我们不太可能恰好抽到序列号最大的那辆坦克.

為了改進這個估计,我们可以考虑样本數据在总體中的分布模式. 這 個被抽中的序列号, 将從 的整個序列“分割”開来.

一個想法是考虑這些观测值之間的“平均間距”. 我们可以期望,一個真正的随机样本,其成员在总體中会是大致均匀散布的.

样本最大值 是我们拥有的最關键信息. 我们可以用它来估计样本内部的平均間距. 個样本点, 大致将区間 分割為 個小段, 平均每段的长度约為 .

我们将這個在样本内部观察到的平均間距,推廣為對整個总體的未见部分的估计. 具體而言,我们用它来估计從 這個“末尾間距”的长度.

据此,我们可以建立一個估计模型:

這個估计虽然合理,但仍有改進空間. 數學家们通過更严谨的推導,得到了一個在统计性質上更优的估计量. 它的思想是: 個样本点将总體的 個數字分成了 個間隔(包括從0到最小样本, 样本間的間隔, 以及從最大样本到). 在随机抽样下,我们有理由相信這些間隔的期望长度是相等的.

一個更精确的、旨在消除係统性偏差的估计量為:

例如,若缴获了 辆坦克, 其最大序列号為 , 则我们對总产量 的估计為:

德国坦克問題是统计推断中“參數估计”的一個經典范例. 它完美地展示了统计學的核心思想:如何基于一個不完整的、随机的样本信息,對一個未知的总體參數(這里是总體最大值 )做出科學的推断. 這個問題衍生出的估计量被称為“最大值的最小方差无偏估计量”的近似.

分层抽样

分层抽样

当总體由若干個有显著差异的、互不重叠的子群體(称為)構成时,我们将总體划分為若干层,然后在每一個层内部分别進行簡單随机抽样,最后将各层抽取的样本合并起来. 這种方法称為分层抽样.

辛普森悖論的例子警示我们,当总體存在显著的内部结構时,對這种结構视而不见可能会導致灾难性的錯誤结論. 簡單随机抽样通過纯粹的随机化来保證长期来看的公平性,但它无法保證每一次抽样都能完美地反映总體的内部结構. 例如,在一個男女比例為 的总體中進行容量為 的簡單随机抽样, 我们完全有可能因為随机性的波动, 抽到一個男女比例為 的样本,從而對依赖于性别的某些特征做出有偏的估计.

分层抽样是對纯粹随机性的一种精巧的约束和优化. 它承认并利用了总體的内在异質性. 其核心思想是“先分层,后抽样”,将一個複杂的、异質性高的总體,分解為若干個相對簡單的、同質性高的子总體(层),然后在每個子总體内部实施随机化.

這种方法的优势是多方面的,首先最直接的好处是可以提升估计精度: 通過确保所有子群體都按其在总體中的重要性(通常是规模)被恰当地代表,分层抽样可以显著降低抽样誤差,得到比同等规模的簡單随机抽样更精确的总體參數估计值. 換言之,它能产生方差更小的估计量.其次,也可以保證子群體代表性: 它确保了样本中包含来自所有层级的足够數量的個體,這使得我们不僅能對总體進行推断,还能對各個子群體自身的特征進行有意義的分析和比较.最后,实践上也会很方便,在组织层面,将大规模的抽样任务分解到各個层级,往往更易于管理和实施.

在实际操作中,最常见的分层抽样方法是按比例分配:即每個层所抽取的样本容量占总样本容量的比例,等于该层所含個體數占总體個體數的比例. 设总體容量為 , 被划分為 個层, 每层的容量分别為 . 若要抽取容量為 的样本, 则在第 层 () 中抽取的样本容量 為:

某大學共有學生 人, 其中低年级學生 人, 高年级學生 人. 學校希望估计全體學生平均每周的自習时間. 根据以往經验, 低年级學生自習时間的波动性较大, 而高年级學生则相對稳定. 現采用分层抽样方法, 抽取一個容量為 的样本.

  1. 采用按比例分配的原则,應在两個年级各抽取多少名學生?
  2. 假设抽样结果為:低年级样本的平均自習时間 小时, 高年级样本的平均自習时間 小时. 试估计全校學生平均每周的自習时間.
  3. 试讨論為何在這种情况下,分层抽样的估计结果比簡單随机抽样可能更為可靠.

這是一個典型的分层抽样應用场景,总體根据年级這一關键變量被自然地分為两层.

  1. 样本分配

根据按比例分配的原则,在第 层抽取的样本量 .

在低年级层應抽取:

在高年级层應抽取:

  1. 总體均值的估计

由于样本结構與总體结構成比例,我们可以通過對各层样本均值進行加权平均来估计总體均值 . 权重即為各层在总體中所占的比例 .

估计的总體均值 為:

因此,我们估计全校學生平均每周的自習时間為 19 小时.

  1. 可靠性分析

簡單随机抽样依赖于纯粹的随机机会来获得代表性. 在本例中,一個容量為 100 的簡單随机样本,其構成的年级比例可能因随机性而偏离真实的 .

例如,如果一次簡單随机抽样偶然抽到了 40 名低年级和 60 名高年级學生,并且他们的样本均值恰好也是 15 和 25,那么该样本的整體均值将是 小时,這会高估真实的总體均值.

分层抽样通過强制样本结構與总體结構一致,從根本上消除了因“样本中各子群體比例不当”而引入的抽样誤差. 它将随机性限制在各個同質的层内部,使得最终的加权估计量更為稳定和精确.

此例導出了分层抽样下总體均值的估计方法:. 這是一個在统计性質上优良的无偏估计量.

某市教育部门计划對一項新的教學改革方案進行民意调查,以了解全體高中生的支持率. 该市共有高中生 人, 其中高一年级 人, 高二年级 人, 高三年级 人. 由于不同年级的學生面临的學业压力和课程内容不同, 他们對改革方案的态度可能存在显著差异. 因此, 决定采用分层抽样的方法, 抽取一個容量為 的样本.

  1. 采用按比例分配的原则,计算應從每個年级分别抽取多少名學生?
  2. 调查结束后,样本數据显示高一、高二、高三學生的支持率分别為 , , . 請估计该市全體高中生對该方案的支持率.

這是一個典型的分层抽样應用场景,其中各個年级是天然的“层”,因為层内學生的同質性较高,而层間可能存在显著差异.

  1. 样本量分配

    分层抽样中的按比例分配,是指样本中各层的比例應與总體中各层的比例保持一致.

    首先计算各年级學生占总體的比例:

    高一年级比例

    高二年级比例

    高三年级比例

    根据此比例分配样本容量

    高一應抽取样本量 人.

    高二應抽取样本量 人.

    高三應抽取样本量 人.

  2. 总體支持率估计

    我们已經获得了每個层内的样本支持率,记為 .

    為了估计总體的支持率 ,我们不能簡單地将這三個支持率取算术平均,因為每個层在总體中的“权重”是不同的. 正确的方法是使用各层在总體中的比例作為权重,進行加权平均.

因此,估计该市全體高中生對该方案的支持率约為 $73.5\%$.

本例展示了分层抽样的两個核心操作:按比例分配样本量和對结果進行加权汇总. 按比例分配确保了样本在结構上是总體的微缩景观,從而保證了样本的代表性. 加权平均则是從样本數据推断总體參數的正确逻辑,它承认并利用了总體的内在分层结構,避免了因某一层样本比例過高或過低而導致的估计偏差. 如果研究者錯誤地對 求簡單算术平均, 将得到 , 這将低估总體支持率,因為占比较大的高一年级的较高支持率没有得到足够的體現.

一家连锁企业拥有两种類型的门店:旗舰店和社区店. 共有旗舰店 家, 社区店 家. 根据歷史數据, 旗舰店的月均销售额為 万元, 销售额的標准差為 万元;社区店的月均销售额為 万元, 標准差為 万元. 現计划抽取 家门店来估计整個连锁企业的平均月销售额. 试比较簡單随机抽样和按比例分层抽样两种方法的效率.

在统计學中,抽样方法的“效率”通常通過其估计量的方差来衡量. 方差越小,表明估计结果的波动性越小,精确度越高,因此效率越高. 我们的目標是比较两种抽样方法下,样本均值 的方差.

首先,计算总體的相關參數.

总體规模 .

各层权重 , .

总體均值 万元.

总體方差 由两部分構成:层内方差的加权平均和层間方差.

1. 簡單随机抽样

在此方法下,样本均值 的方差為(為簡化,此处忽略有限总體校正係數):

2. 按比例分层抽样

首先分配样本量:

家.

家.

分层抽样下,总體均值估计量 的方差為:

比较后發現: .

分层抽样的估计量方差远小于簡單随机抽样. 這表明,對于相同的样本量,分层抽样提供了更為精确的估计.

本例展示了分层抽样的两個核心操作:按比例分配样本量和對结果進行加权汇总. 按比例分配确保了样本在结構上是总體的微缩景观,從而保證了样本的代表性. 加权平均则是從样本數据推断总體參數的正确逻辑,它承认并利用了总體的内在分层结構,避免了因某一层样本比例過高或過低而導致的估计偏差. 如果研究者錯誤地對 求簡單算术平均, 将得到 , 這将低估总體支持率,因為占比较大的高一年级的较高支持率没有得到足够的體現.

係统抽样

係统抽样

将总體的 個個體按序編号. 确定抽样間隔 . 在第1到第 個個體中随机抽取一個作為起始個體 . 之后, 依次抽取編号為 的個體. 這种方法称為係统抽样.

從样本到总體

{/* label: sec:ch08-s03 */}

留言

還沒有留言。