第10章確率

:::info 翻訳状況

このローカライズページでは、ナビゲーション、メタデータ、アーカイブ告知を翻訳しています。数式、例、原稿由来の本文は、手動翻訳が未提供の箇所では簡体字中国語の原文を保持しています。

:::

{/* label: chap:ch10 */}

{/* latex-label: fig:monty-hall */} \begin{figure}[htbp]

\end{figure} 图：蒙提霍尔问题示意图：玩家初选门1后，主持人揭示门3为山羊

你的直觉可靠吗？谈谈蒙提霍尔问题 这是一个源自美国电视游戏的著名谜题：舞台上有三扇关闭的门，其中一扇门后面是一辆汽车，另外两扇门后面各是一只山羊. 你选择了一扇门（比如门1），但暂时不能打开. 此时，知道门后真相的主持人，会打开剩下两扇门中的一扇，并向你展示其后面是一只山羊（比如他打开了门3）.

接着，他问你：“你想要坚持你最初的选择（门1），还是换成剩下那扇未打开的门（门2）？” 你的第一感觉可能是什么？既然门3已经被排除了，剩下门1和门2，汽车在其中一扇门后的机会似乎是均等的，也就是各有一半的可能. 那么，换与不换，结果应该没什么区别.

{/* latex-label: fig:monty-hall-cases */} \begin{figure}[htbp]

\end{figure} 图：蒙提霍尔问题：穷举所有可能情况（假设玩家初选门1）

但这个直觉是完全错误的. 事实上，交换选择会使你赢得汽车的机会翻倍！ 为什么我们那看似“合理”的直觉会失效？要揭开这个谜题背后的真相，我们需要一套能够精确量化“可能性”大小的数学工具. 这套工具，就是概率论. 它将教会我们如何超越直觉，用严谨的逻辑来分析和应对世界的不确定性.

事件与概率

{/* label: sec:ch10-s01 */}

概率论的迷人之处在于，它为我们提供了一套严谨的数学语言，用以描述和量化我们日常生活中无处不在的不确定性. 抛硬币的简单游戏便是其应用的一个很好的例子. 概率论是理解、预测和驾驭随机现象的核心工具. 在本章中，我们将从最基本的概念——事件——开始，逐步构建起整个初步概率论的高楼大厦.

随机试验与事件

在我们能够讨论“可能性”的大小之前，我们首先需要精确地定义我们正在谈论的是什么. 概率论的起点是随机试验.

一个过程或试验，如果它满足以下三个基本特征，我们便称之为一个随机试验：

可重复性： 试验可以在相同的条件下重复进行.
可知性： 试验的所有可能结果是明确已知的.
不确定性： 在每次试验之前，我们无法预知哪个具体结果会出现.

随机试验的例子

抛掷一枚硬币： 我们可以在相同条件下重复抛掷，所有可能结果是“正面”或“反面”，但每次抛掷前我们不知道具体是哪一面朝上.
掷一颗骰子： 所有可能结果是点数 $\{1, 2, 3, 4, 5, 6\}$ .
记录某路口一小时内通过的汽车数量： 所有可能结果是 $\{0, 1, 2, ...\}$ .
从区间 $[0, 1]$ 上随机取一个数： 所有可能结果是该区间内的任何一个实数.

对于一个随机试验，我们将它所有可能的基本结果的集合称为样本空间，通常用大写希腊字母 $\Omega$ (Omega) 表示. 样本空间中的每一个元素，即每一个不能再分解的基本结果，称为一个样本点.

样本空间与样本点

随机试验 $E$ 的所有可能结果构成的集合称为 $E$ 的样本空间, 记为 $\Omega$ . 样本空间 $\Omega$ 中的元素，即试验的每一个基本结果，称为样本点.

样本空间的确定

抛掷一枚硬币一次，记“正面”为 H，“反面”为 T. 样本空间为 $\Omega = \{H, T\}$ .
掷一颗骰子一次，样本空间为 $\Omega = \{1, 2, 3, 4, 5, 6\}$ .
抛掷一枚硬币两次，记录每次的结果. 样本空间为 $\Omega = \{ (H,H), (H,T), (T,H), (T,T) \}$ .
从装有2个红球和3个白球的袋中，不放回地抽取2个球. 若我们关心的是球的颜色组合，则样本空间可设为 $\Omega = \{\{\text{红},\text{红}\}, \{\text{红},\text{白}\}, \{\text{白},\text{白}\}\}$ . 若我们对每个球加以区分（例如 $R_1, R_2, W_1, W_2, W_3$ ），则样本空间会复杂得多. 如何恰当地定义样本空间，取决于我们关心的问题是什么.

上面最后一个例子中的提醒，道出了各位同学在写题的时候必须要注意到的一点，定义样本空间不仅是罗列结果，更要用上你的大脑. 其核心哲学在于：我们构建的样本空间并非物理世界的唯一真实写照，而是一个为解决特定问题而服务的数学模型.

模型的选择

\paragraph{等可能性} 在应用古典概型时，一个根本性的要求是样本空间中的所有样本点必须是“等可能的”. 然而，“等可能性”往往不是一个先验的物理事实，而是我们在建模时做出的一种理想化假设. 一个优秀的建模者懂得如何通过巧妙地定义样本点，来创造出一个满足等可能性的样本空间.

区分与不区分的抉择

一个袋中装有2个红球和2个白球，除颜色外完全相同. 从中不放回地随机抽取2个球，求抽到2个红球的概率是多少？

解

对于这个试验，我们至少可以构想出两种不同的样本空间.

模型一：基于“结果”的样本空间 (不区分同色球) 如果我们只关心最终抽出的颜色组合，可能的结果有：“两红”、“一红一白”、“两白”. 于是我们构建样本空间：

\Omega_1 = \{ \text{“两红”}, \text{“一红一白”}, \text{“两白”} \}

如果我们草率地认为这三个结果是等可能的，就会得出 $P(\text{“两红”}) = \frac{1}{3}$ 的错误结论. 这个模型虽然直观，但其样本点并非等可能，因为它忽略了不同球之间的差异，从而压缩了信息.

模型二：基于“过程”的样本空间 (区分同色球) 为了构建一个样本点等可能的空间，我们必须引入一种“虚拟的”区分. 即使这些球在物理上无法分辨，我们可以在数学上给它们贴上标签： $R_1, R_2, W_1, W_2$ . 这样，抽取两个球的过程就变成了从这4个可区分的物体中抽取2个. 不考虑顺序，所有可能的组合构成了我们的新样本空间：

\Omega_2 = \{ \{R_1, R_2\}, \{W_1, W_2\}, \{R_1, W_1\}, \{R_1, W_2\}, \{R_2, W_1\}, \{R_2, W_2\} \}

这个样本空间共有 $\binom{4}{2} = 6$ 个样本点. 由于每个球被抽到的机会均等，我们可以合理地假设这6个组合是等可能的.

现在我们来考察事件 $A$ ：“抽到2个红球”. 在 $\Omega_2$ 中, 这个事件对应于子集 $A = \{ \{R_1, R_2\} \}$ . 该事件只包含了1个样本点. 根据古典概型，正确的概率是：

P(A) = \frac{\mathrm{card}(A)}{\mathrm{card}(\Omega_2)} = \frac{1}{6}

这个对比清晰地揭示了建模的哲学，通过在数学上将物理不可区分的物体视为可区分，我们“创造”了一个具有等可能性质的样本空间，从而使得古典概型的强大威力得以应用. 好的样本空间，其美妙之处在于它将一个复杂的、非等可能的问题，转化为一个简单的、等可能的组合计数问题.

样本空间的构建还依赖于我们关心的问题的细节层次. 一个过于粗糙的样本空间可能会丢失解决问题所需的关键信息，而一个过于精细的样本空间则可能徒增不必要的计算复杂性. 例如，在连续抛掷三次硬币的试验中，如果我们关心的是“恰好出现两次正面”的概率，那么记录每次抛掷结果的有序样本空间 $\Omega = \{ HHH, HHT, ..., TTT \}$ 是必要的. 而如果只关心正面的总数, 构造的样本空间 $\Omega = \{0, 1, 2, 3\}$ 虽然合法，但其样本点并非等可能，反而增加了计算难度.

事件的定义与表示

在定义了样本空间之后，我们便可以定义事件. 在日常语言中，事件指的是“发生的事情”.

事件

样本空间 $\Omega$ 的任意一个子集 $A$ ( $A \subseteq \Omega$ )，称为一个随机事件，简称事件. 当且仅当一次试验的结果（即样本点）属于子集 $A$ 时, 我们称事件 $A$ 发生.

这个定义是现代概率论的基石. 它巧妙地将一个随机、不确定的概念（事件的发生）与一个确定、严谨的数学对象（集合）联系了起来.

事件的集合表示

考虑掷一颗骰子的试验，其样本空间为 $\Omega = \{1, 2, 3, 4, 5, 6\}$ . 以下是一些事件的例子：

事件 $A$ : “掷出的点数为偶数”. 作为一个集合, $A = \{2, 4, 6\}$ .
事件 $B$ : “掷出的点数大于4”. 作为一个集合, $B = \{5, 6\}$ .
事件 $C$ : “掷出的点数为7”. 这是一个不可能发生的情况, 对应的集合是空集 $C = \emptyset$ .
事件 $D$ : “掷出的点数小于10”. 这是一个必然发生的情况, 对应的集合是整个样本空间 $D = \Omega$ .

从这个例子中，我们可以看到两种特殊的事件：

必然事件：每次试验中必定发生的事件. 它对应于整个样本空间 $\Omega$ .
不可能事件：每次试验中都绝不会发生的事件. 它对应于空集 $\emptyset$ .

事件的运算与关系

既然事件就是集合，那么集合论中的各种关系和运算，就自然而然地对应了事件之间的逻辑关系. 掌握这套语言，是精确描述复杂概率问题的第一步. 我们以掷一颗骰子的试验为例，令样本空间 $\Omega = \{1, 2, 3, 4, 5, 6\}$ .

包含关系

若事件 $A$ 的发生必然导致事件 $B$ 的发生, 则称事件 $B$ 包含事件 $A$ , 记作 $A \subset B$ 或 $B \supset A$ .

例子： 令事件 $C = \{2, 4\}$ (点数为2或4), 事件 $B = \{2, 4, 6\}$ (点数为偶数). 则 $C \subset B$ ，因为掷出2点或4点，必然意味着掷出了偶数点.

和事件

事件“ $A$ 与 $B$ 至少有一个发生”称为 $A$ 与 $B$ 的和事件, 记作 $A \cup B$ .

例子： 令 $A=\{1, 2, 3, 4\}$ (点数不大于4), $B=\{2, 4, 6\}$ (点数为偶数). 则和事件 $A \cup B = \{1, 2, 3, 4, 6\}$ ，它表示“点数不大于4，或者点数为偶数”.

积事件

事件“ $A$ 与 $B$ 同时发生”称为 $A$ 与 $B$ 的积事件, 记作 $A \cap B$ 或 $AB$ .

例子： 对于上述事件 $A, B$ , 积事件 $A \cap B = \{2, 4\}$ ，它表示“点数既不大于4，又是偶数”.

互斥事件

若事件 $A$ 与 $B$ 不能同时发生, 则称它们为互斥事件或互不相容事件. 在集合上表现为它们的交集是空集, 即 $A \cap B = \emptyset$ .

例子： 事件 $B=\{2,4,6\}$ (偶数) 和事件 $D=\{1,3,5\}$ (奇数) 是互斥的, 因为 $B \cap D = \emptyset$ .

差事件

事件“ $A$ 发生而事件 $B$ 不发生”称为 $A$ 与 $B$ 的差事件, 记作 $A - B$ . 显然, 它等价于 $A \cap \bar{B}$ .

例子： 令 $A=\{1, 2, 3, 4\}$ , $B=\{2, 4, 6\}$ . 则差事件 $A - B = \{1, 3\}$ ，表示“点数不大于4，但不是偶数”.

对立事件

事件“ $A$ 不发生”称为 $A$ 的对立事件或逆事件, 记作 $\bar{A}$ . 它由样本空间 $\Omega$ 中所有不属于 $A$ 的元素构成.

特征： 事件 $A$ 与其对立事件 $\bar{A}$ 满足 $A \cup \bar{A} = \Omega$ 且 $A \cap \bar{A} = \emptyset$ . 即 $A$ 和 $\bar{A}$ 既互斥又完备，它们构成对样本空间的一个划分.

例子： 若事件 $A = \{1, 2, 3, 4\}$ (点数不大于4), 则其对立事件为 $\bar{A} = \{5, 6\}$ (点数大于4).

这些事件间的关系和运算，可以通过Venn图直观地表示出来，这是一种非常有用的思维工具.

\begin{figure}[htbp]

\end{figure} 图：事件运算的韦恩图表示

事件的运算满足与集合运算完全相同的定律，例如交换律、结合律、分配律以及德·摩根定律.

德·摩根定律

对于任意两个事件 $A$ 和 $B$ ：

$\overline{A \cup B} = \bar{A} \cap \bar{B}$ (“A或B都不发生” 等价于 “A不发生且B不发生”)
$\overline{A \cap B} = \bar{A} \cup \bar{B}$ (“A和B不都发生” 等价于 “A不发生或B不发生”)

人教A版必修二226页复习参考题10

下图是一个古典概型的样本空间 $\Omega$ 和事件 $A, B$ 的Venn图. 已知样本空间的总样本点数 $\mathrm{card}(\Omega)=24$ , 事件 $A$ 包含的样本点数 $\mathrm{card}(A)=12$ , 事件 $B$ 包含的样本点数 $\mathrm{card}(B)=8$ , 事件 $A \cup B$ 包含的样本点数 $\mathrm{card}(A \cup B)=16$ .

\begin{figure}[htbp]

\end{figure}

(1) 求 $\mathrm{card}(AB)$ , $P(AB)$ , $P(A \cup B)$ 以及 $P(\bar{A}\bar{B})$ .

(2) 判断事件 $A$ 与 $B$ 是否互斥？是否相互独立？

解

这是一个综合运用事件关系和概率基本性质的典型问题.

(1) 计算基本事件的样本点数与概率

首先，我们利用集合的容斥原理计算事件 $A$ 和 $B$ 交集（积事件）的样本点数.

\mathrm{card}(A \cup B) = \mathrm{card}(A) + \mathrm{card}(B) - \mathrm{card}(A \cap B)

将已知数值代入，

16 = 12 + 8 - \mathrm{card}(A \cap B)

16 = 20 - \mathrm{card}(A \cap B)

解得积事件 $AB$ (即 $A \cap B$ ) 的样本点数：

\mathrm{card}(AB) = 4

根据古典概型的定义，我们可以计算相关概率. 积事件的概率为

P(AB) = \frac{\mathrm{card}(AB)}{\mathrm{card}(\Omega)} = \frac{4}{24} = \frac{1}{6}

和事件的概率为

P(A \cup B) = \frac{\mathrm{card}(A \cup B)}{\mathrm{card}(\Omega)} = \frac{16}{24} = \frac{2}{3}

对于 $P(\bar{A}\bar{B})$ ，我们首先应用德·摩根定律.

\bar{A} \cap \bar{B} = \overline{A \cup B}

因此，我们所求的是事件 $A \cup B$ 的对立事件的概率.

P(\bar{A}\bar{B}) = P(\overline{A \cup B}) = 1 - P(A \cup B) = 1 - \frac{2}{3} = \frac{1}{3}

(2) 判断事件的关系

关于互斥性：

两个事件互斥的定义是它们的交集为空集，即 $A \cap B = \emptyset$ . 这等价于 $\mathrm{card}(A \cap B) = 0$ . 从 (1) 的计算中我们已经得到 $\mathrm{card}(AB) = 4 \neq 0$ . 因此，事件 $A$ 与 $B$ 不互斥.

关于独立性：

两个事件相互独立的定义是 $P(AB) = P(A)P(B)$ . 我们需要分别计算等式的两边并进行比较. 从 (1) 我们已知等式左边：

P(AB) = \frac{1}{6}

现在我们计算等式右边：

P(A) = \frac{\mathrm{card}(A)}{\mathrm{card}(\Omega)} = \frac{12}{24} = \frac{1}{2}

P(B) = \frac{\mathrm{card}(B)}{\mathrm{card}(\Omega)} = \frac{8}{24} = \frac{1}{3}

它们的乘积为

P(A)P(B) = \frac{1}{2} \times \frac{1}{3} = \frac{1}{6}

由于 $P(AB) = P(A)P(B)$ 成立. 因此，事件 $A$ 与 $B$ 相互独立.

例

高中生李华决定报名参加学校的社团活动，有三种选择：A (ACG社), B (辩论社), C (虚拟联合国). 设 $A, B, C$ 分别表示“李华报名参加了ACG社”、“报名参加了辩论社”、“报名参加了虚拟联合国”这三个事件. 请使用 $A, B, C$ 的运算关系表示下列事件： (1) 李华至少报名参加了一个社团. (2) 李华同时报名参加了全部三个社团. (3) 李华报名参加了ACG社，但没有报名参加辩论社. (4) 李华三个社团都没有报名参加. (5) 李华恰好只报名参加了一个社团.

解

本题关键在于理解“或”、“且”、“非”等逻辑词与事件运算的对应关系.

(1) “至少报名参加一个社团”意味着“参加了A”或“参加了B”或“参加了C”. 这是三个事件的和事件.

A \cup B \cup C

(2) “同时报名参加了全部三个社团”意味着“参加了A”且“参加了B”且“参加了C”. 这是三个事件的积事件.

A \cap B \cap C \text{或简记为} ABC

(3) “报名参加了ACG社，但没有报名参加辩论社”意味着事件 $A$ 发生且事件 $B$ 不发生 (即 $\bar{B}$ 发生).

A \cap \bar{B} \text{或记为} A - B

(4) “三个社团都没有报名参加”是“至少报名参加一个社团”的对立事件.

\overline{A \cup B \cup C}

根据德·摩根定律，这也可以表示为“没有参加A”且“没有参加B”且“没有参加C”.

\bar{A} \cap \bar{B} \cap \bar{C}

(5) “恰好只报名参加一个社团”是一个更复杂的逻辑，它由三个互斥的部分组成：“只参加了A”、“只参加了B”、“只参加了C”. “只参加了A”意味着“参加了A，且没参加B，且没参加C”，即 $A\bar{B}\bar{C}$ . 因此，该事件为这三个互斥事件的和事件.

(A\bar{B}\bar{C}) \cup (\bar{A}B\bar{C}) \cup (\bar{A}\bar{B}C)

这个练习的核心在于将日常语言的逻辑结构分解，并映射到集合运算上.

例

某电子设备由两个核心部件构成. 令事件 $A$ 表示“部件1在一年内失效”, 事件 $B$ 表示“部件2在一年内失效”. 已知 $P(A)=0.1$ , $P(B)=0.08$ , $P(AB)=0.02$ . 求该设备在一年内能正常工作的概率.

解

首先，我们需要用事件的语言来描述“设备能正常工作”. 设备能正常工作，当且仅当部件1没有失效 并且 部件2没有失效. 这对应于事件 $\bar{A} \cap \bar{B}$ .

直接计算 $P(\bar{A} \cap \bar{B})$ 较为困难，但我们可以利用其与和事件的关系.

根据德·摩根定律，我们知道

\bar{A} \cap \bar{B} = \overline{A \cup B}

这个等式的直观意义是：“两个部件都没坏”恰好是“至少有一个部件坏了”的对立事件.

因此，我们要求的概率是

P(\bar{A} \cap \bar{B}) = P(\overline{A \cup B}) = 1 - P(A \cup B)

接下来，我们使用广义加法公式计算 $P(A \cup B)$ .

P(A \cup B) = P(A) + P(B) - P(AB)

代入已知数据，

P(A \cup B) = 0.1 + 0.08 - 0.02 = 0.16

最后，我们得到设备正常工作的概率：

P(\text{正常工作}) = 1 - P(A \cup B) = 1 - 0.16 = 0.84

例

某班级有50名学生，参加了数学、物理、化学三科的兴趣小组. 已知参加数学的有30人，物理25人，化学20人. 同时参加数学和物理的有15人，数学和化学10人，物理和化学8人. 三科都参加的有5人. 问： (1) 至少参加一科的有多少人？ (2) 恰好只参加一科的有多少人？

解

设 $M, P, C$ 分别表示参加数学、物理、化学兴趣小组的学生构成的集合. 这是一个典型的容斥原理应用问题.

(1) “至少参加一科”的人数即为 $\mathrm{card}(M \cup P \cup C)$ . 根据三事件的容斥原理公式，我们将所有单个事件的基数相加，减去所有两两相交事件的基数，最后再加上三者相交事件的基数：

\begin{aligned} \mathrm{card}(M \cup P \cup C) &= (\mathrm{card}(M)+\mathrm{card}(P)+\mathrm{card}(C)) & - (\mathrm{card}(MP)+\mathrm{card}(MC)+\mathrm{card}(PC)) & + \mathrm{card}(MPC) \end{aligned}

代入数据：

\begin{aligned} \mathrm{card}(M \cup P \cup C) &= (30+25+20) - (15+10+8) + 5 &= 75 - 33 + 5 = 47 \end{aligned}

所以，至少参加一科的有47人. (另外3人什么都没参加).

(2) “恰好只参加一科”的人数需要从总数中剔除参加两科及三科的人. 利用韦恩图辅助思考会非常清晰. 设 $N_1, N_2, N_3$ 分别为恰好参加一科、两科、三科的人数.

我们已知，三科都参加的人数 $N_3 = \mathrm{card}(MPC) = 5$ 人.

接下来计算恰好参加两科的人数. “恰好参加数学和物理两科” (即参加这两科，但不参加化学) 的人数为：

\mathrm{card}(MP) - \mathrm{card}(MPC) = 15 - 5 = 10

同理，恰好参加物理和化学两科的人数为 $8-5=3$ . 恰好参加数学和化学两科的人数为 $10-5=5$ . 所以，恰好参加两科的总人数 $N_2 = 10 + 3 + 5 = 18$ 人.

最后计算恰好只参加一科的人数. “恰好只参加数学一科”的人数，等于参加数学的总人数，减去所有与数学有交集的“恰好两科”和“三科”的人数：

\begin{aligned} & 30 - (\text{恰好数物}) - (\text{恰好数化}) - (\text{三科都参加}) &= 30 - 10 - 5 - 5 = 10 \end{aligned}

同理，恰好只参加物理一科的人数为： $25 - 10 - 3 - 5 = 7$ . 恰好只参加化学一科的人数为： $20 - 5 - 3 - 5 = 7$ . 所以，恰好只参加一科的总人数 $N_1 = 10 + 7 + 7 = 24$ 人.

检验： $N_1+N_2+N_3 = 24+18+5 = 47$ ，与(1)的结果吻合.

例

证明对于任意两个事件 $A, B$ , 以下等式恒成立：

(A \cup B) \cap (A \cup \bar{B}) = A

解

法一：使用分配律

我们将事件的并集和交集运算类比于数的加法和乘法. 分配律 $x(y+z)=xy+xz$ 在这里对应于 $X \cap (Y \cup Z) = (X \cap Y) \cup (X \cap Z)$ . 在本题中，我们可以将事件 $A$ 看作一个公共部分提取出来.

(A \cup B) \cap (A \cup \bar{B}) = A \cup (B \cap \bar{B})

根据对立事件的定义，一个事件与它的对立事件的交集是不可能事件 $\emptyset$ .

B \cap \bar{B} = \emptyset

所以，原式化简为：

A \cup \emptyset

任何事件与不可能事件的并集，都等于其自身.

A \cup \emptyset = A

因此，原等式成立.

法二：逻辑分析

我们分析事件 $(A \cup B) \cap (A \cup \bar{B})$ 发生的条件. 该事件发生，意味着 $(A \cup B)$ 必须发生, 并且 $(A \cup \bar{B})$ 也必须发生.

我们分两种情况讨论：

若事件 $A$ 发生： 此时 $A \cup B$ 必然发生, $A \cup \bar{B}$ 也必然发生. 因此整个积事件发生.
**若事件 $A$ 不发生 (即 $\bar{A**$ 发生)：} 此时要使 $A \cup B$ 发生, 必须要求 $B$ 发生. 同时, 要使 $A \cup \bar{B}$ 发生, 必须要求 $\bar{B}$ 发生. 那么就要求 $B$ 和 $\bar{B}$ 同时发生，这是不可能的.

综上所述，该复合事件发生的充要条件就是事件 $A$ 发生. 故它等价于事件 $A$ .

此例题说明，熟练运用事件的运算法则，可以像代数一样简洁地化简和证明复杂的事件关系.

例

从一副标准的52张扑克牌中随机抽取一张. 定义下列事件： $A$ : “抽到红桃” $B$ : “抽到黑桃” $C$ : “抽到红色牌 (红桃或方片)” $D$ : “抽到J、Q、K中的一张 (人头牌)”

请判断下列说法的正误： (1) 事件 $A$ 与 $B$ 是互斥的吗？ (2) 事件 $A$ 与 $C$ 是互斥的吗？ (3) 事件 $A$ 与 $B$ 是对立事件吗？ (4) 事件 $C$ 与 $\bar{C}$ 是对立事件吗？ (5) 事件 $A$ 与 $D$ 是互斥的吗？

解

此题旨在厘清“互斥”与“对立”这两个核心且易混淆的概念的区别.

(1) 正确. 一张牌不能既是红桃又是黑桃，所以它们的交集为空，即 $A \cap B = \emptyset$ .

(2) 错误. 红桃本身就是红色的牌. 事件 $A$ 的发生必然导致事件 $C$ 的发生, 即 $A \subset C$ . 因此它们的交集 $A \cap C = A \neq \emptyset$ .

(3) 错误. 对立事件必须满足两个条件：① 它们是互斥的 ( $A \cap B = \emptyset$ )；② 它们的并集是整个样本空间 ( $A \cup B = \Omega$ ). 从 (1) 可知，事件 $A$ 和 $B$ 确实满足互斥的条件. 但是, 它们的并集 $A \cup B$ 代表“抽到红桃或黑桃”, 这并未包含所有可能性, 例如方片和梅花. 因此 $A \cup B \neq \Omega$ . 由于第二个条件不满足，它们不是对立事件.

(4) 正确. 我们来验证对立事件的两个条件. 事件 $C$ 是“抽到红色牌”, 其对立事件 $\bar{C}$ 就是“没有抽到红色牌”，即“抽到黑色牌”. ① 一张牌不能既红又黑，所以 $C \cap \bar{C} = \emptyset$ (互斥). ② 任何一张牌非红即黑，所以 $C \cup \bar{C} = \Omega$ (并集为全集). 两个条件都满足，因此它们是对立事件.

(5) 错误. 存在一张牌既是红桃又是人头牌，即“红桃J”、“红桃Q”、“红桃K”. 因此 $A \cap D \neq \emptyset$ .

互斥仅要求事件不能同时发生 ( $A \cap B = \emptyset$ )；而对立则更为严格, 它在互斥的基础上, 还要求两事件的并集必须穷尽所有可能性 ( $A \cup B = \Omega$ ). 任何对立事件必然互斥，但互斥事件不一定对立.

至此，我们已经建立了描述随机现象中“事件”的语言. 我们将一个不确定的概念——事件——成功地转化为了一个严谨的数学对象——集合. 接下来，我们的任务就是为每一个这样的事件 $A$ 赋予一个数值 $P(A)$ ，用以量化该事件发生的“可能性”的大小. 这就是概率的由来.

概率的定义

在深入探讨概率的严格数学体系之前，让我们先回到一个更符合直觉的问题：当我们说“抛掷一枚均匀硬币，正面朝上的概率是 $\frac{1}{2}$ ”时，这句话究竟意味着什么？

概率的统计定义

最朴素、也最符合科学实验精神的一种想法是，概率是一个事件在大量重复试验中发生的频率的稳定值.

具体来说，我们在相同的条件下对一个随机试验重复进行 $n$ 次, 其中事件 $A$ 发生了 $n_A$ 次. 我们称比值 $f_n(A) = \frac{n_A}{n}$ 为事件 $A$ 在这 $n$ 次试验中发生的频率. 大量的实践经验告诉我们，当试验次数 $n$ 越来越大时, 这个频率 $f_n(A)$ 会表现出一种惊人的稳定性，它会围绕着某个固定的数值摆动，且摆动的幅度越来越小. 这个现象被称为大数定律. 于是，一个自然的定义就产生了：

概率的统计定义

在不变的条件下，重复进行 $n$ 次试验, 事件 $A$ 发生的频率 $f_n(A)$ 随着 $n$ 的增大稳定于某一常数 $p$ . 我们就称这个常数 $p$ 为事件 $A$ 的概率, 记作 $P(A)=p$ .

这个定义将概率与可观测的物理世界联系起来，非常直观. 但作为数学定义，它存在着一些深刻的困难：

比如，它依赖于“频率会稳定于一个常数”这个事实，但这个事实本身就需要用概率论的理论（大数定律）来证明. 用一个需要被证明的结论来作定义，这在逻辑上是不够严谨的.

或者，我们永远无法进行无穷多次试验来求得那个极限值. 任何实际的频率都只是概率的一个近似值.

最后，也是对于实践最不利的，对于很多现实问题，试验根本不具备“重复进行”的可能性. 例如，“明天会下雨的概率”或“某支球队赢得下届世界杯的概率”，这些事件都是一次性的，我们无法“重复”一万个“明天”或一万个“下届世界杯”来统计频率.

由于这些缺陷，统计定义不能作为概率论的逻辑基础. 于是，数学家们尝试从另一个角度出发.

古典概型及其不足

历史上最早取得成功的数学定义是古典概型，它避开了重复试验，转而分析试验结果的内在对称性. 它基于一个非常直观的思想：如果一个试验有 $n$ 个等可能的基本结果, 而事件 $A$ 包含了其中的 $m$ 个结果, 那么事件 $A$ 发生的概率就是 $P(A) = \frac{m}{n}$ . 这种定义简洁、易于理解，并且在我们处理像掷骰子、抽扑克牌这类理想化问题时非常有效.

然而，古典概型的应用范围同样有限. 首先，它要求样本空间是有限的；其次，也是更致命的，它依赖于“等可能性”这个无法被定义和验证的前提. 对于一枚质地不均匀的硬币，或一个包含无穷结果的试验（如“从区间 $[0,1]$ 内随机取一个数”），古典概型便无能为力.

概率的公理化定义

为了克服上述定义的局限，我们需要一个更具普适性的概率定义. 这个定义不应依赖于“频率”或“等可能性”的假设，而是从一些最基本的、不证自明的“公理”出发，用逻辑演绎的方式构建起整个概率论的体系. 这就是由苏联数学家安德雷·柯尔莫戈洛夫在1933年提出的概率公理化定义.

它不关心概率的数值从何而来（可以来自频率统计，也可以来自对称性假设），只关心这些数值必须遵守哪些基本的规则.

概率的公理化定义

设 $E$ 是一个随机试验, $\Omega$ 是其样本空间. 对于 $\Omega$ 中的每一个事件 $A$ , 赋予一个实数, 记为 $P(A)$ , 称为事件 $A$ 的概率. 如果这个赋值函数 $P(\cdot)$ 满足以下三条公理，则称之为一个概率测度.

非负性公理： 对于每一个事件 $A$ , 有 $P(A) \ge 0$ .
规范性公理： 必然事件的概率为1，即 $P(\Omega) = 1$ .
可加性公理： 若 $A_1, A_2, ...$ 是一列两两互斥的事件 (即对于任意 $i \neq j$ , 都有 $A_i \cap A_j = \emptyset$ )，则有

P(A_1 \cup A_2 \cup ...) = P(A_1) + P(A_2) + ...

对于有限个互斥事件，此公理同样成立：$P(A_1 \cup ... \cup A_n) = P(A_1) + ... + P(A_n)$.

柯尔莫戈洛夫的定义是数学抽象力量的典范. 它没有告诉我们概率应该如何计算，而是规定了任何一种合理的概率度量必须遵守的根本法则.

首先，“对于... 每一个事件 $A$ , 赋予一个实数... 记为 $P(A)$ ” 这句话的本质是定义了一个函数. 在高中阶段, 我们熟悉的函数, 其定义域和值域通常都是数的集合 (例如 $f(x)=x^2$ ). 而这里的概率 $P(\cdot)$ 是一个更广义的函数：它的定义域是样本空间 $\Omega$ 的所有事件构成的集合 (函数的自变量不是一个数, 而是一个集合), 其值域则是实数集 $\mathbb{R}$ (根据公理, 实际上是区间 $[0,1]$ ). 因此, $P(A)$ 的写法与 $f(x)$ 完全对应, 它表示“将事件 $A$ 这个输入，映射到它的概率值这个输出”.

而“概率测度”这一术语，意为“测量”. 就像“长度”是测量一维线段，“面积”是测量二维图形一样，“概率测度”就是一套用来测量一个事件发生可能性大小的规则. 任何满足下面三条公理的函数 $P(\cdot)$ ，都被认为是一种合法的、自洽的“测量”方式.

三条公理的内涵

\paragraph{公理一：非负性 $P(A) \ge 0$ } 这是最基本的要求. 一个事件发生的可能性，最低是“绝不发生”，对应概率为0，但绝不可能比“绝不发生”还低. “-20%的可能性”是毫无意义的. 此公理为概率设定了下界.

\paragraph{公理二：规范性 $P(\Omega) = 1$ } 这是为我们的“测量”设定一个单位尺度. “规范性”的意思就是“标准化”. 我们将“必然发生”这件事的确定性程度规定为1 (或者说100%). 于是，所有其他事件的概率都成为了相对于这个“完全确定”的基准的一个比例，自然地落在了0和1之间. 就像我们将1米定义为一个标准长度一样，这里我们将完全的确定性“标定”为1.

\paragraph{公理三：可加性} 对于一系列两两互斥的事件 $A_i$ ，其并集的概率等于它们各自概率的和. 这是三条公理中最核心、最强大的一条，它将整体的概率与局部的概率联系起来.

总之，概率的公理化定义，本质上是为“可能性”这个模糊概念建立了一个数学模型. 它声称：任何一个函数，只要它不产生负值(公理1)，把总的可能性校准为1(公理2)，并且允许我们将互斥可能性的概率进行相加(公理3)，那么它就是一个有效的概率模型.

这三条公理虽然形式简单，但却是整个概率论的基石，所有我们熟知的概率性质，都可以从这三条公理中推导出来.

性质

不可能事件的概率为零.

P(\emptyset) = 0

证明

我们考虑必然事件 $\Omega$ 和不可能事件 $\emptyset$ . 这两个事件是互斥的，因为 $\Omega \cap \emptyset = \emptyset$ . 同时，它们的并集是 $\Omega \cup \emptyset = \Omega$ .

根据公理3 (可加性)，我们有

P(\Omega \cup \emptyset) = P(\Omega) + P(\emptyset)

由于 $\Omega \cup \emptyset = \Omega$ ，上式变为

P(\Omega) = P(\Omega) + P(\emptyset)

再根据公理2 (规范性)， $P(\Omega) = 1$ ，代入得

1 = 1 + P(\emptyset)

因此，我们证明了 $P(\emptyset) = 0$ .

注意：反之不一定成立. 概率为0的事件不一定是不可能事件. 例如，在“从区间[0,1]上随机取一个数”的试验中，取到数字0.5的概率是0，但这显然是一个可能发生的结果.

性质

对于任意事件 $A$ , 其对立事件 $\bar{A}$ 的概率为

P(\bar{A}) = 1 - P(A)

*这个性质极为常用，因为在很多情况下，直接计算事件 $A$ 的概率较为复杂, 而计算其对立事件 $\bar{A*$ 的概率则简单得多.}

证明

对于任意事件 $A$ 与其对立事件 $\bar{A}$ , 我们知道它们是互斥的 ( $A \cap \bar{A} = \emptyset$ ) 且完备的 ( $A \cup \bar{A} = \Omega$ ).

根据公理3 (可加性)，我们有

P(A \cup \bar{A}) = P(A) + P(\bar{A})

又因为 $A \cup \bar{A} = \Omega$ , 根据公理2 (规范性), $P(A \cup \bar{A}) = P(\Omega) = 1$ .

所以，

1 = P(A) + P(\bar{A})

移项即可得到

P(\bar{A}) = 1 - P(A)

性质

对于任意事件 $A$ ，其概率介于0和1之间.

0 \le P(A) \le 1

证明

该性质包含两个部分： $P(A) \ge 0$ 和 $P(A) \le 1$ .

第一部分 $P(A) \ge 0$ 直接由公理1 (非负性) 给出.

为了证明第二部分 $P(A) \le 1$ ，我们使用刚刚证明的对立事件概率性质.

P(A) = 1 - P(\bar{A})

根据公理1，任何事件的概率都是非负的，因此 $P(\bar{A}) \ge 0$ . 所以

P(A) = 1 - P(\bar{A}) \le 1 - 0 = 1

综上所述，我们证明了 $0 \le P(A) \le 1$ .

性质

若事件 $A$ 包含于事件 $B$ ( $A \subset B$ ), 则事件 $A$ 的概率不大于事件 $B$ 的概率.

P(A) \le P(B)

并且，事件差的概率为

P(B - A) = P(B) - P(A)

证明

当 $A \subset B$ 时, 事件 $B$ 可以被分解为两个互斥部分的并集：事件 $A$ 和事件 $B-A$ (即属于 $B$ 但不属于 $A$ 的部分).

也就是说，$B = A \cup (B-A)$, 并且 $A \cap (B-A) = \emptyset$.

根据公理3 (可加性)，我们可以对这个不交并进行分解：

P(B) = P(A) + P(B-A)

移项可得事件差的概率公式：

P(B-A) = P(B) - P(A)

根据公理1 (非负性)，任何事件的概率都必须大于或等于0. 事件 $B-A$ 也不例外，因此

P(B-A) \ge 0

将 $P(B) - P(A)$ 代入上式，得到

P(B) - P(A) \ge 0

这便证明了

P(A) \le P(B)

性质

对于任意两个事件 $A$ 和 $B$ ，它们并集的概率为

P(A \cup B) = P(A) + P(B) - P(A \cap B)

证明

为了证明这个公式，我们需要将事件 $A \cup B$ 分解为互斥事件的并，以便使用公理3. 从韦恩图中可以清晰地看到， $A \cup B$ 可以表示为三个互斥区域的并集： $A-B$ , $B-A$ , 和 $A \cap B$ .

一个更简洁的分解方式是：

A \cup B = A \cup (B-A)

其中 $A$ 与 $B-A$ 是互斥的. 根据公理3，

P(A \cup B) = P(A) + P(B-A)

另一方面，我们知道 $B = (A \cap B) \cup (B-A)$ , 且 $A \cap B$ 与 $B-A$ 互斥. 所以 $P(B) = P(A \cap B) + P(B-A)$ . 由此可得 $P(B-A) = P(B) - P(A \cap B)$ .

将此表达式代回我们关于 $P(A \cup B)$ 的方程中，即得

P(A \cup B) = P(A) + \big(P(B) - P(A \cap B)\big)

P(A \cup B) = P(A) + P(B) - P(A \cap B)

这个公式告诉我们，当简单地将两个事件的概率相加时，我们把它们共同发生的部分 ( $A \cap B$ ) 计算了两遍, 因此必须减去一次. 这个思想可以推广到任意多个事件, 并引出著名的容斥原理. 例如, 对于三个事件 $A, B, C$ ：

P(A \cup B \cup C) = \sum P(A) - \sum P(AB) + P(ABC)

其中 $\sum P(A) = P(A)+P(B)+P(C)$ , $\sum P(AB) = P(AB)+P(AC)+P(BC)$ .

一些有趣的问题

下面来看更多历史上的有趣的概率问题，下面的解答或者证明过程可能有些羞涩难懂，并不强求你一开始就理解，但记住一些经典结论总是很好的：

集合符号提示

在概率论中，我们经常需要处理大量事件的关系，如果逐一写出 $A_1 \cup A_2 \cup ... \cup A_n$ 会非常繁琐. 因此，数学家们发明了一套简洁的符号系统来表示"多个事件的并集"或"多项概率的和". 理解这套语言是至关重要的.

并集与交集

我们已经知道 $A \cup B$ 表示" $A$ 或 $B$ 发生", $A \cap B$ 表示" $A$ 与 $B$ 同时发生". 当我们想将其推广到 $n$ 个事件 $A_1, A_2, ..., A_n$ 时，我们使用"大"符号：

大并集符号 $\bigcup$ :

\bigcup_{i=1}^n A_i \text{读作\"从 i 等于 1 到 n, $A_i$ 的并集\"}

这完全等价于 $A_1 \cup A_2 \cup ... \cup A_n$. 它所代表的事件是"$A_1, A_2, ..., A_n$ 中**至少有一个**发生".

大交集符号 $\bigcap$ :

\bigcap_{i=1}^n A_i \text{读作\"从 i 等于 1 到 n, $A_i$ 的交集\"}

这完全等价于 $A_1 \cap A_2 \cap ... \cap A_n$. 它所代表的事件是"$A_1, A_2, ..., A_n$ **全部都**发生".

生日问题*

我们来探讨一个有趣的问题：

生日问题

在一个有 $n$ 个人的房间里 ( $n \le 365$ ), 假设每个人的生日等可能地分布在一年365天中的任何一天, 且不考虑闰年. 求至少有两个人生日相同的概率是多少？计算当 $n=23$ 时，这个概率大约是多少.

解

这是一个经典的概率问题，其结果往往与直觉相悖. 直接计算“至少有两人生日相同”的概率比较困难，因为它包含“恰好两人相同”、“恰好三рам相同”、“两对不同的人生日相同”等多种情况. 因此，我们转向其对立事件 $A$ ：“所有人的生日都不同”. 样本空间 $\Omega$ 是 $n$ 个人所有可能的生日组合，每个人都有365种可能，因此

\mathrm{card}(\Omega) = 365^n

事件 $A$ 发生的样本点数, 相当于从365天中选出 $n$ 个不同的生日, 并将其分配给 $n$ 个人. 其数量为

\mathrm{card}(A) = P_{365}^n = 365 \times 364 \times ... \times (365 - n + 1)

因此，事件 $A$ 的概率为

P(A) = \frac{\mathrm{card}(A)}{\mathrm{card}(\Omega)} = \frac{P_{365}^n}{365^n} = \frac{365}{365} \times \frac{364}{365} \times ... \times \frac{365-n+1}{365}

我们要求的“至少有两人生日相同”的概率 $P(\bar{A})$ 就是

P(\bar{A}) = 1 - P(A) = 1 - \prod_{k=0}^{n-1} \left(1 - \frac{k}{365}\right)

当 $n=23$ 时，

P(A) = \frac{P_{365}^{23}}{365^{23}} \approx 0.4927

所以，

P(\bar{A}) = 1 - P(A) \approx 1 - 0.4927 = 0.5073

令人惊讶的是，仅仅23人的房间，有两个人同一天生日的概率就已经超过了50%.

这个问题有趣的地方在于，我们的直觉失效了，而失效的根本原因，在于我们的大脑倾向于线性思考. 我们可能会错误地将问题理解为“我的生日与其他22个人生日相同的概率”，或者简单地比较人数23与天数365，认为概率应该很低.

然而，问题的真正核心是“任意两个人生日相同的概率”. 关键在于“任意”二字，它引入了组合学的力量. 对于 $n$ 个人, 总共存在 $\binom{n}{2} = \frac{n(n-1)}{2}$ 个可能的配对. 当 $n=23$ 时，总共有

\binom{23}{2} = \frac{23 \times 22}{2} = 253 \text{ 个配对}

这意味着，在一个仅有23人的房间里，存在着253次机会去“中奖”（即找到一对生日相同的人）. 尽管单次中奖的概率很低，但在如此多的“抽奖”机会面前，至少中奖一次的概率变得相当高. 我们的直觉未能捕捉到这种由人数增加导致的配对数量的二次方增长.

另外，也有一些很好的想法，比如，正如解法所示，直接处理“至少”一词非常复杂. 而转向其对立事件“所有人生日都不同”则使问题迎刃而解. 这一策略是概率论中的核心技巧.

对立事件的概率 $P(A)$ 是一个连乘积：

P(A) = 1 \times \left(1-\frac{1}{365}\right) \times \left(1-\frac{2}{365}\right) \times ...

每一个乘上的因子都小于1. 多个小于1的数相乘，其结果会迅速减小. 这种“乘法衰减”效应是指数性的，比我们直觉上的线性减少要快得多. 因此， $P(A)$ 会很快地从1下降到0.5以下, 从而使其对立事件 $P(\bar{A})$ 的概率迅速攀升超过0.5.

最后，简要介绍一下这个问题的应用，生日问题的模型在计算机科学中有着一个至关重要的应用，即哈希碰撞.

其中哈希函数 的作用是将任意长度的数据（如一个文件、一张图片）映射为一个固定长度的、看似随机的字符串（称为哈希值），如同为数据生成一个“数字指纹”.碰撞指的是两个不同的原始数据，经过哈希函数计算后，得到了完全相同的哈希值.

哈希值的可能空间（对应生日问题中的365天）通常非常巨大，例如 $2^{128}$ 或 $2^{256}$ . 然而, 生日问题告诉我们, 我们不需要生成 $2^{128}$ 个不同的文件才能找到一次碰撞. 根据生日问题的近似计算, 我们大约只需要 $\sqrt{2^{128}} = 2^{64}$ 个文件，就有很高的概率产生一次碰撞.

这个原理是著名的**“生日攻击”**密码学攻击方法的基础. 攻击者可以利用这个概率原理，以远低于暴力破解的计算量来伪造数字签名或寻找加密算法的弱点. 因此，设计安全的密码系统必须仔细考虑“生日问题”所揭示的碰撞风险.

错排问题

德·蒙莫尔问题

$n$ 位客人参加晚宴, 他们都把自己的帽子交给了衣帽间的服务员. 晚宴结束后, 服务员由于匆忙, 将 $n$ 顶帽子随机地还给了每位客人. 求没有任何一位客人拿到自己帽子的概率 $p_n$ . 当 $n \to \infty$ 时，这个概率收敛到何值？

这是一个经典的概率与组合问题. 我们的求解策略遵循古典概型的基本思想.

首先，确定样本空间的总大小. 服务员将 $n$ 顶不同的帽子随机还给 $n$ 位客人, 总的排列方式有 $n!$ 种.

\mathrm{card}(\Omega) = n!

接下来，我们需要计算事件 $A$ ：“没有任何一位客人拿到自己帽子”所包含的样本点数. 这是一个复杂的计数问题. 为此，我们首先需要正式定义这类排列.

错排与错排数

一个 $n$ 个元素的排列, 若其中没有任何一个元素出现在其原来位置上, 则称之为一个 $n$ 元错排. 其总数称为错排数，记为 $D_n$ 或 $!n$ .

例如， $n=3$ 时, 元素 $\{1,2,3\}$ 的全排列有 $3!=6$ 种. 其中错排为 $(2,3,1)$ 和 $(3,1,2)$ , 故 $D_3=2$ .

根据此定义，我们要求的事件 $A$ 的样本点数就是 $D_n$ . 于是, 原概率问题转化为求出 $D_n$ 的通项公式.

p_n = P(A) = \frac{\mathrm{card}(A)}{\mathrm{card}(\Omega)} = \frac{D_n}{n!}

下面我们用两种核心方法来求解 $D_n$ .

解

\paragraph{法一：容斥原理} 直接计算“所有人都错位”的排列数 $D_n$ 很困难. 我们可以反过来, 先计算其对立面：“至少有一人拿对自己帽子”的排列数, 然后用总排列数 $n!$ 减去它.

令 $A_i$ 为“第 $i$ 位客人拿到自己帽子”的排列所构成的集合 ( $i=1, ..., n$ ). 我们要求的是 $|A_1 \cup A_2 \cup ... \cup A_n|$ . 根据容斥原理：

|A_1 \cup ... \cup A_n| = \sum |A_i| - \sum_{i\<j} |A_i \cap A_j| + ... + (-1)^{n-1} |A_1 \cap ... \cap A_n|

$|A_i|$ : 第 $i$ 位客人拿对帽子, 其余 $n-1$ 人任意排, 有 $(n-1)!$ 种. 这样的集合有 $\binom{n}{1}$ 个. $|A_i \cap A_j|$ : 第 $i, j$ 位客人拿对帽子, 其余 $n-2$ 人任意排, 有 $(n-2)!$ 种. 这样的集合有 $\binom{n}{2}$ 个. 以此类推， $k$ 位指定客人拿对帽子的排列数为 $(n-k)!$ , 共有 $\binom{n}{k}$ 组.

所以，“至少一人拿对”的总数为：

\binom{n}{1}(n-1)! - \binom{n}{2}(n-2)! + ... + (-1)^{n-1}\binom{n}{n}(n-n)!

= \frac{n!}{1!(n-1)!}(n-1)! - \frac{n!}{2!(n-2)!}(n-2)! + ... = \frac{n!}{1!} - \frac{n!}{2!} + \frac{n!}{3!} - ... + \frac{(-1)^{n-1}n!}{n!}

因此，错排数 $D_n$ 为：

\begin{aligned} D_n &= n! - \left( \frac{n!}{1!} - \frac{n!}{2!} + ... + \frac{(-1)^{n-1}n!}{n!} \right) &= \frac{n!}{0!} - \frac{n!}{1!} + \frac{n!}{2!} - ... + \frac{(-1)^n n!}{n!} = n! \sum_{k=0}^{n} \frac{(-1)^{k}}{k!} \end{aligned}

\paragraph{法二：找递推关系} 我们也可以通过分析第 $n$ 个元素的位置来建立 $D_n$ 的递推关系. 考虑元素 $n$ . 在一个错排中, 它不能在第 $n$ 位, 故它必须在其他 $n-1$ 个位置之一, 假设它在第 $k$ 位 ( $k \neq n$ ). 这有 $n-1$ 种选择. 对于这个选择, 我们考虑元素 $k$ 的位置，分两种情况：

情况一：元素 $k$ 恰好在第 $n$ 位. 这相当于 $k$ 与 $n$ 互换位置. 剩下的 $n-2$ 个元素需要进行完全错排, 方法数为 $D_{n-2}$ .
情况二：元素 $k$ 不在第 $n$ 位. 我们已经将 $n$ 放在了第 $k$ 位. 对于剩下的 $n-1$ 个元素 (除 $n$ 外的所有元素) 和 $n-1$ 个位置 (除 $k$ 外的所有位置), 问题转化为：将元素 $j \in \{1,...,n-1\}, j \neq k$ 放在非 $j$ 号位, 且将元素 $k$ 放在非 $n$ 号位. 这等价于一个 $n-1$ 个元素的错排问题, 方法数为 $D_{n-1}$ .

根据乘法和加法原理，我们得到二阶递推关系：

D_n = (n-1)(D_{n-1} + D_{n-2}) (n \ge 3)

初始值为 $D_1=0, D_2=1$ . (通过此递推关系亦可推导出通项公式).

现在我们回到最初的概率问题. 利用我们推导出的 $D_n$ 通项公式：

p_n = \frac{D_n}{n!} = \frac{n! \sum_{k=0}^{n} \frac{(-1)^{k}}{k!}}{n!} = \sum_{k=0}^{n} \frac{(-1)^{k}}{k!}

当 $n \to \infty$ 时, 这个级数收敛到 $e^x$ 在 $x=-1$ 处的泰勒展开式：

\lim_{n \to \infty} p_n = \sum_{k=0}^{\infty} \frac{(-1)^{k}}{k!} = e^{-1} = \frac{1}{e} \approx 0.36788

结论是，对于一个规模很大的宴会，没有人拿对帽子的概率收敛于一个常数 $1/e$ .

\paragraph{错排数的性质与公式总结} 通过上述例题的分析，我们得到了关于错排数的一系列重要结论，现总结如下.

错排数的通项公式

$n$ 元错排数 $D_n$ 的显式通项公式为：

D_n = n! \sum_{k=0}^{n} \frac{(-1)^{k}}{k!} = \frac{n!}{0!} - \frac{n!}{1!} + \frac{n!}{2!} - ... + (-1)^n \frac{n!}{n!}

错排数的递推关系

错排数 $D_n$ 满足以下两个等价的递推关系, 初始值为 $D_1=0, D_2=1$ :

(二阶递推) $D_n = (n-1)(D_{n-1} + D_{n-2})$ , 对于 $n \ge 3$ .
(一阶递推) $D_n = n D_{n-1} + (-1)^n$ , 对于 $n \ge 2$ .

*注：在解决具体计数问题时，若 $n$ 较小, 使用递推关系通常比展开通项公式更快捷. 例如 $D_3=2(D_2+D_1)=2(1+0)=2$ , $D_4=3(D_3+D_2)=3(2+1)=9$ . *

极限概率

$n$ 个元素的全排列中, 是一个错排的概率 $p_n = D_n/n!$ 收敛于 $1/e$ .

\lim_{n \to \infty} \frac{D_n}{n!} = \frac{1}{e} \approx 0.36788

最佳整数近似

对于所有正整数 $n \ge 1$ , $D_n$ 是最接近 $\frac{n!}{e}$ 的整数. 因此 $D_n$ 可以通过四舍五入计算得到： $D_n = \left[ \frac{n!}{e} \right]$ .

这个性质为快速估算甚至精确计算 $D_n$ 提供了一个极为便捷的方法.

现在我们来看一些错排理论在具体问题中的应用.

信件与信封问题

将4封写好的不同信件，随机装入写好对应地址的4个信封中，每个信封恰好装一封信. 求4封信全部装错信封的装法共有多少种？

解

这是一个最直接的错排问题. 元素是4封信，位置是4个信封. 我们要求的就是4个元素的错排数 $D_4$ . 我们可以直接使用错排数的通项公式：

D_n = n! \sum_{k=0}^{n} \frac{(-1)^{k}}{k!}

当 $n=4$ 时，

\begin{aligned} D_4 &= 4! \left( \frac{1}{0!} - \frac{1}{1!} + \frac{1}{2!} - \frac{1}{3!} + \frac{1}{4!} \right) &= 24 \left( 1 - 1 + \frac{1}{2} - \frac{1}{6} + \frac{1}{24} \right) &= 24 \left( \frac{1}{2} - \frac{1}{6} + \frac{1}{24} \right) &= 12 - 4 + 1 = 9 \end{aligned}

或者，我们也可以使用递推公式，已知 $D_2=1, D_3=2$ :

D_4 = (4-1)(D_3 + D_2) = 3 \times (2+1) = 9

因此，共有9种全部装错的方法.

虽然使用公式可以快速得到答案，但理解其背后的原理更为重要. 错排数的通项公式，其本质就是容斥原理 的一个直接应用. 让我们用这个基本原理来手动解出 $D_4$ .

首先，总的排列数（即样本空间大小）为 $4! = 24$ 种. 我们的目标是求“没有任何一封信装对”的情况数. 它的对立事件是“至少有一封信装对”. 我们可以先求出对立事件的数目，再用总数减去它.

设 $A_i$ 表示“第 $i$ 封信装对了信封”这一事件 ( $i=1,2,3,4$ ). 我们要求的就是

D_4 = (\text{总排列数}) - (\text{至少一封装对的情况数})

下面我们来计算“至少一封装对”到底有多少种情况.

\paragraph{加上所有“至少一封装对”的情况.} 我们先单独计算每封信装对的情况数，然后把它们全部加起来.

如果第1封信装对，剩下3封信任意排列，有 $3! = 6$ 种方法.
如果第2封信装对，剩下3封信任意排列，有 $3! = 6$ 种方法.
如果第3封信装对，剩下3封信任意排列，有 $3! = 6$ 种方法.
如果第4封信装对，剩下3封信任意排列，有 $3! = 6$ 种方法.

我们一共有 $\binom{4}{1}=4$ 种“恰好一封信”的选择. 所以, 初步的总和是 $\binom{4}{1} \times 3! = 4 \times 6 = 24$ .

\paragraph{减去被重复计算的“至少两封装对”的情况.} 在第一步的计算中，像“第1封和第2封信同时装对”这种情况，在计算“ $A_1$ ”时被算了一次, 在计算“ $A_2$ ”时又被算了一次. 所有“两封装对”的情况都被重复计算了. 我们必须把这些多余的减掉.
如果第1、2封信都装对，剩下2封信任意排列，有 $2! = 2$ 种方法.
我们一共有 $\binom{4}{2}=6$ 对这样的组合（(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)）.

因此，需要减去的总数是 $\binom{4}{2} \times 2! = 6 \times 2 = 12$ .

\paragraph{加回被错误减去的“至少三封装对”的情况.} 考虑“第1、2、3封信同时装对”的情况. 在第一步中，它被加了3次（在 $A_1, A_2, A_3$ 中）. 在第二步中, 它又被减了3次（在 $A_1 \cap A_2, A_1 \cap A_3, A_2 \cap A_3$ 中）. 结果它被完全排除了，但它明明是“至少一封装对”的情况，所以我们需要把它重新加回来.
如果第1、2、3封信都装对，剩下1封信也必然装对，有 $1! = 1$ 种方法.
我们一共有 $\binom{4}{3}=4$ 组这样的三元组合.

因此，需要加回的总数是 $\binom{4}{3} \times 1! = 4 \times 1 = 4$ .

\paragraph{减去被错误加回的“全部装对”的情况.} 最后，考虑“四封信全部装对”的情况. 它在第一步被加了4次；在第二步被减了 $\binom{4}{2}=6$ 次；在第三步又被加了 $\binom{4}{3}=4$ 次. 总计被计算了 $4-6+4=2$ 次. 我们只需要它被计算1次，所以需要减掉多余的1次.
四封信全部装对的情况只有 $1$ 种. ( $\binom{4}{4} \times 0! = 1$ )

因此，需要再减去 $1$ .

“至少一封装对”的总情况数 = (第一步) - (第二步) + (第三步) - (第四步)

= 24 - 12 + 4 - 1 = 15

全部装错的情况数 $D_4$ 就是：

D_4 = (\text{总排列数}) - (\text{至少一封装对的情况数}) = 24 - 15 = 9

这个结果与公式计算完全吻合，并且清晰地揭示了该问题的组合结构.

枚举法

三位同学甲、乙、丙，分别坐在1号、2号、3号座位上. 现在让他们重新就座，要求每个人都不能坐在自己原来的位置上. 请问有多少种不同的坐法？

解

这是一个 $n=3$ 的错排问题. 由于总数很少，我们可以用最基本的方法——枚举法——来解决.

首先，列出所有可能的坐法，即对甲、乙、丙三人的全排列. 括号内的顺序代表坐在1、2、3号座位上的人.

(甲, 乙, 丙) $\rightarrow$ 所有人都坐对了.
(甲, 丙, 乙) $\rightarrow$ 甲坐对了.
(乙, 甲, 丙) $\rightarrow$ 丙坐对了.
(乙, 丙, 甲) $\rightarrow$ 没有任何人坐对，这是一个错排.
(丙, 甲, 乙) $\rightarrow$ 没有任何人坐对，这是另一个错排.
(丙, 乙, 甲) $\rightarrow$ 乙坐对了.

通过逐一检验，我们发现只有第4种和第5种坐法满足“每个人都不能坐在自己原来的位置上”的条件. 因此，共有2种不同的坐法. 这验证了 $D_3=2$ .

四球四盒问题

有4个写着号码1, 2, 3, 4的球，和4个对应号码的盒子. 现将4个球随机放入4个盒子中，每盒一个. 求至少有一个球放进与自己号码相同的盒子的情况有多少种？

解

这个问题要求的是“至少有一个放对”的情况数. 直接分类讨论“恰好一个对”、“恰好两个对”等会很繁琐. 因此，我们采用补集思想，先计算其对立事件——“所有球都放错了盒子”——的情况数，即 $D_4$ .

总的放置方法数是4个球的全排列，即 $4! = 24$ 种. 我们用容斥原理来计算 $D_4 = 24 - (\text{至少一个放对的情况数})$ .

令 $A_i$ 是“第 $i$ 号球放进第 $i$ 号盒”的事件.

至少一个放对: 先选出1个球放在正确的盒子里，有 $\binom{4}{1}=4$ 种选法. 剩下3个球任意放, 有 $3!$ 种方法. 总计 $\binom{4}{1} \times 3! = 4 \times 6 = 24$ 种.
减去重复计算的“至少两个放对”: 选出2个球放在正确的盒子里，有 $\binom{4}{2}=6$ 种选法. 剩下2个球任意放, 有 $2!$ 种方法. 总计 $\binom{4}{2} \times 2! = 6 \times 2 = 12$ 种.
加回错误减去的“至少三个放对”: 选出3个球放在正确的盒子里，有 $\binom{4}{3}=4$ 种选法. 剩下1个球只能放在唯一剩下的盒子里, 有 $1!$ 种方法. 总计 $\binom{4}{3} \times 1! = 4 \times 1 = 4$ 种.
减去错误加回的“全部放对”: 4个球全部放对只有 $1$ 种方法. 总计 $\binom{4}{4} \times 0! = 1 \times 1 = 1$ 种.

所以，“至少一个球放对”的情况数是 $24 - 12 + 4 - 1 = 15$ 种. 因此，本题的答案就是15种.

注：而所有球都放错的情况数 $D_4$ 则是 $24 - 15 = 9$ 种.

例

一位粗心的药剂师手边有为4位病人准备的4种不同药品. 他随机地将这4种药品分发给了这4位病人，每人一种. 请问，恰好只有两位病人拿到了正确的药品的情况有多少种？

解

这个问题是一个“部分错排”问题. 我们可以将其分解为两个独立的步骤，然后使用乘法原理.

选出拿到正确药品的病人. 我们需要从4位病人中，选出2位“幸运儿”，他们拿到了正确的药品. 这不涉及顺序，是一个组合问题. 选择的方法数是 $\binom{4}{2} = \frac{4 \times 3}{2 \times 1} = 6$ 种.

将其余病人进行完全错排. 对于剩下的2位病人，他们拿到的都必须是错误的药品. 设这两位病人是甲和乙，对应的药品是药A和药B. 为了让他们都拿错，甲必须拿到药B，同时乙必须拿到药A. 所以，2个元素的错排只有1种方法. 即 $D_2=1$ .

根据乘法原理，将两步的方法数相乘，得到总的情况数：

\text{总数} = (\text{选出2个正确病人的方法数}) \times (\text{剩下2个病人错排的方法数}) = \binom{4}{2} \times D_2 = 6 \times 1 = 6

因此，恰好只有两位病人拿到正确药品的情况有6种.

例

书架上有《红楼梦》《西游记》《三国演义》《水浒传》四本书，按从左到右的顺序排好. 现将它们取下后随机放回，求恰好有一本书放回原位的概率.

解

这是一个结合了古典概型和部分错排的问题.

计算样本空间总数. 将4本不同的书随机放回，总的排列方法数是 $4!$ .

\text{card}(\Omega) = 4! = 4 \times 3 \times 2 \times 1 = 24 \text{ 种}

计算事件“恰好有一本书放回原位”包含的样本点数. 我们可以把这个过程分解为两个步骤：

选出那一本放对的书: 从4本书中选出1本放在它原来的位置上，有 $\binom{4}{1} = 4$ 种选择.
将其余的书完全错排: 剩下的3本书，必须全部放在错误的位置上. 这是一个3元素的错排问题，其方法数为 $D_3$ . 我们从例1可知 $D_3=2$ .

根据乘法原理，恰好有一本书放对的方法数是：

\text{card}(A) = \binom{4}{1} \times D_3 = 4 \times 2 = 8 \text{ 种}

根据古典概型公式 $P(A) = \frac{\text{card}(A)}{\text{card}(\Omega)}$ :

P(\text{恰好一本对}) = \frac{8}{24} = \frac{1}{3}

因此，恰好有一本书放回原位的概率是 $\frac{1}{3}$ .

事件与概率​

随机试验与事件​

模型的选择​

事件的定义与表示​

事件的运算与关系​

概率的定义​

概率的统计定义​

古典概型及其不足​

概率的公理化定义​

三条公理的内涵​

一些有趣的问题​

并集与交集​

生日问题*​

错排问题​

コメント

事件与概率

随机试验与事件

模型的选择

事件的定义与表示

事件的运算与关系

概率的定义

概率的统计定义

古典概型及其不足

概率的公理化定义

三条公理的内涵

一些有趣的问题

并集与交集

生日问题*

错排问题