ch21-矩陣與行列式

{/* label: chap:ch21 */}

在數學的众多领域中，我们常常需要处理由數字構成的矩形陣列. 為了理解這种结構的起源與威力，让我们回到一個熟悉的問題：求解線性方程组.

考虑一個三元一次方程组：

\begin{aligned} 2x + 3y - z &= 5 4x - y + 2z &= 1 x + 5y + 3z &= 10 \end{aligned}

当我们运用加减消元法求解时，我们的操作本質上是對方程的係數和常數項進行组合與變換. 變量 $x, y, z$ 在整個過程中僅僅是占位符，它们的位置是固定的. 真正承载係统全部信息的是那些數字：

\begin{array}{ccc|c} 2 & 3 & -1 & 5 4 & -1 & 2 & 1 1 & 5 & 3 & 10 \end{array}

這种洞察启發了一個深刻的思想：我们能否将這些關键的數字信息從方程的形式中剥离出来，作為一個独立的數學對象進行研究？答案是肯定的. 這個被剥离出来的、由數字構成的矩形陣列，就是我们即将探讨的核心概念——矩陣. 它将線性方程组的求解、几何空間的變換以及數据的统计分析等诸多問題，统一在了一套优美的語言之下.

约束與自由度

在深入研究矩陣之前，我们有必要從一個更基本的层面来理解線性方程组的本質. 在没有任何限制的情况下，三個變量 $x,y,z$ 可以在三維空間中自由取值. 我们可以独立地為 $x,y,z$ 中的任意一個或多個變量赋值，而不会影响其他變量的可能性. 我们称這种情况拥有三個自由度.

然而，当我们引入第一個方程 $2x+3y-z=5$ 时, 情况發生了根本性的變化. 這個方程對變量 $x,y,z$ 施加了一個约束. 它们不再能够独立地自由取值. 例如, 一旦我们确定了 $x$ 和 $y$ 的值, $z$ 的值就必须是 $z=2x+3y-5$ ，它被唯一地确定了. 此时，我们只能自由地選择两個變量的值，係统的自由度從三個降至两個.

從几何上看，三個自由度對應着整個三維空間. 而一個形如 $ax+by+cz=d$ 的線性方程，在三維空間中定義的是一個平面. 這個平面是一個二維的几何對象. 因此，施加一個约束，等价于将解的活动范围從三維空間限制到了一個二維平面上，自由度减一.

当我们引入第二個方程 $4x-y+2z=1$ 时, 我们施加了第二個约束. 現在, 解 $(x,y,z)$ 必须同时位于两個平面上. 两個不平行的平面相交, 其交集是一条直線. 直線是一個一維的几何對象. 這意味着, 我们現在只剩下一個自由度. 只要我们确定了直線上一点的某個坐標 (例如 $x$ ), 其余的坐標 $y,z$ 就会随之确定.

最后，引入第三個方程 $x+5y+3z=10$ , 這是第三個约束. 這個解現在必须同时位于三個平面上. 在通常情况下, 一条直線與一個不平行于它的平面相交, 其交集是一個唯一的点. 点是零維的几何對象. 此时, 我们没有任何自由度了, 變量 $x,y,z$ 的值被這三個约束完全锁定，這就是方程组有唯一解的情形.

這個過程揭示了一個核心關係：

\text{解的自由度} = \text{變量的個數} - \text{有效约束的個數}

然而，并非所有约束都是“有效”的. 如果第三個方程是前两個方程的線性组合 (例如，第一個方程乘以 3)，那么它并没有提供任何新的信息，也就不是一個有效的独立约束. 在几何上，這意味着第三個平面恰好也通過前两個平面的交線，因此交集仍然是一条直線，解有无穷多個. 如果第三個方程與前两個方程矛盾 (例如 $2x+3y-z=100$ )，那么三個平面将没有公共交点，方程组无解.

因此，求解線性方程组的核心問題，转化為一個更為深刻的問題： 如何判断一個方程组中的 $n$ 個约束是否是相互独立的有效约束？ 要係统地回答這個問題，我们需要一种能够描述并量化這些係數之間關係的工具. 這正是矩陣和行列式即将要扮演的關键角色.

向量

{/* label: sec:ch21-s01 */}

在本書的平面向量一章，我们已經接触過向量，它是一种既有大小又有方向的量，常用于描述位移、速度、力等物理概念. 向量可以看作是最簡單的“矩陣”，它们是線性代數中最基本的構建块之一.

定義與表示

向量

一個向量是一個有序的數字列表. 它可以表示為一個行向量 或一個列向量.

列向量: $\mathbf{v} = \begin{pmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{pmatrix}$
行向量: $\mathbf{v} = \begin{pmatrix} v_1 & v_2 & \cdots & v_n \end{pmatrix}$

其中 $v_1, v_2, ..., v_n$ 称為向量的分量. 向量的維數等于其分量的數量.

几何解释與基本运算

\paragraph{几何解释} 在坐標係中，一個向量可以被理解為一個從原点出發指向某一点的有向線段，其分量對應着该点的坐標.

二維向量 $(x,y)$ 對應平面上的一個点.
三維向量 $(x,y,z)$ 對應三維空間中的一個点.

向量的大小或模长通常用雙竖線表示，例如 $\|\mathbf{v}\|$ . 在二維和三維空間中，它可以用勾股定理计算：

\|\begin{pmatrix} v_1 \\ v_2 \end{pmatrix}\| = \sqrt{v_1^2+v_2^2}, \|\begin{pmatrix} v_1 \\ v_2 \\ v_3 \end{pmatrix}\| = \sqrt{v_1^2+v_2^2+v_3^2}

\paragraph{向量加法} 向量加法的几何意義是将两個向量首尾相接，其和向量是從第一個向量起点到第二個向量终点的向量 (三角形法则)；或将两個向量平移到同一起点，其和向量是以這两個向量為邻边構成的平行四边形的對角線 (平行四边形法则). 在代數上，向量加法是對應分量相加. 设 $\mathbf{u} = \begin{pmatrix} u_1 \\ u_2 \end{pmatrix}, \mathbf{v} = \begin{pmatrix} v_1 \\ v_2 \end{pmatrix}$ , 则 $\mathbf{u}+\mathbf{v} = \begin{pmatrix} u_1+v_1 \\ u_2+v_2 \end{pmatrix}$ .

\paragraph{標量乘法} 向量的標量乘法是改變向量的长度和/或方向. 標量 $k$ 乘以向量 $\mathbf{v}$ , 就是将 $\mathbf{v}$ 的每個分量都乘以 $k$ . 设 $\mathbf{v} = \begin{pmatrix} v_1 \\ v_2 \end{pmatrix}$ , $k$ 為標量, 则 $k\mathbf{v} = \begin{pmatrix} kv_1 \\ kv_2 \end{pmatrix}$ . 如果 $k\>0$ , 向量方向不變, 长度變為原来的 $k$ 倍；如果 $k\<0$ , 向量方向反向, 长度變為原来的 $|k|$ 倍.

矩陣

{/* label: sec:ch21-s02 */}

在很多問題中，我们需要同时处理一大批數，例如線性方程组的各個係數、几何中的坐標數据等. 把這些數随意堆在一起既不直观，也不便于运算；把它们按“行”和“列”排成一個长方形的數表，就得到本节要讨論的矩陣.

除了作為“有结構的數表”之外，更重要的是：在解析几何里，如果把平面或空間中的点寫成向量，那么“對整個平面（或空間）做一次统一的變換”（比如绕原点旋转、沿某個方向拉伸）往往都可以用一個矩陣来描述. 從這個意義上說，矩陣是研究几何變換的基本工具.

定義與记法

矩陣

一個 $m\times n$ 的矩陣是一個由 $m\cdot n$ 個數排成的长方形數表, 它有 $m$ 条行（自上而下）和 $n$ 条列（自左向右）. 本書中，矩陣里的數一般取实數（必要时会說明為複數或其他數）.

我们通常用大寫字母表示矩陣，例如 $A$ .為了精确地指明矩陣中的每一個數，我们给這些數編上“行、列”两個下標：记

a_{ij} \text{ 為矩陣 } A \text{ 中第 } i \text{ 行、第 } j \text{ 列的元素} (1\le i\le m,\ 1\le j\le n).

于是一個 $m\times n$ 的矩陣 $A$ 可以寫成

A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} a_{21} & a_{22} & \cdots & a_{2n} \vdots & \vdots & \ddots & \vdots a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}.

為了强调“由哪些元素组成”和“大小是多少”，我们也常将其簡记為

A = (a_{ij})_{m\times n} \text{或} A = (a_{ij})_{1\le i\le m,\ 1\le j\le n}.

在矩陣的大小 $m\times n$ 已經由上下文明确时, 也常簡寫為 $A=(a_{ij})$ .

$2\times 3$ 矩陣：

A = \begin{pmatrix} 1 & -2 & 0 \\ 4 & 5 & 9 \end{pmatrix}.

它有 2 行、3 列，所以是一個 $2\times 3$ 矩陣. 按上面的记号，矩陣元素 $a_{21}$ （第 2 行、第 1 列）等于 $4$ , $a_{13}$ （第 1 行、第 3 列）等于 $0$ ，等等.

$3\times 3$ 的單位矩陣：

B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}.

這個矩陣的行數與列數都為 3，它是一個 $3\times3$ 矩陣. 這類行數和列數相同的矩陣统称為方陣，在后續的行列式、逆矩陣和特征值等内容中会反複出現.

$3\times 1$ 的列向量：

C = \begin{pmatrix} 7 \\ -5 \\ 1 \end{pmatrix}.

只有一列的矩陣被称為列向量，可以看作是“竖着寫”的一组數，常用来表示空間中一点的坐標或一個方向.

$1\times 4$ 的行向量：

D = \begin{pmatrix} 8 & 0 & -2 & 6 \end{pmatrix}.

只有一行的矩陣被称為行向量，可以看作是“横着寫”的一组數.

方陣

当一個矩陣的行數與列數相等时（即 $m=n$ ）, 我们称之為一個 $n$ 階方陣, 也常寫作“ $n$ 階矩陣”.

方陣在線性代數中占据着核心地位：行列式、逆矩陣、特征值和特征向量等重要概念，都是首先在方陣上定義的.

\paragraph{矩陣作為平面或空間的變換} 上面的定義把矩陣看作“排成表格的數”.從几何的角度看，更重要的是：矩陣可以用来描述平面或空間中的線性几何變換.

例如，在平面上，每個点都可以用一個列向量来表示：

(x,y) \in \mathbb{R}^2 \longleftrightarrow \begin{pmatrix} x \\ y \end{pmatrix}.

给定一個 $2\times2$ 矩陣

A=\begin{pmatrix} a & b \\ c & d \end{pmatrix},

我们可以让它作用在這個向量上：

A\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} ax+by \\ cx+dy \end{pmatrix}.

几何上，這表示：平面上点 $(x,y)$ 被矩陣 $A$ 送到新点

(x',y') = (ax+by,\; cx+dy).

于是，矩陣 $A$ 描述了一次把整個平面“统一移动”的過程——例如整體拉伸、压缩、剪切或者绕原点旋转等.

拉伸與压缩

考虑

S = \begin{pmatrix} 2 & 0 \\ 0 & \tfrac12 \end{pmatrix}.

则

S\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 2x \\ \tfrac12 y \end{pmatrix}.

几何上，這個矩陣把所有点的 $x$ 坐標放大 2 倍, 把 $y$ 坐標缩小為原来的一半：整個平面在水平方向被拉伸，在竖直方向被压缩.

绕原点旋转 $90^\circ$

考虑

R = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}.

對任意点 $(x,y)$ ，

R\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} -y \\ x \end{pmatrix}.

在平面中，把点 $(x,y)$ 绕原点逆时针旋转 $90^\circ$ 后的坐標正好是 $(-y,x)$ . 因此，矩陣 $R$ 准确地表示了“绕原点逆时针旋转 $90^\circ$ ”這一几何變換.

以后，当我们寫 $A\boldsymbol{x}$ （矩陣 $A$ 乘以列向量 $\boldsymbol{x}$ ）时，可以同时记住两個圖像：

代數上：按行列相乘的规则得到一個新的向量；
几何上： $\boldsymbol{x}$ 對應的点在平面（或空間）中被某個几何變換送到了新位置.

矩陣的运算

有了记号 $A=(a_{ij})$ 之后，我们可以非常簡洁地描述矩陣之間的运算. 從几何的角度看，這些运算也会對應到“把變換叠加”“把變換整體缩放”等操作（后面在矩陣乘法中会看到）.

\paragraph{矩陣加法與標量乘法} 矩陣的加法與數乘运算都是逐元素進行的. 设 $A=(a_{ij})$ 和 $B=(b_{ij})$ 是两個大小相同的 $m\times n$ 矩陣, $k$ 是一個常數（也称為標量）.定義

A+B := (a_{ij}+b_{ij})_{m\times n}, kA := (ka_{ij})_{m\times n}.

也就是說：

矩陣加法：两個矩陣相加，得到一個同大小的新矩陣，新矩陣的每一個元素，都是原矩陣對應位置元素之和；
標量乘法：一個標量乘以一個矩陣，得到一個同大小的新矩陣，新矩陣的每一個元素，都是原矩陣對應位置元素與该標量的乘積.

矩陣的减法 $A-B$ 定義為加法與標量乘法的组合：

A-B := A + (-1)B.

例

设 $A = \begin{pmatrix} 1 & -2 \\ 3 & 0 \end{pmatrix}$ , $B = \begin{pmatrix} 4 & 5 \\ -1 & 6 \end{pmatrix}$ .计算 $A+B$ .

解

把對應位置的元素相加：

\begin{aligned} A+B &= \begin{pmatrix} 1 & -2 \\ 3 & 0 \end{pmatrix} + \begin{pmatrix} 4 & 5 \\ -1 & 6 \end{pmatrix} &= \begin{pmatrix} 1+4 & -2+5 \\ 3+(-1) & 0+6 \end{pmatrix} &= \begin{pmatrix} 5 & 3 \\ 2 & 6 \end{pmatrix}. \end{aligned}

例

设矩陣 $C = \begin{pmatrix} 2 & 0 & -1 \\ 4 & 5 & 1 \end{pmatrix}$ .计算 $3C$ .

解

把標量 $3$ 乘入矩陣的每一個元素：

\begin{aligned} 3C &= 3 \begin{pmatrix} 2 & 0 & -1 \\ 4 & 5 & 1 \end{pmatrix} &= \begin{pmatrix} 3\cdot2 & 3\cdot0 & 3\cdot(-1) \\ 3\cdot4 & 3\cdot5 & 3\cdot1 \end{pmatrix} &= \begin{pmatrix} 6 & 0 & -3 \\ 12 & 15 & 3 \end{pmatrix}. \end{aligned}

例

设 $X = \begin{pmatrix} 8 & 1 \\ 0 & 4 \end{pmatrix}$ , $Y = \begin{pmatrix} -2 & 3 \\ 5 & 1 \end{pmatrix}$ .计算 $2X - 3Y$ .

解

這是標量乘法與矩陣加减法的组合.先分别计算 $2X$ 和 $3Y$ ：

2X = 2\begin{pmatrix} 8 & 1 \\ 0 & 4 \end{pmatrix} = \begin{pmatrix} 16 & 2 \\ 0 & 8 \end{pmatrix}, 3Y = 3\begin{pmatrix} -2 & 3 \\ 5 & 1 \end{pmatrix} = \begin{pmatrix} -6 & 9 \\ 15 & 3 \end{pmatrix}.

然后相减：

\begin{aligned} 2X - 3Y &= \begin{pmatrix} 16 & 2 \\ 0 & 8 \end{pmatrix} - \begin{pmatrix} -6 & 9 \\ 15 & 3 \end{pmatrix} &= \begin{pmatrix} 16 - (-6) & 2-9 \\ 0-15 & 8-3 \end{pmatrix} &= \begin{pmatrix} 22 & -7 \\ -15 & 5 \end{pmatrix}. \end{aligned}

矩陣的乘法

矩陣的加法與標量乘法是逐元素定義的，這非常直观；但矩陣乘法却并不是“對應位置元素相乘”. 這种看似“反直觉”的定義，其实不是人為规定出来的，而是從線性變換的複合和几何變形的叠加中自然涌現的结果.

假设我们有两组變量，其中第一组變量 $\{y_1, y_2\}$ 可以由第二组變量 $\{x_1, x_2, x_3\}$ 的線性组合来表示：

\begin{aligned} y_1 &= a_{11}x_1 + a_{12}x_2 + a_{13}x_3, y_2 &= a_{21}x_1 + a_{22}x_2 + a_{23}x_3 . \end{aligned}

線性關係可以寫成矩陣形式

\begin{pmatrix} y_1 \\[0.2em] y_2 \end{pmatrix} = \begin{pmatrix} a_{11} & a_{12} & a_{13} a_{21} & a_{22} & a_{23} \end{pmatrix} \begin{pmatrix} x_1 \\[0.2em] x_2 \\[0.2em] x_3 \end{pmatrix}, \text{记作 } y = Ax.

也就是說， $A$ 把 $3$ 維空間 $\mathbb{R}^3$ 中的向量 $x$ 映射到 $2$ 維空間 $\mathbb{R}^2$ 中的向量 $y$ .

再假设有第三组變量 $\{z_1, z_2\}$ 由 $\{y_1, y_2\}$ 線性表示：

\begin{aligned} z_1 &= b_{11}y_1 + b_{12}y_2, z_2 &= b_{21}y_1 + b_{22}y_2, \end{aligned}

同样寫成矩陣形式：

\begin{pmatrix} z_1 \\[0.2em] z_2 \end{pmatrix} = \begin{pmatrix} b_{11} & b_{12} b_{21} & b_{22} \end{pmatrix} \begin{pmatrix} y_1 \\[0.2em] y_2 \end{pmatrix}, \text{记作 } z = By.

現在我们面临一個自然的問題：能否找到一個直接的線性關係，把 $\{z_1, z_2\}$ 寫成 $\{x_1, x_2, x_3\}$ 的線性组合？為此, 我们将 $y=Ax$ 代入到 $z=By$ 中進行推導：

\begin{aligned} z_1 &= b_{11}(a_{11}x_1 + a_{12}x_2 + a_{13}x_3) + b_{12}(a_{21}x_1 + a_{22}x_2 + a_{23}x_3) &= (b_{11}a_{11} + b_{12}a_{21})x_1 + (b_{11}a_{12} + b_{12}a_{22})x_2 + (b_{11}a_{13} + b_{12}a_{23})x_3, z_2 &= b_{21}(a_{11}x_1 + a_{12}x_2 + a_{13}x_3) + b_{22}(a_{21}x_1 + a_{22}x_2 + a_{23}x_3) &= (b_{21}a_{11} + b_{22}a_{21})x_1 + (b_{21}a_{12} + b_{22}a_{22})x_2 + (b_{21}a_{13} + b_{22}a_{23})x_3. \end{aligned}

于是 $z$ 與 $x$ 的直接關係也可以寫成矩陣形式 $z=Cx$ ，其中

C = \begin{pmatrix} b_{11}a_{11} + b_{12}a_{21} & b_{11}a_{12} + b_{12}a_{22} & b_{11}a_{13} + b_{12}a_{23} b_{21}a_{11} + b_{22}a_{21} & b_{21}a_{12} + b_{22}a_{22} & b_{21}a_{13} + b_{22}a_{23} \end{pmatrix}.

注意到 $z=By=B(Ax)=(BA)x=\;Cx$ , 因此我们自然地把 $C$ 记作 $BA$ , 称為 $B$ 與 $A$ 的乘積. （這里之所以记為 $BA$ 而不是 $AB$ , 是因為從變量關係看, 是先對 $x$ 施加 $A$ , 再施加 $B$ ；在矩陣算符的表达中，作用顺序总是從右往左的.）

仔细观察 $C$ 的元素，例如

c_{11} = b_{11}a_{11} + b_{12}a_{21} = \begin{pmatrix} b_{11} & b_{12} \end{pmatrix} \cdot \begin{pmatrix} a_{11} \\[0.1em] a_{21} \end{pmatrix},

它是 $B$ 的第一行與 $A$ 的第一列的内積. 一般地, $c_{ij}$ 是 $B$ 的第 $i$ 行與 $A$ 的第 $j$ 列的内積. 這就是“行乘列求和”计算规则的由来.

矩陣乘法

设 $A$ 為 $m\times n$ 矩陣, $B$ 為 $p\times m$ 矩陣. 若 $B$ 的列數（ $m$ ）等于 $A$ 的行數（ $m$ ）, 则乘積 $C=BA$ 有定義, 并且是一個 $p\times n$ 矩陣. 它的第 $i$ 行第 $j$ 列元素定義為

c_{ij} = (\text{$B$ 的第 $i$ 行})\cdot(\text{$A$ 的第 $j$ 列}) = \sum_{k=1}^{m} b_{ik}a_{kj}.

上述推導给出了代數上的严谨定義. 然而，若僅停留在代數层面，這個定義似乎仍显生硬. 為了真正看清楚矩陣乘法背后的深层逻辑，我们需要转向几何视角，去审视矩陣作為線性變換的本質.

在 $\mathbb{R}^2$ 中，標准基向量為

e_1=\begin{pmatrix}1\\0\end{pmatrix}, e_2=\begin{pmatrix}0\\1\end{pmatrix}.

任何向量 $x$ 都可以寫成 $x = x_1 e_1 + x_2 e_2$ . 当我们取一個 $2\times 2$ 矩陣 $A$ 作用在 $x$ 上时，利用線性性，有

Ax =A(x_1 e_1 + x_2 e_2) =x_1(A e_1)+x_2(A e_2).

直接计算 $A$ 對基向量的作用：

A e_1 = \begin{pmatrix} a_{11} \\ a_{21} \end{pmatrix}, A e_2 = \begin{pmatrix} a_{12} \\ a_{22} \end{pmatrix}.

這揭示了一個極其重要的几何事实：矩陣 $A$ 的第 $j$ 列, 正是基向量 $e_j$ 變換后的像. 換句话說, 矩陣不僅是數字表格, 更是對空間“怎么被拉伸、旋转、剪切”的說明書——列向量 $a_1, a_2$ 描述了變換后新坐標轴的位置.

{/* latex-label: fig:matrix-column-geometry */} \begin{figure}[htbp]

{A} 的第 \texorpdfstring{ $j$ }{j} 列 \texorpdfstring{ $\boldsymbol{a}_j = A\boldsymbol{e}_j$ }{a_j = A e_j} 是標准基向量 \texorpdfstring{ $\boldsymbol{e}_j$ }{e_j} 的像，單位正方形變換為平行四边形.}

\end{figure} 圖：矩陣的几何意義：\texorpdfstring{ $A$

既然矩陣代表了線性變換，那么两個矩陣相乘 $BA$ 又意味着什么呢？

设 $A = (a_1 ... a_n)$ , 我们将 $A$ 看作第一個變換, 它把標准基 $e_j$ 變成了 $a_j$ . 随后, $B$ 作為第二個變換, 继續作用在這些“新轴”上. 于是, 複合變換 $BA$ 對 $e_j$ 的作用结果就是 $B(A e_j) = B a_j$ . 這意味着, $BA$ 的第 $j$ 列, 等于 $B$ 作用在 $A$ 的第 $j$ 列上：

BA = \begin{pmatrix} | & & |\\ B a_1 & \cdots & B a_n\\ | & & | \end{pmatrix}.

從几何上看，矩陣乘法本質上就是“连續做两次几何變換”：先按照 $A$ 描述的方式拉伸或旋转, 再按照 $B$ 描述的方式继續變形.

除了上述的“列视角”，我们还可以從行视角来审视乘法. 把 $B$ 的第 $i$ 行 $r_i$ 看作一個線性测量函數（或共變向量）, 那么元素 $c_{ij} = r_i \cdot a_j$ 就代表着：先用 $A$ 把基向量 $e_j$ 送到空間中的某個位置 $a_j$ , 再用 $B$ 的第 $i$ 個测量尺 $r_i$ 去测量這個位置的投影或數值. 无論是列的“基變換”视角，还是行的“测量”视角，矩陣乘法都是線性變換之間协作的體現.

這种“變換複合”的观点，在二維几何操作中體現得尤為淋漓尽致. 例如，逆时针旋转 $90^\circ$ 對應的矩陣是 $R = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$ , 而放大 $2$ 倍對應的矩陣是 $S = \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}$ . 如果我们想“先放大, 再旋转”, 其整體效果就由乘積 $M=RS$ 一次性描述. 這种思想也是计算机圖形學與神經網络的基礎——无論是屏幕上的像素坐標變換，还是深度學習中特征向量在层與层之間的流动，本質上都是一连串矩陣乘法的叠加.

然而，空間的變換顺序往往是不能随意的. 考虑剪切變換：

S_x = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} (\text{水平剪切}), S_y = \begin{pmatrix} 1 & 0 \\ 1 & 1 \end{pmatrix} (\text{竖直剪切}).

若是先水平剪切再竖直剪切（ $S_y S_x$ ）, 網格会變成一种形态；若是反過来（ $S_x S_y$ ），網格则会變成完全不同的另一种形态. 计算结果也證实了這一点：

S_y S_x = \begin{pmatrix} 1 & 1 \\ 1 & 2 \end{pmatrix} \neq \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix} = S_x S_y.

這便解释了矩陣乘法不满足交換律（ $AB \neq BA$ ）的几何根源：在多維空間中，變換的次序决定了最终的姿态.

既然矩陣乘法對應着線性變換的複合，這自然就對參與运算的矩陣的形状（即維度）提出了严格的匹配要求.我们不能随意地将两個矩陣相乘，除非它们之間存在某种“接口兼容性”.

從几何上讲，如果矩陣 $A$ 代表從 $n$ 維空間到 $m$ 維空間的變換（记作 $A: \mathbb{R}^n \to \mathbb{R}^m$ ）, 而矩陣 $B$ 代表從 $q$ 維空間到 $p$ 維空間的變換（记作 $B: \mathbb{R}^q \to \mathbb{R}^p$ ）, 那么要進行複合运算 $B(Ax)$ , 必须要求 $A$ 的输出能够毫无阻碍地成為 $B$ 的输入.也就是說, $A$ 的输出空間維度 $m$ 必须严格等于 $B$ 的输入空間維度 $q$ .

這就引出了矩陣乘法何时可行的代數铁律：

只有当左边矩陣的列數等于右边矩陣的行數时，乘法才有定義.

我们可以用一個簡單的符号圖示来记住這個规则.设 $A$ 是 $m \times n$ 矩陣, $B$ 是 $n \times p$ 矩陣, 计算乘積 $AB$ ：

\underbrace{(m \times \mathbf{n})}_{\text{左矩陣 } A} \times \underbrace{(\mathbf{n} \times p)}_{\text{右矩陣 } B} = \underbrace{(m \times p)}_{\text{结果矩陣 } C}

注意中間相邻的两個數字（ $\mathbf{n}$ 和 $\mathbf{n}$ ）, 它们不僅必须相等, 而且会在运算過程中“湮灭”, 最终结果矩陣的形状由两端剩下的數字（ $m$ 和 $p$ ）决定.

何时不能相乘？ 一旦中間的這两個維度不匹配，乘法就是未定義的.這种“未定義”不僅僅是人為规定的禁止，而是有着深刻的运算障碍：

几何上： 維度錯位.就像试圖把一個 2 維的平面圖像塞進一個只接受 3 維立體输入的机器里，接口對不上.
代數上： 内積无法计算.矩陣乘法的核心是“左行乘右列”.如果左矩陣的一行有 3 個元素（即左矩陣有 3 列），而右矩陣的一列只有 2 個元素（即右矩陣有 2 行），当我们试圖将它们對應相乘时，会發現元素個數不正如，无法完成点積运算.

让我们看一個具體的例子来辨析這一点.设

A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} \; (2 \times 3), B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \; (2 \times 2).

计算 $BA$ ： $B$ 是 $2 \times \mathbf{2}$ , $A$ 是 $\mathbf{2} \times 3$ .中間維度均為 $2$ ，匹配成功. 结果将是一個 $2 \times 3$ 的矩陣.
计算 $AB$ ： $A$ 是 $2 \times \mathbf{3}$ , $B$ 是 $\mathbf{2} \times 2$ .中間維度 $3 \neq 2$ ，匹配失败. 因此， $AB$ 是不存在的.我们无法用 $A$ 的一行 $(1, 2, 3)$ 去和 $B$ 的一列 $(1, 0)^T$ 做内積，因為前者长度為 3，后者长度為 2.

這個例子再次印證了矩陣乘法的非交換性：很多时候， $BA$ 有意義, 而 $AB$ 甚至连定義都没有.

理解了背后的几何意義，我们再回過头来看具體的计算過程. 实际上，每一個元素的计算 $c_{ij} = \sum b_{ik}a_{kj}$ 都可以通過下圖這种直观的方式進行索引：

{/* latex-label: fig:matrix-multiplication */} \begin{figure}[htbp]

{C} 的第 \texorpdfstring{ $(i,j)$ }{(i,j)} 元素等于 \texorpdfstring{ $A$ }{A} 的第 \texorpdfstring{ $i$ }{i} 行與 \texorpdfstring{ $B$ }{B} 的第 \texorpdfstring{ $j$ }{j} 列的内積.}

\end{figure} 圖：矩陣乘法的计算规则：\texorpdfstring{ $C$

让我们通過具體的數值计算来巩固這一過程. 设

A = \begin{pmatrix} 1 & 0 & 2 \\ 3 & 1 & 0 \end{pmatrix}, B = \begin{pmatrix} 4 & 1 \\ 0 & 5 \\ 2 & 3 \end{pmatrix}.

由于 $A$ 是 $2\times 3$ , $B$ 是 $3\times 2$ , 乘積 $AB$ 将是一個 $2\times 2$ 矩陣. 计算第一行第一列元素： $1\cdot 4 + 0\cdot 0 + 2\cdot 2 = 8$ . 计算第二行第一列元素： $3\cdot 4 + 1\cdot 0 + 0\cdot 2 = 12$ . 依次類推，最终得到

AB = \begin{pmatrix} 8 & 7 \\ 12 & 8 \end{pmatrix}.

最后，值得一提的是，這种看似複杂的乘法规则并非某人拍脑袋的产物，而是 19 世纪數學家们在解决深刻問題时殊途同归的發現. 早在 19 世纪初，高斯在处理線性方程组的變量代換时，就已經在手稿中使用了這种“行乘列”的组合方式，但他当时僅将其视為一种计算技巧.

真正赋予其独立生命的是英国數學家亚瑟·凯莱 (Arthur Cayley). 凯莱在研究不變量理論时，為了描述坐標變換的複合（即我们前文提到的将 $x\to x' \to x''$ 合并為一步），發現必须定義這样一种乘法规则. 1858 年，凯莱通過引入“矩陣”這一概念，将几何變換的複合與代數上的矩陣乘法完美對應起来. 自此，矩陣不再僅僅是方程组係數的缩寫，而成為了現代數學中描述線性结構與空間變換最强有力的語言.

矩陣的基本性質

與我们熟悉的实數运算相似，矩陣的运算也遵循一套明确的代數法则. 掌握這些性質，是進行更複杂的矩陣计算與推導的基礎.

\paragraph{矩陣加法與標量乘法的性質} 矩陣的加法與標量乘法性質與向量的性質非常相似，它们共同構成了一個線性空間. 设 $A, B, C$ 為同階矩陣, $k, l$ 為標量.

零矩陣

所有元素均為 0 的矩陣称為零矩陣，记作 $O$ .

加法與標量乘法运算律

加法交換律: $A+B=B+A$
加法结合律: $(A+B)+C = A+(B+C)$
零元: $A+O=A$
负元: $A+(-A)=O$ , 其中 $-A = (-1)A$
標量乘法结合律: $k(lA)=(kl)A$
標量乘法分配律: $k(A+B)=kA+kB$ 以及 $(k+l)A=kA+lA$

\paragraph{矩陣乘法的性質} 矩陣乘法的性質更為特殊，特别是它不满足交換律，這一点需要特别注意. 设 $A,B,C$ 為階數适合于下列运算的矩陣, $k$ 為標量.

單位矩陣

一個 $n$ 階方陣, 如果其主對角線上的元素全為 1, 其余元素全為 0, 则称其為 $n$ 階單位矩陣, 记作 $I$ 或 $I_n$ .

I_2 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}, I_3 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

乘法與混合运算律

乘法结合律: $(AB)C = A(BC)$
乘法分配律 (左分配律與右分配律): $A(B+C)=AB+AC$ 以及 $(A+B)C=AC+BC$
與標量乘法的结合性: $k(AB)=(kA)B=A(kB)$
單位元: 若 $A$ 為 $m \times n$ 矩陣, 则 $I_m A = A I_n = A$ . 特别地, 對于 $n$ 階方陣 $A$ , 有 $AI=IA=A$ . 單位矩陣在矩陣乘法中的作用，如同數字 1 在普通乘法中的作用.

值得注意的是，矩陣乘法通常不满足交換律. 即便 $AB$ 和 $BA$ 都有定義且階數相同, 也绝不能默认為 $AB=BA$ .

\paragraph{矩陣的转置} 转置是一种非常基本且重要的矩陣运算，它将矩陣的行與列進行互換.

转置矩陣

将一個 $m \times n$ 矩陣 $A=(a_{ij})$ 的所有元素沿主對角線進行翻转, 得到的 $n \times m$ 矩陣称為 $A$ 的转置矩陣, 记作 $A^T$ . 其元素满足 $(A^T)_{ij} = a_{ji}$ .

\text{例如, } A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}, \text{则} A^T = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{pmatrix}

转置运算律

两次转置: $(A^T)^T = A$
和的转置: $(A+B)^T = A^T+B^T$
標量乘積的转置: $(kA)^T = kA^T$
乘積的转置: $(AB)^T = B^T A^T$ . 這是最重要且不直观的性質，乘積的转置等于转置的反序乘積.

例

验證性質 $(AB)^T=B^TA^T$ . 设 $A=\begin{pmatrix} 1 & 2 \\ 0 & 3 \end{pmatrix}, B=\begin{pmatrix} 4 & 1 \\ 2 & 5 \end{pmatrix}$ .

解

我们分别计算等式的左边和右边.

计算左边 $(AB)^T$ :

AB = \begin{pmatrix} 1 & 2 \\ 0 & 3 \end{pmatrix}\begin{pmatrix} 4 & 1 \\ 2 & 5 \end{pmatrix} = \begin{pmatrix} 1\cdot4+2\cdot2 & 1\cdot1+2\cdot5 \\ 0\cdot4+3\cdot2 & 0\cdot1+3\cdot5 \end{pmatrix} = \begin{pmatrix} 8 & 11 \\ 6 & 15 \end{pmatrix}

(AB)^T = \begin{pmatrix} 8 & 6 \\ 11 & 15 \end{pmatrix}

计算右边 $B^TA^T$ :

A^T = \begin{pmatrix} 1 & 0 \\ 2 & 3 \end{pmatrix}, B^T = \begin{pmatrix} 4 & 2 \\ 1 & 5 \end{pmatrix}

B^TA^T = \begin{pmatrix} 4 & 2 \\ 1 & 5 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 2 & 3 \end{pmatrix} = \begin{pmatrix} 4\cdot1+2\cdot2 & 4\cdot0+2\cdot3 \\ 1\cdot1+5\cdot2 & 1\cdot0+5\cdot3 \end{pmatrix} = \begin{pmatrix} 8 & 6 \\ 11 & 15 \end{pmatrix}

左右两边的计算结果相同，性質得到验證.

矩陣的行列式

對于每一個方陣，我们都可以计算一個與之對應的唯一的標量，這個標量被称為该方陣的行列式. 行列式是一個極其重要的概念，它浓缩了方陣的關键信息，例如與该方陣對應的線性方程组是否有唯一解，以及它所代表的几何變換是放大、缩小还是反转了空間.

我们首先從最簡單的二階方陣出發来定義行列式.

二階行列式

對于一個二階方陣

A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}

我们定義，從左上角到右下角的元素序列 $(a, d)$ 称為主對角線, 從右上角到左下角的元素序列 $(b, c)$ 称為副對角線.

该方陣的行列式的值，定義為主對角線元素之積减去副對角線元素之積，记作 $\det(A)$ 或 $|A|$ .

\det(A) = \begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc

這個定義并非凭空而来. 它恰好出現在二元一次方程组的通解公式中. 考虑方程组

\begin{aligned} a_1x + b_1y &= c_1 a_2x + b_2y &= c_2 \end{aligned}

其解為 $x = \frac{c_1b_2 - c_2b_1}{a_1b_2 - a_2b_1}, y = \frac{a_1c_2 - a_2c_1}{a_1b_2 - a_2b_1}$ . 分母 $a_1b_2-a_2b_1$ 正是係數矩陣 $A = \begin{pmatrix} a_1 & b_1 \\ a_2 & b_2 \end{pmatrix}$ 的行列式.

三階行列式

對于一個三階方陣

A = \begin{pmatrix} a_1 & b_1 & c_1 \\ a_2 & b_2 & c_2 \\ a_3 & b_3 & c_3 \end{pmatrix}

其行列式的值定義為

\det(A) = \begin{vmatrix} a_1 & b_1 & c_1 \\ a_2 & b_2 & c_2 \\ a_3 & b_3 & c_3 \end{vmatrix} = a_1b_2c_3 + b_1c_2a_3 + c_1a_2b_3 - a_3b_2c_1 - b_3c_2a_1 - c_3a_2b_1

對于三階行列式的计算，一种直观的记忆法则是對角線法则 (Sarrus' Rule). 我们将矩陣的前两列複制到右侧，然后将三条主對角線方向的元素之積相加，再减去三条副對角線方向的元素之積.

\begin{array}{ccc|cc} a_1 & b_1 & c_1 & a_1 & b_1 a_2 & b_2 & c_2 & a_2 & b_2 a_3 & b_3 & c_3 & a_3 & b_3 \end{array}

\det(A) = (a_1b_2c_3 + b_1c_2a_3 + c_1a_2b_3) - (a_3b_2c_1 + b_3c_2a_2 + c_3a_2b_1)

值得注意的是對角線法则僅适用于三階行列式，不能推廣至更高階的行列式.

例

计算矩陣 $A = \begin{pmatrix} 1 & 2 & 3 \\ 0 & 4 & 5 \\ -1 & 0 & 6 \end{pmatrix}$ 的行列式.

解

根据對角線法则，

\begin{aligned} \det(A) &= (1 \cdot 4 \cdot 6 + 2 \cdot 5 \cdot (-1) + 3 \cdot 0 \cdot 0) - ((-1) \cdot 4 \cdot 3 + 0 \cdot 5 \cdot 1 + 6 \cdot 0 \cdot 2) &= (24 - 10 + 0) - (-12 + 0 + 0) &= 14 - (-12) &= 26 \end{aligned}

更高階或更本質的计算方法是代數余子式展開. 任意 $n$ 階行列式的值，都等于其任意一行（或一列）的各元素與其對應的代數余子式乘積之和. 對于三階行列式，沿第一行展開的形式為：

\begin{vmatrix} a_1 & b_1 & c_1 \\ a_2 & b_2 & c_2 \\ a_3 & b_3 & c_3 \end{vmatrix} = a_1 \begin{vmatrix} b_2 & c_2 \\ b_3 & c_3 \end{vmatrix} - b_1 \begin{vmatrix} a_2 & c_2 \\ a_3 & c_3 \end{vmatrix} + c_1 \begin{vmatrix} a_2 & b_2 \\ a_3 & b_3 \end{vmatrix}

展開項的符号遵循 $(-1)^{i+j}$ 的棋盘格规则, 其中 $i$ 和 $j$ 分别是元素的行号和列号. 第一行的符号即為 $+,-,+$ .

行列式的几何應用

行列式最引人入胜的特性在于其深刻的几何内涵.

\paragraph{三角形面積} 我们首先阐述這個公式的几何原理，然后通過严格的代數推導来證明其正确性.

\subparagraph{几何原理} 该公式的几何核心在于将三角形的面積與向量所张成的平行四边形面積联係起来. 考虑由三個顶点 $A(x_1, y_1)$ , $B(x_2, y_2)$ , $C(x_3, y_3)$ 構成的三角形. 我们可以從顶点 $A$ 出發，構造两条边向量：

\vec{AB} = (x_2-x_1, y_2-y_1)

\vec{AC} = (x_3-x_1, y_3-y_1)

众所周知，三角形 $ABC$ 的面積, 恰好是由向量 $\vec{AB}$ 和 $\vec{AC}$ 作為邻边所構成的平行四边形面積的一半.

在二維坐標係中，由两個向量 $\vec{u}=(u_x, u_y)$ 和 $\vec{v}=(v_x, v_y)$ 所张成的平行四边形的有向面積，恰好由二階行列式给出：

\text{平行四边形的面積} = \begin{vmatrix} u_x & u_y \\ v_x & v_y \end{vmatrix} = u_x v_y - u_y v_x

這個值的正负号取决于從 $\vec{u}$ 旋转到 $\vec{v}$ 的方向 (逆时针為正，顺时针為负). 因此，三角形 $ABC$ 的面積可以表示為：

{/* label: eq:triangle-area-vector */} S = \frac{1}{2} \left| \begin{vmatrix} x_2-x_1 & y_2-y_1 \\ x_3-x_1 & y_3-y_1 \end{vmatrix} \right|

我们的任务就是證明，教科書中给出的那個三階行列式，其值本質上就等于這個二階行列式.

我们從目標三階行列式出發，利用行列式的初等變換性質進行化簡. 行列式的一個基本性質是：将某一行 (或列) 的倍數加到另一行 (或列)，行列式的值不變.

令目標行列式為 $D$ :

D = \begin{vmatrix} x_1 & y_1 & 1 \\ x_2 & y_2 & 1 \\ x_3 & y_3 & 1 \end{vmatrix}

為了在行列式中構造出向量 $\vec{AB}$ 和 $\vec{AC}$ 的分量，我们执行以下行變換：将第一行乘以 $-1$ 分别加至第二行和第三行 ( $R_2 \to R_2 - R_1$ , $R_3 \to R_3 - R_1$ ).

D = \begin{vmatrix} x_1 & y_1 & 1 \\ x_2-x_1 & y_2-y_1 & 1-1 \\ x_3-x_1 & y_3-y_1 & 1-1 \end{vmatrix} = \begin{vmatrix} x_1 & y_1 & 1 \\ x_2-x_1 & y_2-y_1 & 0 \\ x_3-x_1 & y_3-y_1 & 0 \end{vmatrix}

接着，沿第三列對這個行列式進行代數余子式展開. 由于该列有两個零元素，展開式非常簡洁：

\begin{aligned} D &= 1 \cdot \begin{vmatrix} x_2-x_1 & y_2-y_1 \\ x_3-x_1 & y_3-y_1 \end{vmatrix} - 0 + 0 &= \begin{vmatrix} x_2-x_1 & y_2-y_1 \\ x_3-x_1 & y_3-y_1 \end{vmatrix} \end{aligned}

這個结果表明，三階行列式 $D$ 的值與我们基于向量法得到的二階行列式完全相等. 将此结果代入方程 \eqref{eq:triangle-area-vector}，我们便完成了對公式的證明.

S = \frac{1}{2} |D| = \frac{1}{2} \left| \begin{vmatrix} x_1 & y_1 & 1 \\ x_2 & y_2 & 1 \\ x_3 & y_3 & 1 \end{vmatrix} \right|

行列式本身计算的是一個有向面積. 其正负取决于顶点 $A \to B \to C$ 的排列顺序 (逆时针為正，顺时针為负). 因此，我们取其绝對值来获得通常意義下的面積. 将此行列式沿第三列展開，我们得到

\begin{aligned} \text{det} &= 1 \begin{vmatrix} x_2 & y_2 \\ x_3 & y_3 \end{vmatrix} - 1 \begin{vmatrix} x_1 & y_1 \\ x_3 & y_3 \end{vmatrix} + 1 \begin{vmatrix} x_1 & y_1 \\ x_2 & y_2 \end{vmatrix} &= (x_2y_3 - x_3y_2) - (x_1y_3 - x_3y_1) + (x_1y_2 - x_2y_1) &= (x_1y_2 + x_2y_3 + x_3y_1) - (x_2y_1 + x_3y_2 + x_1y_3) \end{aligned}

這個表达式正是著名的鞋带公式. 它并非一個独立的记忆诀窍，而是该三階行列式經過代數展開后的自然结果.

\paragraph{三点共線與直線方程} 從面積公式可以立即推導出两個重要的结論. 其一，三点 $A(x_1, y_1)$ , $B(x_2, y_2)$ , $C(x_3, y_3)$ 共線的充要条件是它们所構成的三角形面積為零.

\begin{vmatrix} x_1 & y_1 & 1 \\ x_2 & y_2 & 1 \\ x_3 & y_3 & 1 \end{vmatrix} = 0

其二，给定两点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$ , 平面上任意一点 $P(x,y)$ 在直線 $AB$ 上的充要条件是 $P,A,B$ 三点共線. 因此，經過 $A,B$ 两点的直線方程可以極為优美地表示為：

\begin{vmatrix} x & y & 1 \\ x_1 & y_1 & 1 \\ x_2 & y_2 & 1 \end{vmatrix} = 0

例

求經過点 $A(1,2)$ 和 $B(3,-4)$ 的直線方程.

解

根据行列式形式的直線方程，我们有

\begin{vmatrix} x & y & 1 \\ 1 & 2 & 1 \\ 3 & -4 & 1 \end{vmatrix} = 0

沿第一行展開此行列式，

x \begin{vmatrix} 2 & 1 \\ -4 & 1 \end{vmatrix} - y \begin{vmatrix} 1 & 1 \\ 3 & 1 \end{vmatrix} + 1 \begin{vmatrix} 1 & 2 \\ 3 & -4 \end{vmatrix} = 0

x(2 - (-4)) - y(1 - 3) + 1(-4 - 6) = 0

6x - y(-2) - 10 = 0

6x + 2y - 10 = 0

化簡得直線方程為 $3x+y-5=0$ .

\paragraph{向量外積與法向量} 在三維空間中，行列式是定義向量外積的標准工具. 對于两個向量 $\vec{a} = (a_1, a_2, a_3)$ 和 $\vec{b} = (b_1, b_2, b_3)$ , 它们的外積 $\vec{a} \times \vec{b}$ 是一個同时垂直于 $\vec{a}$ 和 $\vec{b}$ 的新向量，其定義為一個形式上的行列式：

\vec{a} \times \vec{b} = \begin{vmatrix} \mathbf{i} & \mathbf{j} & \mathbf{k} \\ a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{vmatrix} = (a_2b_3 - a_3b_2)\mathbf{i} - (a_1b_3 - a_3b_1)\mathbf{j} + (a_1b_2 - a_2b_1)\mathbf{k}

其中 $\mathbf{i}, \mathbf{j}, \mathbf{k}$ 是沿 $x,y,z$ 轴的單位向量. 這個工具在解析几何中至關重要，因為它提供了一种直接计算平面法向量的方法. 一個由三点 $A,B,C$ 确定的平面, 其法向量 $\vec{n}$ 必定垂直于平面内的任意向量, 例如 $\vec{AB}$ 和 $\vec{AC}$ . 因此，我们可以通過计算這两個向量的外積来求得法向量.

\vec{n} = \vec{AB} \times \vec{AC}

例

求經過三点 $A(1,0,0)$ , $B(0,1,0)$ , $C(0,0,1)$ 的平面的一個法向量.

解

我们首先構造两個在平面内的向量.

\vec{AB} = B - A = (0-1, 1-0, 0-0) = (-1, 1, 0)

\vec{AC} = C - A = (0-1, 0-0, 1-0) = (-1, 0, 1)

该平面的法向量 $\vec{n}$ 可以通過计算 $\vec{AB}$ 與 $\vec{AC}$ 的外積得到.

\begin{aligned} \vec{n} &= \vec{AB} \times \vec{AC} = \begin{vmatrix} \mathbf{i} & \mathbf{j} & \mathbf{k} \\ -1 & 1 & 0 \\ -1 & 0 & 1 \end{vmatrix} &= \mathbf{i} \begin{vmatrix} 1 & 0 \\ 0 & 1 \end{vmatrix} - \mathbf{j} \begin{vmatrix} -1 & 0 \\ -1 & 1 \end{vmatrix} + \mathbf{k} \begin{vmatrix} -1 & 1 \\ -1 & 0 \end{vmatrix} &= \mathbf{i}(1-0) - \mathbf{j}(-1-0) + \mathbf{k}(0-(-1)) &= 1\mathbf{i} + 1\mathbf{j} + 1\mathbf{k} \end{aligned}

因此，该平面的一個法向量是 $\vec{n}=(1,1,1)$ .

\paragraph{平行六面體的體積} 行列式的几何意義可以自然地推廣到三維體積. 其核心思想源于一個基本的几何事实：任何柱體的體積都等于其底面積乘以高. 在這里，我们将使用向量代數的工具来精确地表达底面積和高.

一個平行六面體的體積 $V$ 可以通過其底面平行四边形的面積 $S_{\text{底}}$ 與垂直于该底面的高 $h$ 的乘積来计算.

V = S_{\text{底}} \cdot h

我们不妨選择由向量 $\vec{b}$ 和 $\vec{c}$ 所张成的平行四边形作為底面. 根据向量外積的几何意義，這個底面平行四边形的面積等于外積向量 $\vec{b} \times \vec{c}$ 的模长.

S_{\text{底}} = \| \vec{b} \times \vec{c} \|

根据外積的定義，向量 $\vec{n} = \vec{b} \times \vec{c}$ 的方向是同时垂直于 $\vec{b}$ 和 $\vec{c}$ 的，即垂直于底面. 平行六面體的高 $h$ , 就是第三個向量 $\vec{a}$ 在底面法向量 $\vec{n}$ 方向上的投影的长度. 一個向量 $\vec{a}$ 在另一個向量 $\vec{n}$ 上的標量投影（用proj表示）由点積给出： $\text{proj}_{\vec{n}}\vec{a} = \frac{\vec{a} \cdot \vec{n}}{\|\vec{n}\|}$ . 因此，高 $h$ 是這個投影值的绝對值 (因為高度必须為非负).

h = \left| \frac{\vec{a} \cdot \vec{n}}{\|\vec{n}\|} \right| = \frac{|\vec{a} \cdot (\vec{b} \times \vec{c})|}{\|\vec{b} \times \vec{c}\|}

接着，我们将底面積和高的表达式代入體積公式：

V = S_{\text{底}} \cdot h = \|\vec{b} \times \vec{c}\| \cdot \frac{|\vec{a} \cdot (\vec{b} \times \vec{c})|}{\|\vec{b} \times \vec{c}\|}

分子與分母中的 $\|\vec{b} \times \vec{c}\|$ 項相互抵消，我们得到了一個極為簡洁的表达式：

V = |\vec{a} \cdot (\vec{b} \times \vec{c})|

這個表达式 $\vec{a} \cdot (\vec{b} \times \vec{c})$ 被称為三個向量的混合積. 它在几何上代表了由這三個向量所张成的平行六面體的有向體積.

最后一步是證明，混合積的代數计算结果與三階行列式的值完全相同. 设 $\vec{a}=(a_1,a_2,a_3)$ , $\vec{b}=(b_1,b_2,b_3)$ , $\vec{c}=(c_1,c_2,c_3)$ . 我们首先计算外積 $\vec{b} \times \vec{c}$ :

\vec{b} \times \vec{c} = (b_2c_3 - b_3c_2)\mathbf{i} + (b_3c_1 - b_1c_3)\mathbf{j} + (b_1c_2 - b_2c_1)\mathbf{k}

接着，计算 $\vec{a}$ 與上述结果的点積:

\begin{aligned} \vec{a} \cdot (\vec{b} \times \vec{c}) &= a_1(b_2c_3 - b_3c_2) + a_2(b_3c_1 - b_1c_3) + a_3(b_1c_2 - b_2c_1) &= a_1b_2c_3 - a_1b_3c_2 + a_2b_3c_1 - a_2b_1c_3 + a_3b_1c_2 - a_3b_2c_1 \end{aligned}

接着，我们计算由這三個向量作為行構成的三階行列式，并沿第一行展開：

\begin{aligned} \begin{vmatrix} a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \\ c_1 & c_2 & c_3 \end{vmatrix} &= a_1 \begin{vmatrix} b_2 & b_3 \\ c_2 & c_3 \end{vmatrix} - a_2 \begin{vmatrix} b_1 & b_3 \\ c_1 & c_3 \end{vmatrix} + a_3 \begin{vmatrix} b_1 & b_2 \\ c_1 & c_2 \end{vmatrix} &= a_1(b_2c_3 - b_3c_2) - a_2(b_1c_3 - b_3c_1) + a_3(b_1c_2 - b_2c_1) &= a_1b_2c_3 - a_1b_3c_2 - a_2b_1c_3 + a_2b_3c_1 + a_3b_1c_2 - a_3b_2c_1 \end{aligned}

通過重新排列各項的顺序，我们發現這两個展開式是完全相同的. 這就證明了混合積與行列式在數值上是等价的. 因此，平行六面體的體積可以表示為：

V = \left| \begin{vmatrix} a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \\ c_1 & c_2 & c_3 \end{vmatrix} \right|

由此可知，三個向量共面的充要条件是它们无法张成一個具有體積的实體，即它们所张成的平行六面體體積為零. 這等价于它们的混合積為零，即上述行列式的值為零.

平面截距式方程

设平面 $\pi$ 與 $x,y,z$ 坐標轴分别交于三点 $A(a,0,0)$ , $B(0,b,0)$ , $C(0,0,c)$ , 其中 $a,b,c$ 均為非零实數. 求该平面的方程.

解

平面的方程可以通過共面条件来确定. 设 $P(x,y,z)$ 是该平面上的任意一点. 那么向量 $\vec{AP}$ , $\vec{AB}$ , $\vec{AC}$ 必定共面. 三個向量共面的充要条件是，由它们所张成的平行六面體體積為零. 我们首先计算這三個向量：

\vec{AP} = (x-a, y-0, z-0) = (x-a, y, z)

\vec{AB} = (0-a, b-0, 0-0) = (-a, b, 0)

\vec{AC} = (0-a, 0-0, c-0) = (-a, 0, c)

令這三個向量構成的行列式等于零：

\begin{vmatrix} x-a & y & z \\ -a & b & 0 \\ -a & 0 & c \end{vmatrix} = 0

我们沿第一行展開此行列式.

(x-a)\begin{vmatrix} b & 0 \\ 0 & c \end{vmatrix} - y\begin{vmatrix} -a & 0 \\ -a & c \end{vmatrix} + z\begin{vmatrix} -a & b \\ -a & 0 \end{vmatrix} = 0

(x-a)(bc) - y(-ac) + z(0 - (-ab)) = 0

bcx - abc + acy + abz = 0

将常數項移到等式右边.

bcx + acy + abz = abc

由于 $a,b,c$ 均非零, 我们可以用 $abc$ 同除等式两边.

\frac{bcx}{abc} + \frac{acy}{abc} + \frac{abz}{abc} = \frac{abc}{abc}

化簡后，我们得到了平面方程的著名形式——截距式方程.

\frac{x}{a} + \frac{y}{b} + \frac{z}{c} = 1

行列式與多項式因式分解

行列式本身是元素的多線性组合，因此一旦元素中含有未知量，行列式自然就是關于這些未知量的一個多項式. 這一点使得行列式成為因式分解（尤其是高次、多元、具有對称性或轮換對称性的多項式）的一把利器.

总體思路可以概括為两种互补的方向：

從行列式出發做因式分解：把行列式看成多項式，利用“代入使行列式為零”来找因式；
從多項式出發構造行列式：先把一個给定多項式巧妙地改寫成一個行列式的值，再利用行列式的初等變換和公因式提取来实現因式分解.

這两种方法的理論基礎都来自下面两条簡單却非常有力的原理.

\paragraph{原理一：根與因式的關係（因式定理）}

對于一個關于變量 $x$ 的一元多項式 $P(x)$ ，因式定理指出：

\text{如果 } P(a)=0,\ \text{那么 } (x-a)\ \text{是 } P(x) \text{ 的一個因式.}

多元情形下，若把某個變量看作未知，其余變量看作參數，這一原理同样成立. 例如，设 $P(a,b,c)$ 是關于 $a$ 的多項式（ $b,c$ 只是係數所在的參數）. 若

P(b,b,c)=0,

则在多項式环 $\mathbb{R}[a,b,c]$ 中, $(a-b)$ 就是 $P(a,b,c)$ 的一個因式. 換言之, “把 $a$ 換成 $b$ 会使多項式變成 0”, 就意味着 $(a-b)$ 整除這個多項式.

\paragraph{原理二：行列式的零值条件}

行列式有一条極其關键的性質：

\text{若行列式的任意两行或两列成比例（特别是完全相同），则该行列式的值為零.}

這源于行列式對每一行（或列）的線性性和交錯性：当两行（列）相同或成比例时，行列式中相應項彼此抵消，结果必為 $0$ .

把這两個原理结合，就得到利用行列式寻找多項式因式的基本逻辑链条：

把一個含有變量的行列式 $D(x,y,z,...)$ 视作關于這些變量的多項式；
通過對變量赋特定值（如令 $x=y$ 或令某變量為 0,1 等），观察此时行列式的两行或两列是否会變得相同或成比例；
一旦在這种代入下出現两行（或两列）相同（或成比例），就知道此时行列式的值必為 $0$ ；
因此，按因式定理，對應的表达式（如 $x-y$ 、 $a+b+c$ 等）就是该行列式所代表多項式的一個因式.

對于范德蒙行列式、轮換對称行列式等高度對称的结構，這一逻辑链条往往能係统地“逼出”所有本應出現的線性因式（如 $(x-y)$ 、 $(a-b)$ 、 $(a+b+c)$ 等），再配合次數比较和係數比较，就可以完成因式分解.

\paragraph{典型用途概览}

行列式方法在因式分解中的常见用途包括：

处理范德蒙類行列式，得到优美的積形式，如 $\displaystyle \prod_{i\<j}(x_i-x_j)$ ；
對轮換（循环）對称多項式/行列式自动“檢出”因式 $(a+b+c)$ 、 $(a-b)(b-c)(c-a)$ 等；
在題目给出的是“普通多項式”时，逆向構造行列式，通過初等變換和公因式提取完成分解；
證明某些多項式恒等式（例如 $a^3+b^3+c^3-3abc=(a+b+c)(a^2+b^2+c^2-ab-bc-ca)$ ）时，行列式方法往往给出结構清晰的證明.

下面分别從“两种方向”来整理具體的操作步骤.

一、從行列式出發做因式分解

设 $D(a,b,c,...)$ 是由若干多項式元素構成的行列式.

寻找線性因式（通過“造零”）

仔细观察行列式的结構，尝试通過代入

a=b, b=c, a=-b, a+b+c=0, x=0,1,...

等特殊關係，使得两行或两列變得相同/成比例，從而保證 $D=0$ . 每得到一次這样的“必為 0”的代入關係，就對應找到了一個因式.

例如：

若令 $a=b$ 时 $D=0$ , 则 $(a-b)$ 是 $D$ 的一個因式；
對于轮換對称行列式，如果 $(a-b)$ 是因式, 那么通常 $(b-c)$ 、 $(c-a)$ 也是因式；
若总能在 $a+b+c=0$ 时得到 $D=0$ , 往往 $(a+b+c)$ 就是一個因式.

比较次數

把 $D$ 展開成多項式后，可以讨論它的总次數（多元情形可以看作齐次多項式的次數，或專门看作關于某一指定變量的次數）.

對大多數有规律的行列式，只需观察“每行中次數最高的項”，從每行各取一次就能得到最高次項. 例如，對

\begin{vmatrix} 1 & 1 & 1 x & y & z x^2 & y^2 & z^2 \end{vmatrix}

每一行的最高次數分别為 $0,1,2$ ，故整個行列式是一個三次齐次多項式.

同时，计算前一步已找到的所有因式之積的总次數. 若两者次數相同，则行列式與這些因式之積至多只差一個常數因子. 3. 确定常數因子

若已知

D = k \cdot (\text{因子}_1)\cdot(\text{因子}_2)\cdots,

且左右两边次數相同，则只需要比较某個具體單項式的係數即可确定 $k$ .

常用做法是選取行列式展開中较容易定位的某一單項式（例如主對角線上元素乘積产生的那一項），在因式乘積一侧也找到同一單項式，比较係數即可. 若 $k=1$ ，则說明因式分解已經完備.

二、從多項式出發構造行列式

当題目一開始给出的是普通多項式 $P(x)$ 或 $P(a,b,c,...)$ 时，也可以主动把它寫成行列式的形式，然后用上面的行列式技巧来揭示因式结構.

構造行列式

這是最具创造性的一步. 目標是把 $P$ 通過分组、配凑等方式寫成

P = A(x)D(x) - B(x)C(x)

這样的“ $AD-BC$ 结構”，從而可以寫成一個二階行列式：

P(x) = \begin{vmatrix} A(x) & B(x) C(x) & D(x) \end{vmatrix}.

有时也可以構造成更高階行列式，但能够用 $2\times2$ 解决时往往最簡洁. 2. 初等變換制造公因式

利用行列式的初等變換性質：

某一行（列）乘以一個數加到另一行（列）上，行列式的值不變；
调換两行（列）只会改變符号；
某一行（列）乘以常數 $k$ , 行列式整體乘以 $k$ .

通過這些變換，力圖使某一行或某一列的每一項都含有同一個因式（例如 $(x+3)$ 、 $(x-1)$ 、 $(a+b+c)$ 等）.

提取公因式

一旦某行或某列出現了公因式，就可根据行列式的多線性性質把它提出行列式之外：

\begin{vmatrix} f(x)\,g(x) & f(x)\,h(x) ... & ... \end{vmatrix} = f(x)\begin{vmatrix} g(x) & h(x) ... & ... \end{vmatrix}.

化簡并重複

對提取了公因式后剩下的、更簡單的行列式，继續做初等變換與公因式提取，直至可以直接计算其值. 最终就得到

P = (\text{若干因式}) \times (\text{一個较簡單的多項式}),

這样 $P$ 的因式结構就显現出来了.

下面通過几個例題，展示這两种思路在具體問題中的运用：既包括標准范德蒙行列式及其變體，也包括轮換對称行列式以及通過巧妙代數構造得到的 $2\times2$ 行列式.

例

因式分解多項式 $P(x) = x^3 + 4x^2 + x - 6$ .

解

尝试把 $P(x)$ 寫成一個 $2\times2$ 行列式. 先對多項式分组：

P(x) = (x^3+4x^2) + (x-6) = x^2(x+4) - (-1)(x-6).

于是

P(x) = \begin{vmatrix} x^2 & x-6 -1 & x+4 \end{vmatrix},

因為

\begin{vmatrix} x^2 & x-6 -1 & x+4 \end{vmatrix} = x^2(x+4) - (x-6)(-1) = x^3 + 4x^2 + x - 6.

下面對行列式做初等變換以制造公因式. 先做列變換 $C_2\to C_2+C_1$ ：

P(x) = \begin{vmatrix} x^2 & x^2 + x - 6 -1 & x+3 \end{vmatrix}.

将二次三項式因式分解：

x^2+x-6 = (x+3)(x-2),

得到

P(x) = \begin{vmatrix} x^2 & (x+3)(x-2) -1 & x+3 \end{vmatrix}.

此时第二列有公因式 $(x+3)$ ，提出：

P(x) = (x+3)\begin{vmatrix} x^2 & x-2 -1 & 1 \end{vmatrix}.

為了進一步化簡，做行變換 $R_1 \to R_1 + R_2$ ：

P(x) = (x+3)\begin{vmatrix} x^2-1 & x-1 -1 & 1 \end{vmatrix}.

注意到 $x^2-1=(x-1)(x+1)$ , 故第一行有公因式 $(x-1)$ ，提出：

P(x) = (x+3)(x-1)\begin{vmatrix} x+1 & 1 -1 & 1 \end{vmatrix}.

最后计算這個最簡單的 $2\times2$ 行列式：

\begin{vmatrix} x+1 & 1 -1 & 1 \end{vmatrix} = (x+1)\cdot1 - 1\cdot(-1) = x+2.

因此

P(x) = (x-1)(x+2)(x+3).

本例属于“從多項式出發構造行列式”的思路：先凑出 $AD-BC$ ，再用行列式變換與公因式提取完成因式分解.

范德蒙行列式

因式分解三階行列式

D = \begin{vmatrix} 1 & 1 & 1 x & y & z x^2 & y^2 & z^2 \end{vmatrix}.

解

把 $D$ 视為關于 $x,y,z$ 的一個多項式.

第一步：通過“造零”寻找因式.

若令 $x=y$ ，则第一列與第二列完全相同：

\begin{vmatrix} 1 & 1 & 1 y & y & z y^2 & y^2 & z^2 \end{vmatrix}=0.

因此，当 $x=y$ 时 $D=0$ , 由因式定理知 $(x-y)$ 是 $D$ 的一個因式.

同理，由于 $x,y,z$ 的地位完全對称：

令 $y=z$ , 得到 $(y-z)$ 是一個因式；
令 $z=x$ , 得到 $(z-x)$ 是一個因式.

于是 $D$ 至少含有因式

(x-y)(y-z)(z-x).

第二步：比较次數.

注意第 $k$ 行的元素是 $x^{k-1},y^{k-1},z^{k-1}$ , 其次數分别為 $0,1,2$ , 所以整個行列式是關于 $x,y,z$ 的三次齐次多項式. 而因式乘積 $(x-y)(y-z)(z-x)$ 的总次數也是 $3$ . 因此存在常數 $k$ 使得

D = k(x-y)(y-z)(z-x).

第三步：比较係數确定 $k$ .

在左边的展開式中， $yz^2$ 項只可能来自主對角線 $1\cdot y\cdot z^2$ , 故其係數為 $+1$ .

右边展開 $(x-y)(y-z)(z-x)$ ，可得

(x-y)(y-z)(z-x) = -xz^2 - y^2z + yz^2 - x^2y + x^2z + xy^2,

其中 $yz^2$ 的係數也是 $+1$ .

故

1 = k\cdot 1 \Rightarrow k=1.

綜上，

\begin{vmatrix} 1 & 1 & 1 x & y & z x^2 & y^2 & z^2 \end{vmatrix} = (x-y)(y-z)(z-x).

本例是“從行列式出發”的標准范例：用行列式的零值条件找線性因式，用次數與係數比较确定常數因子.

例

因式分解行列式

D = \begin{vmatrix} x & y & z x^2 & y^2 & z^2 x^3 & y^3 & z^3 \end{vmatrix}.

解

观察到每一列都具有公因式：

\text{第 1 列有因式 }x, \text{第 2 列有因式 }y, \text{第 3 列有因式 }z.

利用行列式列的多線性，可将這三個因式提出：

D = xyz \begin{vmatrix} 1 & 1 & 1 x & y & z x^2 & y^2 & z^2 \end{vmatrix}.

括号内正是三階范德蒙行列式，其因式分解刚刚已求得為 $(x-y)(y-z)(z-x)$ . 故

D = xyz(x-y)(y-z)(z-x).

本例體現了“先利用公因式把行列式簡化，再套用已知模型”的思路.

例

因式分解轮換對称行列式

D = \begin{vmatrix} a & b & c b & c & a c & a & b \end{vmatrix}.

解

该行列式具有明显的轮換對称性：将 $a\to b,\ b\to c,\ c\to a$ 作循环置換, 行列式的形式保持不變. 這种對称性提示我们, 它的因式中很可能包含“對称”的表达式, 例如 $(a+b+c)$ .

第一步：用列變換造出 $(a+b+c)$ .

将第二列與第三列同时加到第一列上：

C_1\to C_1+C_2+C_3.

得到

D = \begin{vmatrix} a+b+c & b & c b+c+a & c & a c+a+b & a & b \end{vmatrix}.

此时，第一列每個元素都是 $(a+b+c)$ ，可以提出：

D = (a+b+c)\begin{vmatrix} 1 & b & c 1 & c & a 1 & a & b \end{vmatrix}.

第二步：用行變換制造零，降階.

對后一個行列式，做行變換 $R_2\to R_2-R_1,\ R_3\to R_3-R_1$ ：

D = (a+b+c)\begin{vmatrix} 1 & b & c 0 & c-b & a-c 0 & a-b & b-c \end{vmatrix}.

沿第一列展開：

D = (a+b+c)\cdot 1\cdot \begin{vmatrix} c-b & a-c a-b & b-c \end{vmatrix}.

第三步：计算 $2\times2$ 行列式并整理.

\begin{aligned} \begin{vmatrix} c-b & a-c a-b & b-c \end{vmatrix} &= (c-b)(b-c) - (a-c)(a-b) &= -(b-c)^2 - (a^2-ab-ac+bc) &= -\bigl(a^2+b^2+c^2-ab-bc-ca\bigr). \end{aligned}

于是

D = -(a+b+c)\bigl(a^2+b^2+c^2-ab-bc-ca\bigr).

另一方面，利用恒等式

a^3+b^3+c^3-3abc = (a+b+c)\bigl(a^2+b^2+c^2-ab-bc-ca\bigr),

可知

D = -(a^3+b^3+c^3-3abc) = 3abc-a^3-b^3-c^3.

本例體現了：通過恰当的列（行）變換，主动造出 $(a+b+c)$ 這样的“對称因式”，再使用降階與整理，就能清晰地看出轮換對称行列式的因式结構.

線性變換與几何應用

在前文中，矩陣被引入作為線性方程组係數的容器，或是代數运算的某种對象. 然而，矩陣最直观的生命力在于几何：在解析几何中，矩陣不僅是静态的坐標记錄者，更是动态的空間變換算子.

本节将在原有内容的基礎上，進一步探讨：

如何用矩陣统一描述旋转、镜像、切變、缩放等几何變換；
行列式如何度量“面積變化”和“翻转”；
如何用矩陣語言一眼看出一条二次曲線是圓、椭圓、雙曲線还是抛物線；
中學解析几何里熟悉的“配方”“旋转坐標係”，在高观点下其实都是線性代換（矩陣變換）.

線性變換的矩陣表示

当我们說一個映射 $T: \mathbb{R}^2 \to \mathbb{R}^2$ 是線性變換时，意味着它保持了向量加法和標量乘法的结構：原点保持不动，直線變換后仍為直線（或退化為点），且平行的刻度保持均匀.

任何平面上的線性變換都可以由一個二階方陣 $A$ 唯一确定. 如前所述，寻找這個矩陣的關键在于追踪基向量的去向. 设標准基向量

e_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}, e_2 = \begin{pmatrix} 0 \\ 1 \end{pmatrix},

若它们在變換 $T$ 下的像分别為

T(e_1) = v_1, T(e_2) = v_2,

则该變換對應的矩陣為：

A = \begin{pmatrix} v_1 & v_2 \end{pmatrix}, T(x) = Ax.

這意味着：知道基向量往哪儿去，就等于知道了整個線性變換.

\paragraph{典型變換一览}

在解析几何中，几种最常用的線性變換可以统一寫成矩陣：

各向同性缩放（等比放缩）：

S_\lambda = \begin{pmatrix} \lambda & 0 \\ 0 & \lambda \end{pmatrix}, (x,y)^T \mapsto (\lambda x,\lambda y)^T.

各向异性缩放（在不同方向上拉伸不同倍數）：

D_{a,b} = \begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix}, (x,y)^T \mapsto (ax,by)^T.

關于坐標轴的镜像：

x\text{-轴對称}:\ \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}, y\text{-轴對称}:\ \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix}.

關于原点的旋转（逆时针角 $\theta$ ）：

R_\theta = \begin{pmatrix} \cos\theta & -\sin\theta \sin\theta & \cos\theta \end{pmatrix}.

切變（Shear）：

\text{水平切變}:\ S_k = \begin{pmatrix} 1 & k \\ 0 & 1 \end{pmatrix}, (x,y)^T \mapsto (x+ky,y)^T.

下面通過几個例子體会矩陣與几何的對應.

镜像變換

求平面上關于直線 $y=x$ 對称的變換矩陣.

解

只需追踪基向量的像.

對于 $x$ 轴上的單位向量 $e_1 = (1,0)^T$ , 關于直線 $y=x$ 對称后, 它落在 $y$ 轴上, 變為 $v_1 = (0,1)^T$ . 對于 $y$ 轴上的單位向量 $e_2 = (0,1)^T$ , 對称后落在 $x$ 轴上, 變為 $v_2 = (1,0)^T$ .

于是變換矩陣為

P = \begin{pmatrix} v_1 & v_2 \end{pmatrix} = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}.

验證：對任意点 $(a,a)^T$ ，

P\begin{pmatrix} a \\ a \end{pmatrix} = \begin{pmatrix} a \\ a \end{pmatrix},

保持不动；点 $(1,0)^T$ 變成 $(0,1)^T$ ，與几何直观一致.

旋转變換

{/* label: ex:rotation */} 求绕原点逆时针旋转角 $\theta$ 的線性變換矩陣.

解

同样考察基向量的像.

点 $(1,0)$ 绕原点逆时针旋转 $\theta$ 后落在單位圓上的点 $(\cos\theta,\sin\theta)$ ，故

T(e_1) = \begin{pmatrix} \cos\theta \\ \sin\theta \end{pmatrix}.

点 $(0,1)$ 绕原点逆时针旋转 $\theta$ 后, 其極角從 $\frac{\pi}{2}$ 變為 $\frac{\pi}{2}+\theta$ ，坐標為

(\cos(\tfrac{\pi}{2}+\theta),\ \sin(\tfrac{\pi}{2}+\theta)) = (-\sin\theta,\ \cos\theta),

故

T(e_2) = \begin{pmatrix} -\sin\theta \\ \cos\theta \end{pmatrix}.

于是旋转矩陣為

R_\theta = \begin{pmatrix} \cos\theta & -\sin\theta \\[2pt] \sin\theta & \cos\theta \end{pmatrix}.

這個矩陣在高中解析几何中非常重要，它不僅描述坐標係的旋转，还暗含了三角恒等式，例如

R_\alpha R_\beta = R_{\alpha+\beta}

從矩陣乘法寫開，就得到熟悉的

\cos(\alpha+\beta)=\cos\alpha\cos\beta-\sin\alpha\sin\beta, \sin(\alpha+\beta)=\sin\alpha\cos\beta+\cos\alpha\sin\beta.

切變與面積不變性

考察水平切變矩陣 $S_k = \begin{pmatrix} 1 & k \\ 0 & 1 \end{pmatrix}$ 對單位正方形的作用，验證它保持面積不變.

解

單位正方形的顶点為 $(0,0),(1,0),(1,1),(0,1)$ . 變換后四点分别為

(0,0),\ (1,0),\ (1+k,1),\ (k,1),

它们構成一個平行四边形，其两条邻边向量為

\vec{u} = (1,0)^T, \vec{v} = (k,1)^T.

平行四边形面積等于

|\det(\vec{u},\vec{v})| = \left| \begin{vmatrix} 1 & k 0 & 1 \end{vmatrix} \right| = 1,

與原單位正方形面積相同. 這與 $|\det(S_k)|=1$ 完全一致（见下一小节）.

行列式的几何意義

在前文中，我们将二階行列式定義為两個向量围成的平行四边形的面積（带符号）：

\det\begin{pmatrix} a & c \\ b & d \end{pmatrix} = ad-bc.

如果将這两列看作两個向量 $\vec{u}=(a,b)^T,\ \vec{v}=(c,d)^T$ ，则

|\det(\vec{u},\vec{v})|

就是它们围成平行四边形的面積.

更一般地，對于線性變換 $y = Ax$ , 如果输入空間中的一個圖形具有面積 $S$ , 那么變換后的圖形面積 $S'$ 與原面積之間存在确定的倍率關係.

面積變換定理

设 $A$ 為二階方陣, $\Omega$ 是平面上的一個可测圖形, 其面積為 $S_\Omega$ . 經矩陣 $A$ 變換后, 圖形 $\Omega' = \{ Ax \mid x \in \Omega \}$ 的面積為：

S_{\Omega'} = |\det(A)| \cdot S_\Omega.

因此，行列式绝對值的几何本質是：它是線性變換改變面積的比例係數.

$|\det(A)| \> 1$ : 變換起到了放大的作用.
$0 \< |\det(A)| \< 1$ : 變換起到了缩小的作用.
$\det(A) = 0$ : 圖形被压扁，面積變為 0（退化為直線或点）.
$\det(A) \< 0$ : 變換包含了一個镜像翻转操作，改變了圖形的手性（定向）.

三角形面積的行列式公式

已知三角形三個顶点 $P_1(x_1,y_1),P_2(x_2,y_2),P_3(x_3,y_3)$ ，證明其面積為

S = \frac12 \left| \begin{vmatrix} x_2-x_1 & x_3-x_1 y_2-y_1 & y_3-y_1 \end{vmatrix} \right|.

解

以 $P_1$ 為原点，向量

\vec{u} = P_2-P_1 = (x_2-x_1,\ y_2-y_1)^T, \vec{v} = P_3-P_1 = (x_3-x_1,\ y_3-y_1)^T

構成三角形的两条邻边. 它们围成的平行四边形面積為

|\det(\vec{u},\vec{v})| = \left| \begin{vmatrix} x_2-x_1 & x_3-x_1 y_2-y_1 & y_3-y_1 \end{vmatrix} \right|.

三角形面積是该平行四边形的一半，故结論成立.

椭圓面積公式

{/* label: ex:ellipse-area */} 利用單位圓的變換推導长半轴為 $a$ 、短半轴為 $b$ 的椭圓面積.

解

單位圓 $x^2+y^2 \leq 1$ 的面積已知為 $\pi$ . 標准椭圓方程為 $\dfrac{x^2}{a^2} + \dfrac{y^2}{b^2} \leq 1$ . 我们可以構造一個對角矩陣 $A$ 将單位圓拉伸為该椭圓：

A = \begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix}.

對于單位圓上的任意向量 $\mathbf{u}=(u_1, u_2)^T$ ，變換后的向量

\mathbf{x} = A\mathbf{u} = (au_1, bu_2)^T

满足

\left(\frac{x}{a}\right)^2 + \left(\frac{y}{b}\right)^2 = u_1^2+u_2^2 \leq 1.

因此，该變換确实将單位圓雙射到了椭圓区域.

计算變換矩陣的行列式：

\det(A) = ab.

根据面積變換定理：

S_{\text{椭圓}} = |\det(A)| \cdot S_{\text{單位圓}} = ab \cdot \pi = \pi ab.

這個推導揭示了一個思想：通過線性變換把複杂圖形“拉回”到熟悉的標准圖形，再用行列式把面積缩放回来. 這是许多高等積分技巧的雏形.

齐次坐標與平移

線性變換有一個固有的局限：它必须固定原点 ( $A\mathbf{0} = \mathbf{0}$ ). 這意味着單纯的 $2\times 2$ 矩陣乘法无法表示平移 (Translation).

為了统一处理平移與旋转，解析几何中引入了齐次坐標.

齐次坐標

平面点 $(x,y)$ 的齐次坐標表示為三維列向量

\tilde{x}= \begin{pmatrix} x \\ y \\ 1 \end{pmatrix}.

通過增加一個維度，我们可以用 $3 \times 3$ 的矩陣来描述二維平面上的仿射變換 (Affine Transformation). 例如：

平移向量 $(h, k)$ ：

T_{h,k}= \begin{pmatrix} 1 & 0 & h 0 & 1 & k 0 & 0 & 1 \end{pmatrix}, T_{h,k}\begin{pmatrix} x \\ y \\ 1 \end{pmatrix} = \begin{pmatrix} x+h \\ y+k \\ 1 \end{pmatrix}.

先旋转再平移：

\tilde{A}= \begin{pmatrix} \cos\theta & -\sin\theta & h \sin\theta & \cos\theta & k 0 & 0 & 1 \end{pmatrix},

则

\tilde{A} \begin{pmatrix} x \\ y \\ 1 \end{pmatrix} = \begin{pmatrix} x\cos\theta - y\sin\theta + h x\sin\theta + y\cos\theta + k 1 \end{pmatrix}.

這样，所有“旋转+缩放+切變+平移”的组合都可以表示為一個 $3\times 3$ 矩陣的一次相乘. 计算机圖形學中, 三維空間里的物體變換同理使用 $4\times 4$ 齐次坐標矩陣.

组合變換一次完成

已知点 $P(1,0)$ , 先绕原点逆时针旋转 $\frac{\pi}{2}$ , 再向右平移 $2$ 個單位，求變換后的坐標，并给出相應的齐次矩陣.

解

绕原点旋转 $\frac{\pi}{2}$ 的矩陣為

R_{\frac{\pi}{2}}= \begin{pmatrix} 0 & -1 1 & 0 \end{pmatrix}.

向右平移 $2$ 的矩陣為

T_{2,0}= \begin{pmatrix} 1 & 0 & 2 0 & 1 & 0 0 & 0 & 1 \end{pmatrix}.

對應的齐次形式（先旋转后平移）是

\tilde{A}= \begin{pmatrix} 0 & -1 & 2 1 & 0 & 0 0 & 0 & 1 \end{pmatrix}.

代入 $P$ 的齐次坐標 $(1,0,1)^T$ ：

\tilde{A} \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} 2 \\ 1 \\ 1 \end{pmatrix},

因此變換后点為 $(2,1)$ .

二次曲線的矩陣分類

中學解析几何中的圓锥曲線，一般從如下二元二次方程出發：

Ax^2 + 2Bxy + Cy^2 + Dx + Ey + F = 0,

其中 $A,B,C$ 不全為零. 交叉項 $xy$ 的存在使得曲線發生旋转，难以直接辨识其類型（椭圓、雙曲線或抛物線）.

矩陣為我们提供了一种“更高视角”：先只看最高次項，忽略線性項和常數項，聚焦在方程的二次部分（即二次型）.

\paragraph{二次型與係數矩陣}

方程的二次部分可以寫成矩陣形式：

q(x,y) = \begin{pmatrix} x & y \end{pmatrix} \underbrace{\begin{pmatrix} A & B \\ B & C \end{pmatrix}}_{M} \begin{pmatrix} x \\ y \end{pmatrix},

其中 $M$ 是一個实對称矩陣, 称為係數矩陣, $q$ 称為二次型.

几何上， $M$ 决定了曲線的開闭形态（椭圓型 / 雙曲線型 / 抛物線型）, 而線性項 $Dx+Ey$ 與常數項 $F$ 只会把曲線平移、旋转、缩放，不改變“本性”.

\paragraph{線性代換下的不變量}

设 $x = A y$ , 其中 $A$ 是任意可逆的 $2\times 2$ 矩陣，這相当于做了一個線性坐標變換（旋转、缩放、切變等的组合）. 则

q(x) = x^T M x = y^T (A^T M A) y.

這說明：

在新坐標中，二次項的係數矩陣變成 $M' = A^T M A$ ；
$\det(M') = \det(A^T)\det(M)\det(A) = \det(A)^2\det(M)$ ，因而符号不變.

所以， $\det(M)$ 的符号是一個几何不變量：不管你怎么選择坐標係（即怎么做線性代換），它都不会變号.

\paragraph{椭圓/雙曲線/抛物線判别}

记

M = \begin{pmatrix} A & B \\ B & C \end{pmatrix}, \delta = \det(M) = AC - B^2.

二次曲線分類准则

{/* label: thm:conic-class */} 對于二次曲線

Ax^2 + 2Bxy + Cy^2 + Dx + Ey + F = 0,

令 $\delta = AC - B^2$ .

若 $\delta \> 0$ : 曲線為椭圓型（包括圓、点或虚椭圓）；
若 $\delta \< 0$ : 曲線為雙曲線型（包括相交雙直線）；
若 $\delta = 0$ : 曲線為抛物線型（包括平行雙直線或重合直線）.

這是高中常见判别式 $B^2-AC$ 的矩陣版：因為

\delta = AC-B^2 = - (B^2-AC),

于是

\delta\>0 \Longleftrightarrow B^2-AC\<0, \delta\<0 \Longleftrightarrow B^2-AC\>0, \delta=0 \Longleftrightarrow B^2-AC=0,

與熟悉的“ $B^2-AC\<0$ 椭圓, $=0$ 抛物線, $\>0$ 雙曲線”完全一致，只是寫法不同而已.

為什么只看 $\det(M)$ 的符号就够了？ 如果用一点特征值（本書别处会係统讲），实對称矩陣 $M$ 可以正交對角化：

P^T M P = \begin{pmatrix} \lambda_1 & 0 \\ 0 & \lambda_2 \end{pmatrix},

其中 $P$ 是正交矩陣（一個旋转或旋转+镜像）, $\lambda_1,\lambda_2$ 是实特征值. 換變量

\begin{pmatrix} x \\ y \end{pmatrix} = P \begin{pmatrix} u \\ v \end{pmatrix},

二次項就變成

q(x,y) = \lambda_1 u^2 + \lambda_2 v^2.

此时

\delta = \det(M) = \lambda_1\lambda_2.

于是：

$\delta\>0 \Rightarrow \lambda_1,\lambda_2$ 同号： $u^2$ 、 $v^2$ 同号, 形如 $\alpha u^2+\beta v^2 + \cdots = 0$ ，為椭圓型；
$\delta\<0 \Rightarrow \lambda_1,\lambda_2$ 异号：形如 $u^2-v^2+\cdots = 0$ ，為雙曲線型；
$\delta=0 \Rightarrow$ 有一個特征值為 0：形如 $u^2+\cdots=0$ 或 $v^2+\cdots=0$ ，缺少一個二次方向，得到抛物線型.

這就是定理 [ref:thm:conic-class] 背后的“高观点”.

用行列式快速判别類型

判断曲線

x^2 + 4xy + y^2 = 1

的類型.

解

對應的係數矩陣為

M = \begin{pmatrix} 1 & 2 \\ 2 & 1 \end{pmatrix},

注意是 $2B=4$ , 所以 $B=2$ . 计算行列式：

\delta = \det(M) = 1\cdot 1 - 2\cdot 2 = -3 \< 0.

所以该曲線為雙曲線型.

如要验證，可配方：

x^2+4xy+y^2 = (x+2y)^2 - 3y^2 = 1,

令 $u=x+2y,\ v=\sqrt{3}\,y$ , 方程變為 $u^2-v^2=1$ ，是標准雙曲線.

椭圓型：消去 $xy$ 項

{/* label: ex:ellipse-rotate */} 判断并化簡曲線

3x^2 - 4xy + 3y^2 = 12.

解

先判别類型. 二次項矩陣為

M = \begin{pmatrix} 3 & -2 \\ -2 & 3 \end{pmatrix}, \delta = 3\cdot 3 - (-2)^2 = 9 - 4 = 5 \> 0,

故為椭圓型.

接下来用“旋转坐標係”消去 $xy$ 項. 線性代數語言就是：找一個正交矩陣 $R$ ，使得

M' = R^T M R

為對角矩陣. 一個自然的選择是 $45^\circ$ 旋转：

R = R_{\frac{\pi}{4}} = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & -1 1 & 1 \end{pmatrix}.

直接计算（可略去中間過程）得到

M' = R^T M R = \begin{pmatrix} 1 & 0 0 & 5 \end{pmatrix}.

令

\begin{pmatrix} x \\ y \end{pmatrix} = R \begin{pmatrix} u \\ v \end{pmatrix}, \text{即} \begin{cases} x = \dfrac{u-v}{\sqrt{2}},\\[4pt] y = \dfrac{u+v}{\sqrt{2}}. \end{cases}

代入原方程，二次部分變成

\begin{pmatrix} u & v \end{pmatrix} M' \begin{pmatrix} u \\ v \end{pmatrix} = u^2 + 5v^2,

故方程化為

u^2 + 5v^2 = 12.

這是一個以原点為中心、长短轴分别沿 $u$ 、 $v$ 轴的椭圓：

\frac{u^2}{12} + \frac{v^2}{12/5} = 1.

與传统“先求旋转角 $\theta$ 再代入”的做法本質相同, 只是用矩陣 $R$ 更為簡洁统一.

抛物線型：$\delta=0$

{/* label: ex:parabola */} 判断并化簡曲線

x^2 + 2xy + y^2 + 2x + 2y = 0.

解

二次項矩陣為

M = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}, \delta = 1\cdot 1 - 1\cdot 1 = 0,

故為抛物線型（或其退化形式）.

观察 $x^2+2xy+y^2=(x+y)^2$ ，方程化為

(x+y)^2 + 2(x+y) = 0.

令 $u=x+y$ ，则

u^2 + 2u = 0 \iff u(u+2)=0.

也就是說，原方程实际上是两条直線

x+y=0, x+y=-2

的并集，是抛物線型的一個退化情形（平行雙直線）.

這里“ $x+y$ ”作為新變量 $u$ ，本質上是做了一個線性代換

\begin{pmatrix} u \\ v \end{pmatrix} = P \begin{pmatrix} x \\ y \end{pmatrix}

的第一行，其中 $P$ 的第一行是 $(1,1)$ .

\paragraph{從“配方法”到“矩陣語言”}

中學里处理圓锥曲線，常用两大套路：

配方消去一次項，找到中心或顶点，如

x^2+4x+y^2-2y+1=0\ \Rightarrow\ (x+2)^2+(y-1)^2=4.

旋转坐標係消去 $xy$ 項, 用公式 $\tan2\theta=\dfrac{2B}{A-C}$ .

在矩陣视角下：

配方對應平移：對方程

x^T M x + b^T x + F = 0,

令 $x = z + x_0$ , 選取 $x_0$ 使得線性項消失（即 $2Mx_0 + b = 0$ ），就完成了“把中心移到原点”的操作；

旋转對應正交變換：選正交矩陣 $P$ , 令 $x = P y$ , 则二次項矩陣變為 $P^T M P$ , 可選 $P$ 使其對角化, 從而消去 $xy$ 項.

二者组合（先平移再旋转）就把任意圓锥曲線化成最熟悉的標准方程. 整個過程只是在對向量做線性代換，這就是“圓锥曲線的線性代數高观点”.

綜合：用矩陣思路整理一条椭圓

设曲線

4x^2 + y^2 - 4x - 2y - 2 = 0.

用“矩陣+線性代換”的語言，把它化成標准椭圓方程，并求椭圓中心與半轴长.

解

先看二次項矩陣

M = \begin{pmatrix} 4 & 0 \\ 0 & 1 \end{pmatrix}, \delta = 4\cdot 1 - 0 = 4\>0,

没有 $xy$ 項，且為椭圓型；因此无需旋转，只需平移（配方）即可.

原方程寫成

\begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 4 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} -4 & -2 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} -2 = 0,

即

4x^2 + y^2 -4x -2y -2 = 0.

對 $x$ 、 $y$ 各自配方：

4x^2 -4x = 4\Bigl(x^2 - x\Bigr) =4\Bigl[(x-\tfrac12)^2-\tfrac14\Bigr],

y^2 -2y = (y-1)^2 -1.

代回原式：

4\Bigl[(x-\tfrac12)^2-\tfrac14\Bigr] + (y-1)^2 -1 -2 = 0,

整理常數項：

4(x-\tfrac12)^2 + (y-1)^2 -1 -1 -2 = 0 \iff 4(x-\tfrac12)^2 + (y-1)^2 = 4.

两边同除以 4:

\frac{(x-\tfrac12)^2}{1} + \frac{(y-1)^2}{4} = 1.

這就是以 $C(\tfrac12,1)$ 為中心、横轴长 $2$ 、纵轴长 $4$ 的椭圓.

在線性代數語言里，平移

\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} \tfrac12 \\ 1 \end{pmatrix} + \begin{pmatrix} u \\ v \end{pmatrix}

就是把新坐標 $(u,v)$ 的原点移到椭圓中心, 然后方程在 $(u,v)$ 坐標下變為

4u^2 + v^2 = 4.

逆矩陣

在前几节中，我们将矩陣定義為線性變換的代數表达，将矩陣乘法定義為這些變換的複合. 一個自然的追問随之产生：如果矩陣 $A$ 将空間進行了某种變換, 是否存在另一個矩陣 $B$ ，能够将變換后的空間还原為初始状态？

這就引出了逆矩陣的概念. 在实數算术中，非零數 $a$ 存在倒數 $a^{-1}$ , 使得 $a \cdot a^{-1} = 1$ . 對于矩陣，我们寻求類似的结構，但必须时刻警惕零元素（零矩陣或零行列式）带来的奇异性.

變換的可逆性

考虑線性方程组 $Ax = b$ . 這里的 $A$ 是一個算子, 将输入向量 $x$ 映射為输出向量 $b$ . 如果我们要從 $b$ 反推 $x$ , 本質上是在寻找一個逆算子 $A^{-1}$ , 使得 $x = A^{-1}b$ .

若 $A$ 代表“逆时针旋转 $90^\circ$ ”, 那么 $A^{-1}$ 显然應当是“顺时针旋转 $90^\circ$ ”. 若 $A$ 代表“放大 2 倍”, $A^{-1}$ 则是“缩小 2 倍”. 然而, 如果 $A$ 是一個投影變換，例如将三維空間压扁到一個平面上，或者将所有点都映射到原点（零矩陣），這种變換显然丢失了信息，无法被完美複原.

逆矩陣

對于 $n$ 階方陣 $A$ , 如果存在 $n$ 階方陣 $B$ ，使得

AB = BA = I_n

其中 $I_n$ 是單位矩陣, 则称 $A$ 是可逆的 (Invertible) 或非奇异的 (Non-singular). 矩陣 $B$ 称為 $A$ 的逆矩陣, 记作 $A^{-1}$ .

注

定義中要求 $AB=BA$ 看似多余, 因為對于有限維方陣, 僅需 $AB=I$ 即可推出 $BA=I$ . 但這一性質并不平凡，它依赖于線性空間的維數理論. 在几何上，這意味着左逆（能够撤销變換的算子）必定也是右逆.

伴随矩陣與逆的構造

如何具體计算一個矩陣的逆？這需要建立矩陣元素與其行列式之間的联係. 回忆代數余子式的展開定理：

\sum_{k=1}^n a_{ik} A_{ik} = \det(A)

其中 $A_{ik}$ 是元素 $a_{ik}$ 對應的代數余子式. 如果我们将某以行的元素與另一行的代數余子式相乘，结果会如何？考虑

\sum_{k=1}^n a_{ik} A_{jk} (i \neq j)

這等价于计算一個新矩陣的行列式，该矩陣的第 $j$ 行被替換成了第 $i$ 行的複制品. 根据行列式性質，含有两行相同的行列式值為零. 总结上述两条规律，引入 Kronecker 记号 $\delta_{ij}$ ：

\sum_{k=1}^n a_{ik} A_{jk} = \delta_{ij} \det(A)

這提示我们，如果構造一個由代數余子式组成的矩陣，并将其转置，使得“行元素”與“行余子式”在乘法中能够對應相碰，便能構造出單位矩陣的倍數.

伴随矩陣

设 $A=(a_{ij})$ 為 $n$ 階方陣, 行列式 $|A|$ 的各個元素的代數余子式 $A_{ij}$ 所構成的矩陣的转置矩陣：

\text{adj}(A) = \begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1n} A_{21} & A_{22} & \cdots & A_{2n} \vdots & \vdots & \ddots & \vdots A_{n1} & A_{n2} & \cdots & A_{nn} \end{pmatrix}^T = \begin{pmatrix} A_{11} & A_{21} & \cdots & A_{n1} A_{12} & A_{22} & \cdots & A_{n2} \vdots & \vdots & \ddots & \vdots A_{1n} & A_{2n} & \cdots & A_{nn} \end{pmatrix}

称為矩陣 $A$ 的伴随矩陣.

利用上述的正交性關係，我们可以直接验證：

A \cdot \text{adj}(A) = \begin{pmatrix} \det(A) & 0 & \cdots & 0 \\ 0 & \det(A) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \det(A) \end{pmatrix} = \det(A) I

由此導出了逆矩陣存在的充要条件及显式公式.

逆矩陣公式

方陣 $A$ 可逆的充要条件是 $\det(A) \neq 0$ . 当此条件满足时，

A^{-1} = \frac{1}{\det(A)} \text{adj}(A)

這個定理深刻地连接了代數與几何：

几何上： $\det(A)=0$ 意味着變換将空間“压扁”了（例如體積變為 0）. 被压扁的維度丢失了信息，自然无法通過逆變換複原.
代數上： $\det(A)$ 出現在分母位置. 除數不能為零.

例

求二階矩陣 $A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$ 的逆矩陣.

解

首先计算行列式 $\det(A) = ad-bc$ . 计算代數余子式： $A_{11} = d, A_{12} = -c, A_{21} = -b, A_{22} = a$ . 構造伴随矩陣（注意位置的转置）：

\text{adj}(A) = \begin{pmatrix} d & -b \\ -c & a \end{pmatrix}

因此，若 $ad-bc \neq 0$ ，

A^{-1} = \frac{1}{ad-bc} \begin{pmatrix} d & -b \\ -c & a \end{pmatrix}

這是二階矩陣求逆的口诀：“主對调，副變号，除以行列式”.

克拉默法则

對于 $n$ 個未知數 $n$ 個方程的線性方程组 $Ax=b$ , 如果係數矩陣 $A$ 可逆, 我们可以直接寫出解的代數形式 $x = A^{-1}b$ . 将上一节的逆矩陣公式代入，可以得到一個僅僅依赖于行列式的显式解法.

法则陈述

克拉默法则

设線性方程组 $Ax=b$ 的係數行列式 $D = \det(A) \neq 0$ . 则方程组有唯一解, 且第 $j$ 個分量 $x_j$ 為：

x_j = \frac{D_j}{D} = \frac{\det(A_j)}{\det(A)}

其中 $D_j$ 是将矩陣 $A$ 的第 $j$ 列替換為常數項向量 $b$ 后得到的矩陣的行列式.

几何證明與直观

通常的教科書倾向于使用代數推導（利用伴随矩陣展開）来證明该法则. 這种方法虽然严谨，却掩蓋了克拉默法则优美的几何本質. 在這里，我们提供一個基于“體積變換”的几何證明.

考察方程 $Ax = b$ . 设 $A$ 的列向量為 $\alpha_1, \alpha_2, ..., \alpha_n$ . 方程实际上是說向量 $b$ 是列向量的線性组合：

x_1 \alpha_1 + x_2 \alpha_2 + \cdots + x_n \alpha_n = b

我们以二維情况為例. 係數行列式 $D = \det(\alpha_1, \alpha_2)$ 代表由 $\alpha_1, \alpha_2$ 構成的平行四边形的有向面積. 現在考虑 $D_1$ , 即把第一列 $\alpha_1$ 換成 $b$ ：

D_1 = \det(b, \alpha_2)

将 $b = x_1 \alpha_1 + x_2 \alpha_2$ 代入行列式中. 利用行列式的線性性質：

\begin{aligned} D_1 &= \det(x_1 \alpha_1 + x_2 \alpha_2, \; \alpha_2) &= x_1 \det(\alpha_1, \alpha_2) + x_2 \det(\alpha_2, \alpha_2) \end{aligned}

根据行列式性質，含有两列相同的行列式 $\det(\alpha_2, \alpha_2) = 0$ . 于是只剩下第一項：

D_1 = x_1 \det(\alpha_1, \alpha_2) = x_1 D

由此立即得到 $x_1 = \frac{D_1}{D}$ .

這個几何推導可以推廣到 $n$ 維. $D_j$ 实际上是将 $n$ 維平行六面體在第 $j$ 個方向上的边长拉伸了 $x_j$ 倍, 同时引入了其他方向的剪切（Shear）. 由于行列式對剪切變換是不變的（即 $\det(\alpha_i, \alpha_i)=0$ ）, 唯一改變體積的因素就是第 $j$ 個方向的伸缩係數 $x_j$ .

這就是克拉默法则的本質：分量 $x_j$ 是两個體積的比率.

矩陣的秩與線性相關性

在前文中，我们讨論了方陣的行列式. 当 $\det(A) \neq 0$ 时, 矩陣被称為非奇异的, 對應着“满秩”的情形；当 $\det(A) = 0$ 时，矩陣被称為奇异的. 然而，“奇异”二字掩蓋了太多的细节. 一個 $3 \times 3$ 的矩陣，如果是奇异的，它究竟是将三維空間压缩成了一個二維平面，还是一条一維直線，亦或是塌缩成了一個零維的点？僅凭行列式為零這一信息，我们无法区分這些情形. 為了精确描述矩陣所携带信息的維度，我们需要引入秩 (Rank) 的概念.

線性相關性

矩陣的列向量本質上是一组“生成元”，它们通過線性组合生成了像空間. 如果某些列向量可以由其他列向量線性表示，說明它们提供了冗余的信息.

線性相關與線性无關

设 $v_1, v_2, ..., v_k$ 為一组向量. 如果存在一组不全為零的標量 $c_1, c_2, ..., c_k$ ，使得

c_1 v_1 + c_2 v_2 + \cdots + c_k v_k = \mathbf{0}

则称這组向量是線性相關的. 反之，如果上述等式僅在 $c_1 = c_2 = \cdots = c_k = 0$ 时成立，则称這组向量是線性无關的.

注

線性相關的几何意義是“扁平化”. 两個線性相關的向量共線；三個線性相關的向量共面. 從數据的角度看，線性相關意味着“冗余”. 例如，在统计表中，如果“总分”列等于“語文”列加“數學”列，那么“总分”這一列就是線性相關的，它没有提供任何新的独立維度.

秩的定義與几何意義

對于一個 $m \times n$ 的矩陣 $A$ , 我们可以将其看作由 $n$ 個列向量组成, 也可以看作由 $m$ 個行向量组成.

秩

矩陣 $A$ 的列秩定義為其線性无關的列向量的極大數量. 矩陣 $A$ 的行秩定義為其線性无關的行向量的極大數量.

這里存在一個線性代數中令人惊叹的定理——秩定理. 尽管行向量属于 $\mathbb{R}^n$ , 列向量属于 $\mathbb{R}^m$ ，它们处于完全不同的空間，但它们的“有效維度”却是严格相等的.

秩定理

對于任意矩陣 $A$ ，其行秩等于列秩. 我们将其统称為矩陣 $A$ 的秩, 记作 $\text{rank}(A)$ 或 $r(A)$ .

秩最直观的解释是圖像的維度. 若 $A$ 是一個 $3 \times 3$ 矩陣, 它代表一個線性變換 $T: \mathbb{R}^3 \to \mathbb{R}^3$ .

$\text{rank}(A) = 3$ : 圖像充满了整個三維空間. 變換是可逆的，體積變換率（行列式）非零.
$\text{rank}(A) = 2$ : 整個三維空間被压缩到了一個二維平面上.
$\text{rank}(A) = 1$ : 整個三維空間被压缩到了一条直線上.
$\text{rank}(A) = 0$ : 整個空間被压缩到了原点（僅当 $A$ 為零矩陣）.

{/* latex-label: fig:rank-geometry */} \begin{figure}[htbp]

_1 \mid \mathbf{a}_2 \mid \mathbf{a}_3] $}{A=[a_1 | a_2 | a_3]}，则 \texorpdfstring{$ \operatorname{rank}(A) = \dim\bigl(\operatorname{span}{\mathbf{a}_1, \mathbf{a}_2, \mathbf{a}_3}\bigr)$}{rank(A) = dim(span{a_1, a_2, a_3})}. 虚線向量可由其他向量線性表出.}

\end{figure} 圖：矩陣秩的几何意義：设 \texorpdfstring{$A=[\mathbf{a

秩與行列式的關係可以概括為：對于 $n$ 階方陣 $A$ , $\text{rank}(A) = n \iff \det(A) \neq 0$ . 更一般地，矩陣的秩等于其最高階非零子式（即非零子行列式）的階數.

初等變換與高斯消元

定義了秩之后，我们面临的实际問題是：给定一個 $10 \times 10$ 的矩陣，如何计算它的秩？直接寻找“最大線性无關组”或计算所有子行列式显然是不切实际的. 我们需要一种手段，在簡化矩陣形式的同时，严格保持矩陣的秩（以及對應方程组的解集）不變. 這就是初等變換.

三种基本操作

考虑求解方程组时的操作：交換两個方程的位置、将一個方程乘以非零常數、将一個方程的倍數加到另一個方程上. 這些操作不会改變方程组的解. 對應到矩陣上，就是初等行變換.

初等行變換

矩陣 $A$ 的三种初等行變換為：

交換: 交換第 $i$ 行和第 $j$ 行的位置. 记作 $R_i \leftrightarrow R_j$ .
倍乘: 将第 $i$ 行乘以非零常數 $k$ . 记作 $R_i \leftarrow k R_i$ .
倍加: 将第 $j$ 行的 $k$ 倍加到第 $i$ 行上. 记作 $R_i \leftarrow R_i + k R_j$ .

同理可定義初等列變換.

\begin{proposition}[秩的不變性] 初等變換不改變矩陣的秩. 若矩陣 $A$ 經過初等變換得到 $B$ , 则称 $A$ 與 $B$ 等价, 记作 $A \sim B$ . \end{proposition}

這一命題之所以成立，是因為初等變換本質上只是對原来的行向量组做了一個可逆的線性组合. 向量组张成的空間（Row Space）没有變，空間的維度自然也不会變.

矩陣乘法视角的初等變換

初等變換不僅僅是操作规则，它们本身就是矩陣. 這是一個至關重要的代數视角：對矩陣 $A$ 做初等行變換, 等价于在 $A$ 的左侧乘以一個特定的“初等矩陣”.

初等矩陣

對單位矩陣 $I$ 施行一次初等變換所得到的矩陣，称為初等矩陣.

交換矩陣 $E_{ij}$ : 由 $I$ 交換第 $i, j$ 行得到.

I = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \xrightarrow{R_1 \leftrightarrow R_2} E_{12} = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}

倍乘矩陣 $E_{i}(k)$ : 由 $I$ 的第 $i$ 行乘 $k$ 得到.

I = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \xrightarrow{R_2 \times 3} E_{2}(3) = \begin{pmatrix} 1 & 0 \\ 0 & 3 \end{pmatrix}

倍加矩陣 $E_{ij}(k)$ : 由 $I$ 的第 $j$ 行的 $k$ 倍加到第 $i$ 行得到.

I = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \xrightarrow{R_2 + 2R_1} E_{21}(2) = \begin{pmatrix} 1 & 0 \\ 2 & 1 \end{pmatrix}

让我们验證一下倍加操作. 计算 $E_{21}(2) \cdot A$ ：

\begin{pmatrix} 1 & 0 \\ 2 & 1 \end{pmatrix} \begin{pmatrix} a & b \\ c & d \end{pmatrix} = \begin{pmatrix} 1\cdot a + 0\cdot c & 1\cdot b + 0\cdot d \\ 2\cdot a + 1\cdot c & 2\cdot b + 1\cdot d \end{pmatrix} = \begin{pmatrix} a & b \\ c+2a & d+2b \end{pmatrix}

结果恰好是将 $A$ 的第 1 行的 2 倍加到了第 2 行.

注

這是一個普遍规律：

行變換 $\iff$ 左乘初等矩陣.
列變換 $\iff$ 右乘初等矩陣.

這個性質将算法操作（消元）與代數结構（矩陣乘法）完美统一了起来.

階梯形矩陣與秩的计算

通過反複使用初等行變換，我们可以将任何矩陣化簡為一种標准形态，從而一眼看出其秩的大小. 這种形态称為行階梯形 (Row Echelon Form, REF).

行階梯形

一個矩陣处于行階梯形，如果：

所有的零行（元素全為 0 的行）都位于矩陣的底部.
每一非零行的第一個非零元素（称為主元, Pivot）位于上一行主元的右侧.

例如：

\begin{pmatrix} \mathbf{2} & 3 & 1 & 5 0 & \mathbf{1} & 4 & -2 0 & 0 & 0 & \mathbf{3} 0 & 0 & 0 & 0 \end{pmatrix}

是一個行階梯形矩陣. 其中加粗的元素 $\mathbf{2}, \mathbf{1}, \mathbf{3}$ 為主元.

定理

行階梯形矩陣的秩，等于其非零行的行數（也就是主元的個數）.

在上例中，非零行有 3 行，因此该矩陣的秩為 3.

求秩與化簡

求矩陣 $A = \begin{pmatrix} 1 & 2 & 1 \\ 2 & 4 & 0 \\ 3 & 6 & 1 \end{pmatrix}$ 的秩.

解

我们的目標是利用初等行變換“消去”下方的元素.

消除第一列 $R_1$ 下方的元素：

R_2 \leftarrow R_2 - 2R_1, R_3 \leftarrow R_3 - 3R_1

\begin{pmatrix} 1 & 2 & 1 \\ 2 & 4 & 0 \\ 3 & 6 & 1 \end{pmatrix} \sim \begin{pmatrix} 1 & 2 & 1 \\ 0 & 0 & -2 \\ 0 & 0 & -2 \end{pmatrix}

消除 $R_2$ 下方的元素：

R_3 \leftarrow R_3 - R_2

\sim \begin{pmatrix} 1 & 2 & 1 \\ 0 & 0 & -2 \\ 0 & 0 & 0 \end{pmatrix}

此时矩陣已达到階梯形. 非零行有 2 行（第一行和第二行）. 因此， $\text{rank}(A) = 2$ .

這也意味着，原矩陣的第 3 行可以由前两行線性表示（实际上 $R_3 = R_1 + R_2$ ），它没有提供新的信息.

解線性方程组的理論结構

利用秩的概念，我们终于可以完整地回答本章開头提出的關于線性方程组 $Ax=b$ 的所有疑問. 我们不再僅僅是“算”出一個解，而是能够洞察解的存在性與结構.

考虑方程组 $Ax=b$ , 其中 $A$ 為 $m \times n$ 矩陣. 構造增廣矩陣 (Augmented Matrix) $\bar{A} = (A | b)$ .

線性方程组解的判定定理

无解 $\iff r(A) \< r(\bar{A})$ . \ （意味着向量 $b$ 不在列向量张成的空間内, 引入 $b$ 增加了維度.）
有唯一解 $\iff r(A) = r(\bar{A}) = n$ （ $n$ 為未知數個數）. \ （意味着列向量線性无關，且 $b$ 在张成空間内，坐標唯一.）
有无穷多解 $\iff r(A) = r(\bar{A}) \< n$ . \ （意味着解存在，但列向量之間存在冗余，導致坐標表示不唯一. 自由度為 $n - r(A)$ .）

這個定理是線性代數的核心基石. 它告诉我们：求解方程组的本質，就是在比较“係數矩陣携带的信息量”與“包含常數項后所需的总信息量”. 当秩小于未知數個數时，多出的維度转化為了解空間的自由度，解集構成了一個仿射子空間.

注

尽管克拉默法则在理論上極其优美，揭示了解的解析结構，但在數值计算中，對于高階方程组（例如 $n \> 3$ ）, 计算 $n+1$ 個行列式的计算量远大于高斯消元法. 因此，它主要用于理論推導及低階矩陣的手算，而非大规模工程计算.

约束與自由度​

向量​

定義與表示​

几何解释與基本运算​

矩陣​

定義與记法​

矩陣的运算​

矩陣的乘法​

矩陣的基本性質​

矩陣的行列式​

行列式的几何應用​

行列式與多項式因式分解​

一、從行列式出發做因式分解​

二、從多項式出發構造行列式​

線性變換與几何應用​

線性變換的矩陣表示​

行列式的几何意義​

齐次坐標與平移​

二次曲線的矩陣分類​

逆矩陣​

變換的可逆性​

伴随矩陣與逆的構造​

克拉默法则​

法则陈述​

几何證明與直观​

矩陣的秩與線性相關性​

線性相關性​

秩的定義與几何意義​

初等變換與高斯消元​

三种基本操作​

矩陣乘法视角的初等變換​

階梯形矩陣與秩的计算​

解線性方程组的理論结構​

留言

约束與自由度

向量

定義與表示

几何解释與基本运算

矩陣

定義與记法

矩陣的运算

矩陣的乘法

矩陣的基本性質

矩陣的行列式

行列式的几何應用

行列式與多項式因式分解

一、從行列式出發做因式分解

二、從多項式出發構造行列式

線性變換與几何應用

線性變換的矩陣表示

行列式的几何意義

齐次坐標與平移

二次曲線的矩陣分類

逆矩陣

變換的可逆性

伴随矩陣與逆的構造

克拉默法则

法则陈述

几何證明與直观

矩陣的秩與線性相關性

線性相關性

秩的定義與几何意義

初等變換與高斯消元

三种基本操作

矩陣乘法视角的初等變換

階梯形矩陣與秩的计算

解線性方程组的理論结構