线性代数笔记(11)——投影、最小二乘法和正交化
Contents
投影
直和
若 $W_1 \cap W_2 = \{\mathbf{0}\}$,则称 $W_1 + W_2$ 是“直和”。
点在直线上的投影
设 $\mathbf{b}_{n \times 1} \in \mathbb{R}^n$,求其在 $\mathbf{a}_{n \times 1} \not = \mathbf{0}$ 为方向的直线上的投影。
解:设投影 $\mathbf{p} = t \mathbf{a},t \in \mathbb{R}$,则:
$$
\mathbf{a}^T (\mathbf{b} - \mathbf{p}) = 0 \\
\Rightarrow \mathbf{a}^T \left(\mathbf{b} - t \mathbf{a}\right) = 0 \\
\Rightarrow t = \dfrac{\mathbf{a}^T \mathbf{b}}{\mathbf{a}^T \mathbf{a}} \\
\mathbf{p} = \left(\dfrac{\mathbf{a}^T \mathbf{b}}{\mathbf{a}^T \mathbf{a}}\right) \mathbf{a}
$$
又因为 $\left(\mathbf{a}^T \mathbf{b}\right) \mathbf{a} = \mathbf{a} \left(\mathbf{a}^T \mathbf{b}\right) = \left(\mathbf{a} \mathbf{a}^T\right) \mathbf{b}$,因此 $\mathbf{p} = \left(\dfrac{\mathbf{a} \mathbf{a}^T}{\mathbf{a}^T \mathbf{a}}\right) \mathbf{b}$
$S = \dfrac{\mathbf{a} \mathbf{a}^T}{\mathbf{a}^T \mathbf{a}}$ 就被称为一个投影矩阵。
可知:$S^T = S,S^2 = S$。
点在超平面(子空间)上的投影
设 $\mathbf{b}_{m \times 1} \in \mathbb{R}^m$,求其在超平面(子空间) $C(A)$ 上的投影($A = (\alpha_1,\alpha_2,\cdots,\alpha_n),\alpha_i \in \mathbb{R}^m$)。
解:设投影为 $\mathbf{p} = A_{m \times n} \mathbf{\hat{x}}_{n \times 1}$,则:
$$
(\mathbf{b} - \mathbf{p}) \perp C(A) \\
\Rightarrow A^T(\mathbf{b} - \mathbf{p}) = \mathbf{0} \\
\Rightarrow A^T(\mathbf{b} - A \mathbf{\hat{x}}) = \mathbf{0} \\
\Rightarrow A^T A \mathbf{\hat{x}} = A^T \mathbf{b}
$$
最后的方程称为正规方程(normal equation)。
若 $A$ 列满秩,则 $A^T A$ 可逆,故 $\mathbf{\hat{x}} = (A^T A)^{-1} A^T \mathbf{b}$,投影 $\mathbf{p} = A_{m \times n} \mathbf{\hat{x}}_{n \times 1} = A (A^T A)^{-1} A^T \mathbf{b}$。
可以证明,此方程必定有解($A^T \mathbf{b} \in C(A^T) = C(A^T A)$),且投影 $\mathbf{p}$ 唯一。
若 $A^T A \mathbf{\hat{x}}_1 = A^T A \mathbf{\hat{x}}_2 = A^T \mathbf{b}$,则 $(\mathbf{\hat{x}}_1 - \mathbf{\hat{x}}_2) \in N(A^T A) = N(A)$,故 $A(\mathbf{\hat{x}}_1 - \mathbf{\hat{x}}_2) = \mathbf{0}$,即 $A \mathbf{\hat{x}}_1 = A \mathbf{\hat{x}}_2 = \mathbf{p}$。
设 $P = A (A^T A)^{-1} A^T$ 为投影矩阵。
一般地,一个矩阵 $P$ 满足 $P^T = P,P^2 = P$,则称 $P$ 为投影矩阵。
定理:设 $P$ 是一个 $n$ 阶投影矩阵,则:
$$
C(P) = N(I - P),N(P) = C(I - P)
$$
证明:
$$
P^2 = 0 \Rightarrow P(I - P) = 0 \\
\Rightarrow C(I - P) \subseteq N(P) \\
\forall \alpha \in N(P),\alpha = \alpha - P \alpha = (I - P) \alpha \in C(I - P) \\
\Rightarrow N(P) \subseteq C(I - P)
$$
最小二乘法
定义
若 $A \mathbf{x} = \mathbf{b}$ 无解,找 $\mathbf{\hat{x}}$ 使当 $\mathbf{x} = \mathbf{\hat{x}}$ 时,$\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小,此时 $\mathbf{\hat{x}}$ 称为方程的最小二乘解。
$\Rightarrow A^TA \mathbf{\hat{x}} = A^T \mathbf{b}$ 称为正规方程组。
当 $A$ 列满秩时,$\mathbf{\hat{x}} = (A^TA)^{-1} A^T \mathbf{b}$。
称 $\mathbf{e} = \mathbf{b} - A \mathbf{\hat{x}}$ 称为误差向量。
性质
- 正规方程组 $A^TA \mathbf{\hat{x}} = A^T \mathbf{b}$ 总有解(无论 $A$ 是否列满秩),因为 $C(A^T) = C(A^TA),A^T \mathbf{b} \in C(A^T) = C(A^TA)$。
- 正规方程组的解可能有无穷多,但投影 $\mathbf{p} = A \mathbf{\hat{x}}$ 唯一。(证明见上)
应用:曲线拟合
设给定数据 $\{(x_1,y_1),\cdots,(x_N,y_N)\}$。
设定直线 $y = C + Dx$,使得误差 $E(C,D) = [y_1 - (C + Dx_1)]^2 + \cdots + [y_N - (C + Dx_N)]^2$ 最小。
设:
$$
A = \begin{pmatrix}
1 & x_1 \\
\vdots & \vdots \\
1 & x_N
\end{pmatrix},
\mathbf{b} = \begin{pmatrix}
y_1 \\
\vdots \\
y_N
\end{pmatrix},
\mathbf{\hat{x}} = \begin{pmatrix}
\hat{C} \\
\hat{D}
\end{pmatrix}
$$
即求 $\mathbf{\hat{x}}$ 使得 $\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小。
同理设定 $n$ 次曲线 $y = a_0 + a_1 x + \cdots +a_n x^n$,使得误差 $E(a_0,a_1,\cdots,a_n) = [y_1 - (a_0 + a_1 x_1 + \cdots + a_n x_1^n)]^2 + \cdots + [y_N - (a_0 + a_1 x_N + \cdots a_n x_N^n)]^2$ 最小。
令:
$$
A = \begin{pmatrix}
1 & x_1 & \cdots & x_1^n\\
\vdots & \vdots & \ddots & \vdots \\
1 & x_N & \cdots & x_N^n
\end{pmatrix},
\mathbf{b} = \begin{pmatrix}
y_1 \\
\vdots \\
y_N
\end{pmatrix},
\mathbf{\hat{x}} = \begin{pmatrix}
\hat{a_0} \\
\vdots \\
\hat{a_n}
\end{pmatrix}
$$
即求 $\mathbf{\hat{x}}$ 使得 $\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小。
也可以从多元微积分的偏导均为 $0$ 得出正规方程组。
Gram-Schmidt 正交化
目标
给定 $V \subseteq \mathbb{R}^n$ 为一个子空间,$\mathbf{v}_1,\cdots,\mathbf{v_k}$ 是 $V$ 的一组基,把它们化成一组正交的向量 $\mathbf{w}_1,\cdots,\mathbf{w_k}$ 满足:
- $\mathbf{w}_i^T \mathbf{w}_j = 0,i \not = j$
- $L(\mathbf{v}_1,\cdots,\mathbf{v}_t) = \mathrm{span} (\mathbf{v}_1,\cdots,\mathbf{v}_t) = L(\mathbf{w}_1,\cdots,\mathbf{w}_t) = \mathrm{span} (\mathbf{w}_1,\cdots,\mathbf{w}_t),1 \le t \le k$
算法
$$
\mathbf{w}_1 = \mathbf{v}_1 \\
\mathbf{w}_2 = \mathbf{v}_2 - \dfrac{\mathbf{w}_1^T \mathbf{v}_2}{\mathbf{w}_1^T\mathbf{w}_1} \mathbf{w}_1 \\
\vdots \\
\mathbf{w}_k = \mathbf{v}_k - \sum_{j=1}^{k - 1}\dfrac{\mathbf{w}_j^T \mathbf{v}_k}{\mathbf{w}_j^T \mathbf{w}_j} \mathbf{w}_j
$$
最后长度化为 $1$ (单位化)即为标准正交基。
正交向量和正交矩阵
定理 1:设 $\mathbf{v}_1,\cdots,\mathbf{v}_k \in \mathbb{R}^n$ 是非零的 $k$ 个向量,满足 $\mathbf{v}_i^T \mathbf{v}_j = 0,i \not = j$,则 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 线性无关。
证明:设数 $a_1,\cdots,a_k \in \mathbb{R}$ 使得 $a_1 \mathbf{v}_1 + \cdots + a_k \mathbf{v}_k = \mathbf{0}$,有 $\mathbf{v}_1^T(a_1 \mathbf{v}_1 + \cdots + a_k \mathbf{v}_k) = \mathbf{v}_1^T \cdot \mathbf{0} = 0$,则 $a_1 \mathbf{v}_1^T \mathbf{v}_1 + \cdots + a_k \mathbf{v}_1^T \mathbf{v}_k = 0$。
由条件,可得 $a_1 \mathbf{v}_1^T \mathbf{v}_1 = a_1 \| \mathbf{v}_1 \| ^2 = 0$,又因为 $\mathbf{v}_1 \not = \mathbf{0}$,故 $a_1 = 0$。
同理 $a_i = 0,i = 2,3,\cdots,k$。
故 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 线性无关。
定理中 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 称为正交向量组。
定义:
- 设 $\mathbf{q}_1,\cdots,\mathbf{q}_n$ 是 $n$ 个列向量,它们是标准正交的,当且仅当:
$$
\mathbf{q}_i^T \mathbf{q}_j =
\left\{
\begin{array}{lc}
0 & i \not = j, \\
1 & i = j
\end{array}
\right.
,\forall i,j = 1,\cdots,n.
$$
令 $Q = (\mathbf{q}_1,\cdots,\mathbf{q}_n)$,则 $Q^T Q = I_n$。
- 设 $Q$ 是一个(实数域)方阵,若 $Q^T Q = I(Q^{-1} = Q^T)$,则称 $Q$ 是正交矩阵。
若 $\mathbf{u} \in \mathbb{R}^n,\mathbf{u}^T \mathbf{u} = 1$, 令 $Q = I_n - 2 \mathbf{u} \mathbf{u}^T$ 称为一个反射矩阵。
定理 2:设 $Q$ 是一个 $n$ 阶正交阵,则 $\forall \mathbf{x} \in \mathbb{R}^n,\| Q \mathbf{x} \| = \| x \|$。
Gram-Schmidt 正交化过程
定理:若 $\alpha_1,\cdots,\alpha_k$ 非零且相互正交,$\mathbf{v} \in L(\alpha_1,\cdots,\alpha_k)$,则:
$$
\mathbf{v} = \dfrac{\alpha_1^T \mathbf{v}}{\alpha_1^T \alpha_1} \alpha_1 + \cdots + \dfrac{\alpha_k^T \mathbf{v}}{\alpha_k^T \alpha_k} \alpha_k
$$
注:特别地,若 $\alpha_1,\cdots,\alpha_k$ 标准正交,$\mathbf{v} \in L(\alpha_1,\cdots,\alpha_k)$,则:
$$
\mathbf{v} = (\alpha_1^T \mathbf{v}) \alpha_1 + \cdots + (\alpha_k^T \mathbf{v}) \alpha_k
$$
令 $\mathbf{q}_i = \dfrac{\mathbf{w}_i}{\| \mathbf{w}_i \|}$,则正交化过程可改写为:
$$
\mathbf{w}_1 = \mathbf{v}_1,\mathbf{q}_1 = \dfrac{\mathbf{w}_1}{\| \mathbf{w}_1 \|} \\
\mathbf{w}_2 = \mathbf{v}_2 - (\mathbf{q}_1^T \mathbf{v}_2) \mathbf{q}_1,\mathbf{q}_2 = \dfrac{\mathbf{w}_2}{\| \mathbf{w}_2 \|} \\
\vdots \\
\mathbf{w}_k = \mathbf{v}_k - \sum_{j=1}^{k - 1}(\mathbf{q}_j^T \mathbf{v}_k) \mathbf{q}_j,\mathbf{q}_k = \dfrac{\mathbf{w}_k}{\| \mathbf{w}_k \|}
$$
$QR$ 分解
可以发现,任意 $n$ 阶可逆方阵 $A$,可以被分解为 $A = QR$,其中 $Q$ 为 $n$ 阶正交阵,且:
$$
R = \begin{pmatrix}
\| \mathbf{w}_1 \| & * & \cdots & * \\
0 & \| \mathbf{w}_2 \| & \cdots & * \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \| \mathbf{w}_n \|
\end{pmatrix}
$$
对于 $m \times n$ 阶列满秩矩阵 $A$,也可类似分解,此时 $Q$ 也不是方阵,其列向量相互正交。
定理:设 $A$ 是可逆方阵,则 $A = QR$ 分解唯一。(其中 $Q$ 是正交阵,$R$ 是对角元为正数的上三角阵)
证明:设 $A = Q_1R_1 = Q_2R_2$,其中 $Q_1,Q_2,R_1,R_2$ 分别满足条件。
则 $Q_2^T Q_1 = R_2 R_1^{-1}$,$R_2 R_1^{-1}$ 为对角元为正数的上三角阵,$Q_2^T Q_1$ 是正交阵,故为单位阵,则 $R_2 = R_1,Q_2 = Q_1$。
No Comments