线性代数笔记（11）——投影、最小二乘法和正交化

wzf2000
2019年11月18日

线性代数笔记（11）——投影、最小二乘法和正交化

Contents

投影

直和

若 $W_1 \cap W_2 = \{\mathbf{0}\}$，则称 $W_1 + W_2$ 是“直和”。

点在直线上的投影

设 $\mathbf{b}_{n \times 1} \in \mathbb{R}^n$，求其在 $\mathbf{a}_{n \times 1} \not = \mathbf{0}$ 为方向的直线上的投影。

解：设投影 $\mathbf{p} = t \mathbf{a},t \in \mathbb{R}$，则：
$$
\mathbf{a}^T (\mathbf{b} - \mathbf{p}) = 0 \\
\Rightarrow \mathbf{a}^T \left(\mathbf{b} - t \mathbf{a}\right) = 0 \\
\Rightarrow t = \dfrac{\mathbf{a}^T \mathbf{b}}{\mathbf{a}^T \mathbf{a}} \\
\mathbf{p} = \left(\dfrac{\mathbf{a}^T \mathbf{b}}{\mathbf{a}^T \mathbf{a}}\right) \mathbf{a}
$$
又因为 $\left(\mathbf{a}^T \mathbf{b}\right) \mathbf{a} = \mathbf{a} \left(\mathbf{a}^T \mathbf{b}\right) = \left(\mathbf{a} \mathbf{a}^T\right) \mathbf{b}$，因此 $\mathbf{p} = \left(\dfrac{\mathbf{a} \mathbf{a}^T}{\mathbf{a}^T \mathbf{a}}\right) \mathbf{b}$

$S = \dfrac{\mathbf{a} \mathbf{a}^T}{\mathbf{a}^T \mathbf{a}}$ 就被称为一个投影矩阵。

可知：$S^T = S,S^2 = S$。

点在超平面（子空间）上的投影

设 $\mathbf{b}_{m \times 1} \in \mathbb{R}^m$，求其在超平面（子空间） $C(A)$ 上的投影（$A = (\alpha_1,\alpha_2,\cdots,\alpha_n),\alpha_i \in \mathbb{R}^m$）。

解：设投影为 $\mathbf{p} = A_{m \times n} \mathbf{\hat{x}}_{n \times 1}$，则：
$$
(\mathbf{b} - \mathbf{p}) \perp C(A) \\
\Rightarrow A^T(\mathbf{b} - \mathbf{p}) = \mathbf{0} \\
\Rightarrow A^T(\mathbf{b} - A \mathbf{\hat{x}}) = \mathbf{0} \\
\Rightarrow A^T A \mathbf{\hat{x}} = A^T \mathbf{b}
$$
最后的方程称为正规方程（normal equation）。

若 $A$ 列满秩，则 $A^T A$ 可逆，故 $\mathbf{\hat{x}} = (A^T A)^{-1} A^T \mathbf{b}$，投影 $\mathbf{p} = A_{m \times n} \mathbf{\hat{x}}_{n \times 1} = A (A^T A)^{-1} A^T \mathbf{b}$。

可以证明，此方程必定有解（$A^T \mathbf{b} \in C(A^T) = C(A^T A)$），且投影 $\mathbf{p}$ 唯一。

若 $A^T A \mathbf{\hat{x}}_1 = A^T A \mathbf{\hat{x}}_2 = A^T \mathbf{b}$，则 $(\mathbf{\hat{x}}_1 - \mathbf{\hat{x}}_2) \in N(A^T A) = N(A)$，故 $A(\mathbf{\hat{x}}_1 - \mathbf{\hat{x}}_2) = \mathbf{0}$，即 $A \mathbf{\hat{x}}_1 = A \mathbf{\hat{x}}_2 = \mathbf{p}$。

设 $P = A (A^T A)^{-1} A^T$ 为投影矩阵。

一般地，一个矩阵 $P$ 满足 $P^T = P,P^2 = P$，则称 $P$ 为投影矩阵。

定理：设 $P$ 是一个 $n$ 阶投影矩阵，则：
$$
C(P) = N(I - P),N(P) = C(I - P)
$$
证明：
$$
P^2 = 0 \Rightarrow P(I - P) = 0 \\
\Rightarrow C(I - P) \subseteq N(P) \\
\forall \alpha \in N(P),\alpha = \alpha - P \alpha = (I - P) \alpha \in C(I - P) \\
\Rightarrow N(P) \subseteq C(I - P)
$$

最小二乘法

定义

若 $A \mathbf{x} = \mathbf{b}$ 无解，找 $\mathbf{\hat{x}}$ 使当 $\mathbf{x} = \mathbf{\hat{x}}$ 时，$\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小，此时 $\mathbf{\hat{x}}$ 称为方程的最小二乘解。

$\Rightarrow A^TA \mathbf{\hat{x}} = A^T \mathbf{b}$ 称为正规方程组。

当 $A$ 列满秩时，$\mathbf{\hat{x}} = (A^TA)^{-1} A^T \mathbf{b}$。

称 $\mathbf{e} = \mathbf{b} - A \mathbf{\hat{x}}$ 称为误差向量。

性质

正规方程组 $A^TA \mathbf{\hat{x}} = A^T \mathbf{b}$ 总有解（无论 $A$ 是否列满秩），因为 $C(A^T) = C(A^TA),A^T \mathbf{b} \in C(A^T) = C(A^TA)$。
正规方程组的解可能有无穷多，但投影 $\mathbf{p} = A \mathbf{\hat{x}}$ 唯一。（证明见上）

应用：曲线拟合

设给定数据 $\{(x_1,y_1),\cdots,(x_N,y_N)\}$。

设定直线 $y = C + Dx$，使得误差 $E(C,D) = [y_1 - (C + Dx_1)]^2 + \cdots + [y_N - (C + Dx_N)]^2$ 最小。

设：
$$
A = \begin{pmatrix}
1 & x_1 \\
\vdots & \vdots \\
1 & x_N
\end{pmatrix},
\mathbf{b} = \begin{pmatrix}
y_1 \\
\vdots \\
y_N
\end{pmatrix},
\mathbf{\hat{x}} = \begin{pmatrix}
\hat{C} \\
\hat{D}
\end{pmatrix}
$$
即求 $\mathbf{\hat{x}}$ 使得 $\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小。

同理设定 $n$ 次曲线 $y = a_0 + a_1 x + \cdots +a_n x^n$，使得误差 $E(a_0,a_1,\cdots,a_n) = [y_1 - (a_0 + a_1 x_1 + \cdots + a_n x_1^n)]^2 + \cdots + [y_N - (a_0 + a_1 x_N + \cdots a_n x_N^n)]^2$ 最小。

令：
$$
A = \begin{pmatrix}
1 & x_1 & \cdots & x_1^n\\
\vdots & \vdots & \ddots & \vdots \\
1 & x_N & \cdots & x_N^n
\end{pmatrix},
\mathbf{b} = \begin{pmatrix}
y_1 \\
\vdots \\
y_N
\end{pmatrix},
\mathbf{\hat{x}} = \begin{pmatrix}
\hat{a_0} \\
\vdots \\
\hat{a_n}
\end{pmatrix}
$$
即求 $\mathbf{\hat{x}}$ 使得 $\parallel \mathbf{b} - A \mathbf{x} \parallel$ 最小。

也可以从多元微积分的偏导均为 $0$ 得出正规方程组。

Gram-Schmidt 正交化

目标

给定 $V \subseteq \mathbb{R}^n$ 为一个子空间，$\mathbf{v}_1,\cdots,\mathbf{v_k}$ 是 $V$ 的一组基，把它们化成一组正交的向量 $\mathbf{w}_1,\cdots,\mathbf{w_k}$ 满足：

$\mathbf{w}_i^T \mathbf{w}_j = 0,i \not = j$
$L(\mathbf{v}_1,\cdots,\mathbf{v}_t) = \mathrm{span} (\mathbf{v}_1,\cdots,\mathbf{v}_t) = L(\mathbf{w}_1,\cdots,\mathbf{w}_t) = \mathrm{span} (\mathbf{w}_1,\cdots,\mathbf{w}_t),1 \le t \le k$

算法

$$
\mathbf{w}_1 = \mathbf{v}_1 \\
\mathbf{w}_2 = \mathbf{v}_2 - \dfrac{\mathbf{w}_1^T \mathbf{v}_2}{\mathbf{w}_1^T\mathbf{w}_1} \mathbf{w}_1 \\
\vdots \\
\mathbf{w}_k = \mathbf{v}_k - \sum_{j=1}^{k - 1}\dfrac{\mathbf{w}_j^T \mathbf{v}_k}{\mathbf{w}_j^T \mathbf{w}_j} \mathbf{w}_j
$$

最后长度化为 $1$ （单位化）即为标准正交基。

正交向量和正交矩阵

定理 1：设 $\mathbf{v}_1,\cdots,\mathbf{v}_k \in \mathbb{R}^n$ 是非零的 $k$ 个向量，满足 $\mathbf{v}_i^T \mathbf{v}_j = 0,i \not = j$，则 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 线性无关。

证明：设数 $a_1,\cdots,a_k \in \mathbb{R}$ 使得 $a_1 \mathbf{v}_1 + \cdots + a_k \mathbf{v}_k = \mathbf{0}$，有 $\mathbf{v}_1^T(a_1 \mathbf{v}_1 + \cdots + a_k \mathbf{v}_k) = \mathbf{v}_1^T \cdot \mathbf{0} = 0$，则 $a_1 \mathbf{v}_1^T \mathbf{v}_1 + \cdots + a_k \mathbf{v}_1^T \mathbf{v}_k = 0$。

由条件，可得 $a_1 \mathbf{v}_1^T \mathbf{v}_1 = a_1 \| \mathbf{v}_1 \| ^2 = 0$，又因为 $\mathbf{v}_1 \not = \mathbf{0}$，故 $a_1 = 0$。

同理 $a_i = 0,i = 2,3,\cdots,k$。

故 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 线性无关。

定理中 $\mathbf{v}_1,\cdots,\mathbf{v}_k$ 称为正交向量组。

定义：

设 $\mathbf{q}_1,\cdots,\mathbf{q}_n$ 是 $n$ 个列向量，它们是标准正交的，当且仅当：

$$
\mathbf{q}_i^T \mathbf{q}_j =
\left\{
\begin{array}{lc}
0 & i \not = j, \\
1 & i = j
\end{array}
\right.
,\forall i,j = 1,\cdots,n.
$$

令 $Q = (\mathbf{q}_1,\cdots,\mathbf{q}_n)$，则 $Q^T Q = I_n$。

设 $Q$ 是一个（实数域）方阵，若 $Q^T Q = I(Q^{-1} = Q^T)$，则称 $Q$ 是正交矩阵。
若 $\mathbf{u} \in \mathbb{R}^n,\mathbf{u}^T \mathbf{u} = 1$，令 $Q = I_n - 2 \mathbf{u} \mathbf{u}^T$ 称为一个反射矩阵。

定理 2：设 $Q$ 是一个 $n$ 阶正交阵，则 $\forall \mathbf{x} \in \mathbb{R}^n,\| Q \mathbf{x} \| = \| x \|$。

Gram-Schmidt 正交化过程

定理：若 $\alpha_1,\cdots,\alpha_k$ 非零且相互正交，$\mathbf{v} \in L(\alpha_1,\cdots,\alpha_k)$，则：
$$
\mathbf{v} = \dfrac{\alpha_1^T \mathbf{v}}{\alpha_1^T \alpha_1} \alpha_1 + \cdots + \dfrac{\alpha_k^T \mathbf{v}}{\alpha_k^T \alpha_k} \alpha_k
$$
注：特别地，若 $\alpha_1,\cdots,\alpha_k$ 标准正交，$\mathbf{v} \in L(\alpha_1,\cdots,\alpha_k)$，则：
$$
\mathbf{v} = (\alpha_1^T \mathbf{v}) \alpha_1 + \cdots + (\alpha_k^T \mathbf{v}) \alpha_k
$$
令 $\mathbf{q}_i = \dfrac{\mathbf{w}_i}{\| \mathbf{w}_i \|}$，则正交化过程可改写为：
$$
\mathbf{w}_1 = \mathbf{v}_1,\mathbf{q}_1 = \dfrac{\mathbf{w}_1}{\| \mathbf{w}_1 \|} \\
\mathbf{w}_2 = \mathbf{v}_2 - (\mathbf{q}_1^T \mathbf{v}_2) \mathbf{q}_1,\mathbf{q}_2 = \dfrac{\mathbf{w}_2}{\| \mathbf{w}_2 \|} \\
\vdots \\
\mathbf{w}_k = \mathbf{v}_k - \sum_{j=1}^{k - 1}(\mathbf{q}_j^T \mathbf{v}_k) \mathbf{q}_j,\mathbf{q}_k = \dfrac{\mathbf{w}_k}{\| \mathbf{w}_k \|}
$$

$QR$ 分解

可以发现，任意 $n$ 阶可逆方阵 $A$，可以被分解为 $A = QR$，其中 $Q$ 为 $n$ 阶正交阵，且：
$$
R = \begin{pmatrix}
\| \mathbf{w}_1 \| & * & \cdots & * \\
0 & \| \mathbf{w}_2 \| & \cdots & * \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \| \mathbf{w}_n \|
\end{pmatrix}
$$
对于 $m \times n$ 阶列满秩矩阵 $A$，也可类似分解，此时 $Q$ 也不是方阵，其列向量相互正交。

定理：设 $A$ 是可逆方阵，则 $A = QR$ 分解唯一。（其中 $Q$ 是正交阵，$R$ 是对角元为正数的上三角阵）

证明：设 $A = Q_1R_1 = Q_2R_2$，其中 $Q_1,Q_2,R_1,R_2$ 分别满足条件。

则 $Q_2^T Q_1 = R_2 R_1^{-1}$，$R_2 R_1^{-1}$ 为对角元为正数的上三角阵，$Q_2^T Q_1$ 是正交阵，故为单位阵，则 $R_2 = R_1,Q_2 = Q_1$。

线性代数笔记（11）——投影、最小二乘法和正交化

线性代数笔记（11）——投影、最小二乘法和正交化

投影

直和

点在直线上的投影

点在超平面（子空间）上的投影

最小二乘法

定义

性质

应用：曲线拟合

Gram-Schmidt 正交化

目标

算法

正交向量和正交矩阵

Gram-Schmidt 正交化过程

$QR$ 分解

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

扫描二维码加入交流

购买积分

线性代数笔记（11）——投影、最小二乘法和正交化

线性代数笔记（11）——投影、最小二乘法和正交化

投影

直和

点在直线上的投影

点在超平面（子空间）上的投影

最小二乘法

定义

性质

应用：曲线拟合

Gram-Schmidt 正交化

目标

算法

正交向量和正交矩阵

Gram-Schmidt 正交化过程

$QR$ 分解

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

标签

扫描二维码加入交流

购买积分