线性代数笔记(16)——正定矩阵、二次型和奇异值分解

线性代数笔记(16)——正定矩阵、二次型和奇异值分解

Contents

正定矩阵

一些性质

如果 $A$ 正定,$A^2,A^{-1}$ 正定。

如果 $A$ 正定,$C$ 可逆,则 $B = C^{-1} A C$ 正定。

如果 $A$ 正定,存在 $C$ 使得 $A = C^2$。

半正定矩阵

$n$ 阶实对称阵,若 $A$ 的特征值均大于 $0$,则称 $A$ 是半正定矩阵

半正定判别条件

  1. $A$ 的所有特征值非负。
  2. $\mathbf{x}^T A \mathbf{x} \ge 0$ 对所有实向量 $\mathbf{x}$ 成立。
  3. 存在矩阵 $R$ 使得 $A = R^T R$。($R$ 可能是不可逆阵)
  4. $A$ 的所有主子式均非负。

二次型

二次型

对 $n$ 维实向量 $\mathbf{x} \in \mathbb{R}^n$ 及 $n$ 阶实对称阵,$f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$ 称为二次型

复数域上变为共轭转置即可。

对角形

若 $n$ 阶矩阵 $D$ 为对角阵,则称二次型 $f(\mathbf{x}) = \mathbf{x}^T D \mathbf{x}$ 为对角形的。

任何实二次型总可以经坐标变换 $\mathbf{x} = Q \mathbf{y}$ 变为对角形。

主轴定理

设 $A$ 是一个 $n$ 阶实对称矩阵,则存在正交变量代换 $\mathbf{x} = Q \mathbf{y}$,使得二次型:
$$
\mathbf{x}^T A \mathbf{x} = \mathbf{y}^T \Lambda \mathbf{y} = \sum_{i = 1}^n \lambda_i y_i^2
$$
变为对角形的二次型,其中 $Q^T A Q = \Lambda = diag(\lambda_1,\cdots,\lambda_n),\lambda_1,\cdots,\lambda_n$ 为 $A$ 的所有特征值。

推论:若 $A$ 为 $n$ 阶对称阵,则 $\mathbf{x}^T A \mathbf{x} = 1$ 表示的图形为椭球面,半轴长相应为为 $\dfrac{1}{\sqrt{\lambda_i}}$,$\lambda_i$ 为其特征值。

平面上的有心二次曲线都可取到适当的直角坐标系,使其方程化为

标准形式:
$$
\lambda_1 y_1^2 + \lambda_2 y_2^2 = 1
$$

二次型的分类

一个二次型 $f(x) = \mathbf{x}^T A \mathbf{x}$:

  1. 正定的,若对所有 $\mathbf{x} \not = 0$,有 $f(\mathbf{x}) > 0$;
  2. 负定的,若对所有 $\mathbf{x} \not = 0$,有 $f(\mathbf{x}) < 0$;
  3. 不定的,若 $f(\mathbf{x})$ 既有正值,又有负值;
  4. 半正定的,若对所有 $\mathbf{x}$,有 $f(\mathbf{x}) \ge 0$;
  5. 半负定的,若对所有 $\mathbf{x}$,有 $f(\mathbf{x}) \le 0$。

定理:设 $A$ 为 $n$ 阶实对称阵,则二次型 $f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$ 是:

  1. 正定的 $\Leftrightarrow A$ 的所有特征值都是正数;
  2. 负定的 $\Leftrightarrow A$ 的所有特征值都是负数;
  3. 不定的 $\Leftrightarrow A$ 既有正特征值,又有负特征值。

矩阵的合同

设 $C$ 是一个 $n$ 阶非退化矩阵,则 $\mathbf{x} = C \mathbf{y}$ 称为变量 $\mathbf{x} = (x_1,\cdots,x_n)$ 到 $\mathbf{y} = (y_1,\cdots,y_n)$ 的非退化变量代换

二次型 $f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$(其中 $A$ 为 $n$ 阶对称阵)经可逆变量代换 $\mathbf{x} = C \mathbf{y}$ 变为:
$$
\mathbf{x}^T A \mathbf{x} = (C \mathbf{y})^T A (C \mathbf{y}) = \mathbf{y}^T (C^T A C) \mathbf{y}
$$
记 $B = C^TAC$,则 $\mathbf{y}^T B \mathbf{y}$ 是关于 $\mathbf{y}$ 的一个二次型,其矩阵为对称矩阵 $B$。

定义:两个 $n$ 阶矩阵 $A,B$,若存在 $n$ 阶可逆矩阵 $C$,使得:
$$
C^T A C = B
$$
则称矩阵 $A$ 与 $B$ 合同,记为 $A \overset{\sim}{=} B$。

(此关系为等价关系)

主轴定理可表述为:任何实对称矩阵都正交合同于对角阵。

规范形与惯性定理

形如 $z_1^2 + \cdots + z_p^2 - z_{p + 1}^2 - \cdots - z_r^2$ 的二次型称为实二次型的规范形

惯性定理:任意一个实二次型,总可经过一个适当的可逆线性替换,化成规范形,规范形是惟一的。

实二次型的规范形中,参数 $p$ 和 $r$ 是由二次型唯一确定的。

称 $p$ 为实二次型的正惯性指数,$r - p$ 为实二次型的负惯性指数

$p - (r - p) = 2p - r$ 称为符号差

证明:唯一性:

设实二次型 $Q(\alpha)$,作可逆线性替换 $\mathbf{X} = P\mathbf{Z}$,化成规范形。
$$
Q(\alpha) = z_1^2 + \cdots + z_p^2 - z_{p + 1}^2 - \cdots - z_r^2 \\
\mathbf{X} = (x_1,x_2,\cdots,x_n),\mathbf{Z} = (z_1,z_2,\cdots,z_n)
$$
作另一可逆线性替换 $\mathbf{X} = T \mathbf{U}$,化成规范形(其中 $\mathbf{U} = (u_1,u_2,\cdots,u_n)$)
$$
Q(\alpha) = u_1 + \cdots + u_q^2 - u_{q + 1}^2 - \cdots - u_r^2
$$
假设 $p < q$。由 $\mathbf{Z} = P^{-1} \mathbf{X},\mathbf{U} = T^{-1} \mathbf{X}$,设: $$ z_i = a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{in} x_n \\ u_i = b_{i1} x_1 + b_{i2} x_2 + \cdots + b_{in} x_n $$ 考虑: $$ \left\{ \begin{array}{c} a_{11} x_1 + a_{12} x_2 + \cdots + a_{1n} x_n = 0 \\ \vdots \\ a_{p1} x_1 + a_{p2} x_2 + \cdots + a_{pn} x_n = 0 \\ b_{q + 11} x_1 + b_{q + 12} x_2 + \cdots + b_{q + 1n} x_n = 0 \\ \vdots \\ b_{n1} x_1 + b_{n2} x_2 + \cdots + b_{nn} x_n = 0 \end{array} \right. $$ 由 $p < q$,得 $p + n - q < n$。设方程组有非零解: $$ \alpha_0 = (x_1^{(0)},x_2^{(0)},\cdots,x_n^{(0)}) $$ 取 $\mathbf{X} = \alpha_0$ 代入: $$ z_i = a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{in} x_n \\ u_i = b_{i1} x_1 + b_{i2} x_2 + \cdots + b_{in} x_n \\ \Rightarrow z_1 = z_2 = \cdots = z_p = 0 \\ u_{q + 1} = u_{q + 2} = \cdots = u_n = 0 $$ 由 $\mathbf{X} = P \mathbf{Z}$ 和 $\mathbf{X} = T \mathbf{U}$ 都是可逆替换。又 $\mathbf{X} = \alpha_0 \not = \mathbf{0}$ $$ \Rightarrow \mathbf{Z} = (0,\cdots,0,z_{p + 1},\cdots,z_n) \not = 0 \\ \mathbf{U} = (u_1,\cdots,u_q,0,\cdots,0) \not = 0 \\ Q(\alpha) = z_1^2 + \cdots + z_p^2 - z_{p+1}^2 - \cdots - z_r^2 \Rightarrow Q(\alpha_0) \le 0 \\ Q(\alpha) = u_1^2 + \cdots + u_q^2 - u_{q + 1}^2 - \cdots - u_r^2 \Rightarrow Q(\alpha_0) > 0
$$
矛盾,故 $p = q$。

推论:任意实对称阵相合于:
$$
\begin{pmatrix}
I_p & & \\
& -I_{r - p} & \\
& & 0
\end{pmatrix}
$$
即若 $A \in M_n(\mathbb{R})$,$A^T = A \Rightarrow \exists$ 可逆的 $P \in M_n(\mathbb{R})$ 使得:
$$
P^T A P =
\begin{pmatrix}
I_p & & \\
& -I_{r - p} & \\
& & 0
\end{pmatrix}
$$

奇异值分解(SVD)

奇异值分解

$A_{m \times n}$ 实矩阵,$\exists$ 正交阵 $U_{m \times m},V_{n \times n}$,使得 $A = U \Sigma V^T$,其中 $\Sigma_{m \times n} = \begin{pmatrix} \sigma_1 & & & & & \\ & \sigma_2 & & & & \\ & & \ddots & & & \\ & & & \sigma_r & & \\ & & & & & \end{pmatrix}$。其中 $r = rank(A)$,常取 $\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_r > 0$。

称 $\sigma_1,\cdots,\sigma_r$ 为奇异值,称 $U$ 和 $V$ 的前 $r$ 列向量为奇异向量

证明:由 $A^T A$ 实对称且半正定,设 $\lambda_1 \ge \cdots \ge \lambda_r$ 为 $A^T A$ 的非零特征值。

设 $\mathbf{v}_1, \cdots, \mathbf{v}_r$ 是对应的特征向量,即 $A^T A \mathbf{v}_i = \lambda_i \mathbf{v}_i(i=1,2,\cdots,r)$ 且 $\| \mathbf{v}_i \| = 1$,$\mathbf{v}_i^T \mathbf{v}_j = 0(i \not = j)$。

$(A \mathbf{v}_i)^T (A \mathbf{v}_j) = \mathbf{v}_i^T A^T A \mathbf{v}_j = \mathbf{v}_i^T \lambda_j \mathbf{v}_j = \left\{ \begin{array}{} 0 & i \not = j \\ \lambda_j & i = j \end{array} \right.$。

令 $\mathbf{u}_i = \dfrac{A \mathbf{v}_i}{\sqrt{\lambda_i}}$ 单位化,记 $\sigma_i = \sqrt{\lambda_i},i = 1,2,\cdots,r$。

由 $\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_r \in C(A^T A) = C(A^T)$,取 $N(A)$ 的标准正交基 $\mathbf{v}_{r + 1},\cdots,\mathbf{v}_n$。

由 $\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_r \in C(A)$,取 $N(A^T)$ 的标准正交基 $\mathbf{u}_{r + 1},\cdots, \mathbf{u}_m$。

取 $U = (\mathbf{u}_1,\cdots,\mathbf{u}_n),V = (\mathbf{v}_1,\cdots,\mathbf{v}_m)$ 即可得证。

一些性质
1. $A A^T$ 和 $A^T A$ 的特征值非负。
2. $A A^T$ 和 $A^T A$ 的非零特征值集合相同。
3. $A = \sigma_1 \mathbf{u}_1 \mathbf{v}_1^T + \cdots + \sigma_r \mathbf{u}_r \mathbf{v}_r^T$。

$m \times n$ 阶阵 $A$ 的伪逆

将 $A$ 进行 SVD 分解。

定义 $A$ 的伪逆为:

$$
A^+ = V
\begin{pmatrix}
\sigma_1 ^{-1}& & & & & \\
& \sigma_2^{-1} & & & & \\
& & \ddots & & & \\
& & & \sigma_r^{-1} & & \\
& & & & &
\end{pmatrix}_{n \times m}
U^T
$$

可以证明:$A \mathbf{x} = \mathbf{b}$ 的最小长度的最小二乘解为 $A^+ \mathbf{b}$。

线性变换

定义

设 $V,W$ 都是 $R$ 上的线性空间,映射 $\sigma : V \to W$ 满足:

  1. $\forall \alpha,\beta \in V$,都有 $\sigma(\alpha + \beta) = \sigma(\alpha) + \sigma(\beta)$。
  2. $\forall k \in \mathbb{R}$,$\forall \alpha \in V$,都有 $\sigma(k \alpha) = k \sigma(\alpha)$。

称 $\sigma$ 是 $V$ 到 $W$ 的一个线性变换。

设 $\dim V = n,\dim W = m$,设 $\mathbf{v}_1,\cdots,\mathbf{v}_n$ 是 $V$ 的一组基,$\mathbf{w}_1,\cdots,\mathbf{w}_m$ 是 $W$ 的一组基。

$$
\sigma(\mathbf{v}_1,\cdots,\mathbf{v}_n):=(\sigma(\mathbf{v}_1),\cdots,\sigma(\mathbf{v}_n)) \\
= (\mathbf{w}_1,\cdots,\mathbf{w}_m) A
$$

称 $A$ 是 $\sigma$ 在输入基 $\mathbf{v}_1,\cdots,\mathbf{v}_n$ 到输出基 $\mathbf{w}_1,\cdots,\mathbf{w}_m$ 下对应的矩阵。

一个线性空间上两组基之间的线性变换对应的矩阵称为过渡矩阵

 

点赞 8

No Comments

Add your comment