概率论与数理统计笔记(3)——联合分布
Contents
Chapter 3:联合分布
1、随机向量
定义
$$
(X_1, \cdots, X_n)
$$
称为($n$ 维)随机向量,任意 $X_i$ 是随机变量。
(联合)累积分布函数(cdf)
$$
F(x_1, \cdots, x_n) = P(X_1 \le x_1, \cdots, X_n \le x_n) \\
\forall (x_1, \cdots, x_n) \in \mathbb{R}^n
$$
注:$n = 2$ 时为二元分布,常用 $(X, Y)$ 和 $F(x, y)$ 表示。
2、离散分布
定义
任意 $X_i$ 都是离散型,则称 $(X_1, \cdots, X_n)$ 为离散型。
概率质量函数(pmf)
$$
f(x_1, \cdots, x_n) \stackrel{\triangle}{=} P(X_1 = x_1, \cdots, X_n = x_n) \\
\forall (x_1, \cdots, x_n) \in \mathbb{R}^n \\
f \ge 0, \sum f(x_1, \cdots, x_n) \equiv 1
$$
$e.g.$ 多项分布。
3、连续分布
定义
若存在 $f(x_1, \cdots, x_n) \ge 0$ 使得 $\forall I \subseteq \mathbb{R}^n$ 可测集都有:
$$
P\left ((X_1, \cdots, X_n) \in I \right ) = \int_I f(x_1, \cdots, x_n) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n
$$
则称 $(X_1, \cdots, X_n)$ 为连续型随机向量,$f$ 为 $X_1, \cdots, X_n$ 的概率密度函数(pdf)。
注:
1. pdf 积分恒为 $1$:
$$
\int_{\mathbb{R}^n} f \equiv 1
$$
2. cdf 为 pdf 积分:
$$
F(a, b) = \int_{-\infty}^b \int_{-\infty}^a f(x, y) \, \mathrm{d} x \mathrm{d} y
$$
实例
$e.g.$ 均匀分布(矩形)。
$$
f(x, y) =
\begin{cases}
\dfrac{1}{(b - a)(d - c)} & a < x < b, c < y < d \\
0 & otherwise
\end{cases}
$$$e.g.$ 二元正态分布。
$$
(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho) \\
f(x, y) = \frac{1}{2 \pi \sigma_1 \sigma_2} \frac{1}{\sqrt{1 - \rho^2}} \exp \left \{ -\frac{1}{2(1 - \rho^2)} \left[ \left (\frac{x - \mu_1}{\sigma_1} \right )^2 - 2 \rho \frac{x - \mu_1}{\sigma_1} \frac{y - \mu_2}{\sigma_2} + \left ( \frac{y - \mu_2}{\sigma_2} \right )^2 \right ] \right \}
$$
大括号内为二次型。
$$
\{...\} = -\frac{1}{2} \vec{X}^T W \vec{X} \\
\vec{X} =
\begin{pmatrix}
\dfrac{x - \mu_1}{\sigma_1} \\
\dfrac{y - \mu_2}{\sigma_2}
\end{pmatrix},
W = \frac{1}{1 - \rho^2}
\begin{pmatrix}
1 & -\rho \\
-\rho & 1
\end{pmatrix}
= A^T A \\
A = \frac{1}{\sqrt{1 - \rho^2}}
\begin{pmatrix}
1 & -\rho \\
0 & \pm \sqrt{1 - \rho^2}
\end{pmatrix}
或
\frac{1}{\sqrt{1 - \rho^2}}
\begin{pmatrix}
-1 & \rho \\
0 & \pm \sqrt{1 - \rho^2}
\end{pmatrix}
$$
4、边际分布
定义
$$
F_i(x) \stackrel{\triangle}{=} P(X_i \le x) = P(X_i \le x, -\infty < X_j < +\infty(\forall i \not = j))
$$称其为边际 cdf。当 $n = 2$ 时,对于 $(X, Y)$:
$$
F_X(x) = P(X \le x) = \lim_{y \to +\infty} F(x, y) \\
F_Y(y) = P(Y \le Y) = \lim_{x \to +\infty} F(x, y)
$$
$e.g.$
$$
P(X > a, Y > b) = 1 - F_X(a) - F_Y(b) + F(a, b)
$$
离散型($n = 2$)
$$
P(X = x) = \sum_y P(X = x, Y = y)
$$
$e.g.$ $(X, Y)$——两次掷骰子点数。
$P(X = 1) = \dfrac{1}{6}, P(X \le 2) = \dfrac{1}{3}$
连续型($n = 2$)
$$
F_X(x) \stackrel{\triangle}{=} P(X \le x) = \int_{-\infty}^x \left (\int_{-\infty}^\infty f(x, y) \, \mathrm{d} y \right ) \mathrm{d} x \\
$$
边际 pdf:
$$
f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y
$$
$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
$$
f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y = \frac{1}{\sqrt{2 \pi} \sigma_1} e^{- \dfrac{(x - \mu_1)^2}{2\sigma_1^2}}, \forall x \in \mathbb{R} \\
\Rightarrow X \sim N(\mu_1, \sigma_1^2)
$$
同理可得:$Y \sim N(\mu_2, \sigma_2^2)$。
注:联合分布确定边际分布,反之则不对!
5、条件分布
以 $n = 2$ 为例。
离散型
$$
P(X = a_i, Y = b_j) = P_{ij} \ge 0 \ \ (i, j = 1, 2, \cdots) \\
P(X = a_i | Y = b_j) = \frac{P(X = a_i, Y = b_j)}{P(Y = b_j)} = \frac{P_{ij}}{\sum_l P_{lj}}
$$
需要 $P(Y = b_j) > 0$。
注:
1. $\sum\limits_i P(X = a_i | Y = b_j) \equiv 1$。
2. 高维情况类似。
连续型
$(X, Y)$ 的 pdf 为 $f(x, y)$。
$$
P(X \le x | y \le Y \le y + \mathrm{d} y) = \frac{P(X \le x, y \le Y \le y + \mathrm{d} y)}{P(y \le Y \le y + \mathrm{d} y)} = \frac{\displaystyle \int_{-\infty}^x \int_y^{y + \mathrm{d} y} f(t, s) \, \mathrm{d} s \mathrm{d} t}{\displaystyle \int_y^{y + \mathrm{d} y} f_Y(s) \, \mathrm{d} s} \\
f_X(x | y \le Y \le y + \mathrm{d} y) = \frac{\int_y^{y + \mathrm{d} y} f(x, s) \, \mathrm{d} s}{\int_y^{y + \mathrm{d} y} f_Y(s) \, \mathrm{d} s} \to \frac{f(x, y)}{f_Y(y)} (\mathrm{d} y \to 0)
$$
条件密度函数:
$$
f_X(x | y) \stackrel{\triangle}{=} \frac{f(x, y)}{f_Y(y)}
$$
需要 $f_Y(y) > 0$。
$f_Y(y | x)$ 类似定义。
注:$f(x, y) = f_X(x | y) f_Y(y) = f_Y(y |x) f_X(x)$
$$
\Rightarrow f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y = \int_{-\infty}^\infty f_X(x | y) f_Y(y) \, \mathrm{d} y
$$
——全概率公式。
$$
f_X(x | y) = \frac{f(x, y)}{\displaystyle \int_{-\infty}^\infty f(x, y) \, \mathrm{d} x}
$$
$\Rightarrow$ Bayes 公式。
$$
F_X(a | y) = P(X \le a | Y = y) = \int_{-\infty}^a f_X(x | y) \, \mathrm{d} x \\
(P(Y = y) \equiv 0)
$$
多维情况类似。
$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
$$
f_Y(y | x) = \frac{f(x, y)}{f_X(x)} = \frac{1}{\sqrt{2 \pi} \sigma_2} \frac{1}{\sqrt{1 - \rho^2}} \exp \left( -\frac{\left (y - \left (\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1} (x - \mu_1) \right ) \right )^2}{2(1 - \rho^2)\sigma_2^2} \right )
$$
$\Rightarrow$ 给定 $X = x$ 条件下 $Y$ 的分布为 $N \left (\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(x - \mu_1), (1 - \rho^2) \sigma_2^2 \right )$。
中心为 $\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(x - \mu_1)$。
6、独立性
定义
$(X, Y)$ 的 cdf 为 $F(x, y)$,若 $F(x, y) = F_X(x) F_Y(y), \forall x, y \in \mathbb{R}$,则称 $X, Y$ 相互独立。
注:$X, Y$ 独立 $\Leftrightarrow f(x, y) = f_X(x) f_Y(y) , \forall x, y \in \mathbb{R}$。
连续型时为 pdf,离散型时为 pmf。
定义(高维推广)
设 $(X_1, \cdots, X_n)$ 的 cdf 为 $F(x_1, \cdots, x_n)$,若 $F(x_1, \cdots, x_n) = F_1(x_1) \cdot \cdots \cdot F_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$,则称 $X_1, \cdots, X_n$ 相互独立。
这里的 $F_i(X_i)$ 为边际 cdf。
注:$X_1, \cdots, X_n$ 独立 $\Leftrightarrow f(x_1, \cdots, x_n) = f_1(x_1) \cdot \cdots \cdot f_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$。
连续型时为 pdf,离散型时为 pmf。
定理
- 若 $f(x_1, \cdots, x_n) = g_1(x_1) \cdot \cdots \cdot g_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$,则连续型随机变量 $X_1, \cdots, X_n$ 独立,且 $f_i(x_i)$ 与 $g_i(x_i)$ 只差常数因子。
- 若 $X_1, \cdots, X_n$ 独立,则 $Y_1 = g_1(X_1, \cdots, X_m), Y_2 = g_2(X_{m + 1}, \cdots, X_n)$ 相互独立。
7、多个随机变量的函数
$$
Y = g(X_1, \cdots, X_n)
$$
直接法
$e.g.$ $X_i \sim B(n_i, p)(i = 1, 2)$ 相互独立,$Y = X_1 + X_2$:
$$
P(Y = k) = \sum_{k_1 = 0}^k P(X_1 = k_1, X_2 = k - k_1) \ \ \ (k = 0, 1, \cdots, n_1 + n_2) \\
= \sum_{k_1 = 0}^k P(X_1 = k_1) P(X_2 = k - k_1) \\
= \sum_{k_1 = 0}^k \binom{n_1}{k_1} p^{k_1} (1 - p)^{n_1 - k_1} \binom{n_2}{k - k_1} p^{k - k_1} (1 - p)^{n_2 - (k - k_1)} \\
= \left [ \sum_{k_1 = 0}^k \binom{n_1}{k_1} \binom{n_2}{k - k_1} \right ] p^k (1 - p)^{n_1 + n_2 - k} \\
= \binom{n_1 + n_2}{k} p^k (1 - p)^{n_1 + n_2 - k} \\
\Rightarrow Y \sim B(n_1 + n_2, p)
$$
注:对于 $k_1$ 无法取遍 $0 \sim k$ 时,也有相同结果,此处略去讨论。
$e.g.$ $(X_1, X_2)$ 的 pdf 为 $f(x_1, x_2),X_1 > 0, Y = \dfrac{X_2}{X_1}$:
$$
\forall y, P(Y \le y) = P\left ( \frac{X_2}{X_1} \le y \right ) = P(X_2 \le y X_1) \\
= \iint_{B} f(x_1, x_2) \, \mathrm{d} x_1 \mathrm{d} x_2 \\
= \int_0^\infty \int_{-\infty}^{yx_1} f(x_1, x_2) \, \mathrm{d} x_2 \mathrm{d} x_1 \\
= \int_{-\infty}^y \int_0^\infty x_1 f(x_1, x_1 t) \, \mathrm{d} x_1 \mathrm{d} t \\
\Rightarrow Y \text{ 的 } pdf \text{ 为 } l(y) := \int_0^\infty x_1 f(x_1, x_1 y) \, \mathrm{d} x_1
$$
注:若 $X_1, X_2$ 独立,则:
$$
l(y) = \int_0^\infty x_1 f_1(x_1) f_2(x_1 y) \mathrm{d} x_1
$$
密度函数变换法
$(X_1, X_2)$ 的 pdf 为 $f(x_1, x_2)$。
$$
\begin{cases}
Y_1 = g_1(X_1, X_2) \\
Y_2 = g_2(X_1, X_2)
\end{cases}
\quad \quad
\begin{cases}
X_1 = h_1(Y_1, Y_2) \\
X_2 = h_2(Y_1, Y_2)
\end{cases}
$$
左侧映射可逆可微。
$$
P \left ( (Y_1, Y_2) \in A \right ) \\
= P \left ( (X_1, X_2) \in B \right ) \\
= \int_B f(x_1, x_2) \, \mathrm{d} x_1 \mathrm{d} x_2 \\
= \int_A f(h_1(y_1, y_2), h_2(y_1, y_2)) |J| \, \mathrm{d} y_1 \mathrm{d} y_2 \\
\Rightarrow (Y_1, Y_2) \text{ 的 } pdf \text{ 为 } f(h_1(y_1, y_2), h_2(y_1, y_2)) |J|
$$
其中 $J$ 为雅克比行列式:
$$
J =
\begin{vmatrix}
\dfrac{\partial h_1}{\partial y_1} & \dfrac{\partial h_1}{\partial y_2} \\
\dfrac{\partial h_2}{\partial y_1} & \dfrac{\partial h_2}{\partial y_2}
\end{vmatrix}
$$
$e.g.$ $X_1, X_2$ 的 pdf 为 $f(x_1, x_2)$,$Y = X_1 + X_2$。
令 $Z = X_1$ 则:
$$
\begin{cases}
X_1 = Z \\
X_2 = Y - Z
\end{cases},
J =
\begin{vmatrix}
0 & 1 \\
1 & -1
\end{vmatrix}
$$
$\Rightarrow Y, Z$ 的联合密度为:
$$
l(y, z) = f(z, y - z) |J| = f(z, y - z)
$$
$\Rightarrow Y$ 的 pdf 为:
$$
l_Y(y) = \int_{-\infty}^\infty f(z, y - z) \, \mathrm{d} z = \int_{-\infty}^\infty f(y - z, z) \, \mathrm{d} z
$$
注:
1. 若 $X_1, X_2$ 独立,则:
$$
l_Y(y) = \int_{-\infty}^\infty f_1(z) f_2(y - z) \, \mathrm{d} z
$$
2. $(X_1, X_2)$ 二元正态分布 $\Rightarrow$ $X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2 + 2 \rho \sigma_1 \sigma_2)$。
No Comments