概率论与数理统计笔记(3)——联合分布

概率论与数理统计笔记(3)——联合分布

Contents

Chapter 3:联合分布

1、随机向量

定义

$$
(X_1, \cdots, X_n)
$$

称为($n$ 维)随机向量,任意 $X_i$ 是随机变量。

(联合)累积分布函数(cdf)

$$
F(x_1, \cdots, x_n) = P(X_1 \le x_1, \cdots, X_n \le x_n) \\
\forall (x_1, \cdots, x_n) \in \mathbb{R}^n
$$

:$n = 2$ 时为二元分布,常用 $(X, Y)$ 和 $F(x, y)$ 表示。

2、离散分布

定义

任意 $X_i$ 都是离散型,则称 $(X_1, \cdots, X_n)$ 为离散型。

概率质量函数(pmf)

$$
f(x_1, \cdots, x_n) \stackrel{\triangle}{=} P(X_1 = x_1, \cdots, X_n = x_n) \\
\forall (x_1, \cdots, x_n) \in \mathbb{R}^n \\
f \ge 0, \sum f(x_1, \cdots, x_n) \equiv 1
$$

$e.g.$ 多项分布。

3、连续分布

定义

若存在 $f(x_1, \cdots, x_n) \ge 0$ 使得 $\forall I \subseteq \mathbb{R}^n$ 可测集都有:
$$
P\left ((X_1, \cdots, X_n) \in I \right ) = \int_I f(x_1, \cdots, x_n) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n
$$
则称 $(X_1, \cdots, X_n)$ 为连续型随机向量,$f$ 为 $X_1, \cdots, X_n$ 的概率密度函数(pdf)。


1. pdf 积分恒为 $1$:
$$
\int_{\mathbb{R}^n} f \equiv 1
$$
2. cdf 为 pdf 积分:
$$
F(a, b) = \int_{-\infty}^b \int_{-\infty}^a f(x, y) \, \mathrm{d} x \mathrm{d} y
$$

实例

$e.g.$ 均匀分布(矩形)。
$$
f(x, y) =
\begin{cases}
\dfrac{1}{(b – a)(d – c)} & a < x < b, c < y < d \\ 0 & otherwise \end{cases} $$$e.g.$ 二元正态分布。 $$ (X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho) \\ f(x, y) = \frac{1}{2 \pi \sigma_1 \sigma_2} \frac{1}{\sqrt{1 - \rho^2}} \exp \left \{ -\frac{1}{2(1 - \rho^2)} \left[ \left (\frac{x - \mu_1}{\sigma_1} \right )^2 - 2 \rho \frac{x - \mu_1}{\sigma_1} \frac{y - \mu_2}{\sigma_2} + \left ( \frac{y - \mu_2}{\sigma_2} \right )^2 \right ] \right \} $$ 大括号内为二次型。 $$ \{...\} = -\frac{1}{2} \vec{X}^T W \vec{X} \\ \vec{X} = \begin{pmatrix} \dfrac{x - \mu_1}{\sigma_1} \\ \dfrac{y - \mu_2}{\sigma_2} \end{pmatrix}, W = \frac{1}{1 - \rho^2} \begin{pmatrix} 1 & -\rho \\ -\rho & 1 \end{pmatrix} = A^T A \\ A = \frac{1}{\sqrt{1 - \rho^2}} \begin{pmatrix} 1 & -\rho \\ 0 & \pm \sqrt{1 - \rho^2} \end{pmatrix} 或 \frac{1}{\sqrt{1 - \rho^2}} \begin{pmatrix} -1 & \rho \\ 0 & \pm \sqrt{1 - \rho^2} \end{pmatrix} $$

4、边际分布

定义

$$
F_i(x) \stackrel{\triangle}{=} P(X_i \le x) = P(X_i \le x, -\infty < X_j < +\infty(\forall i \not = j)) $$称其为边际 cdf。当 $n = 2$ 时,对于 $(X, Y)$: $$ F_X(x) = P(X \le x) = \lim_{y \to +\infty} F(x, y) \\ F_Y(y) = P(Y \le Y) = \lim_{x \to +\infty} F(x, y) $$ $e.g.$ $$ P(X > a, Y > b) = 1 – F_X(a) – F_Y(b) + F(a, b)
$$

离散型($n = 2$)

$$
P(X = x) = \sum_y P(X = x, Y = y)
$$

$e.g.$ $(X, Y)$——两次掷骰子点数。

$P(X = 1) = \dfrac{1}{6}, P(X \le 2) = \dfrac{1}{3}$

连续型($n = 2$)

$$
F_X(x) \stackrel{\triangle}{=} P(X \le x) = \int_{-\infty}^x \left (\int_{-\infty}^\infty f(x, y) \, \mathrm{d} y \right ) \mathrm{d} x \\
$$

边际 pdf:
$$
f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y
$$
$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
$$
f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y = \frac{1}{\sqrt{2 \pi} \sigma_1} e^{- \dfrac{(x – \mu_1)^2}{2\sigma_1^2}}, \forall x \in \mathbb{R} \\
\Rightarrow X \sim N(\mu_1, \sigma_1^2)
$$
同理可得:$Y \sim N(\mu_2, \sigma_2^2)$。

:联合分布确定边际分布,反之则不对!

5、条件分布

以 $n = 2$ 为例。

离散型

$$
P(X = a_i, Y = b_j) = P_{ij} \ge 0 \ \ (i, j = 1, 2, \cdots) \\
P(X = a_i | Y = b_j) = \frac{P(X = a_i, Y = b_j)}{P(Y = b_j)} = \frac{P_{ij}}{\sum_l P_{lj}}
$$

需要 $P(Y = b_j) > 0$。


1. $\sum\limits_i P(X = a_i | Y = b_j) \equiv 1$。
2. 高维情况类似。

连续型

$(X, Y)$ 的 pdf 为 $f(x, y)$。
$$
P(X \le x | y \le Y \le y + \mathrm{d} y) = \frac{P(X \le x, y \le Y \le y + \mathrm{d} y)}{P(y \le Y \le y + \mathrm{d} y)} = \frac{\displaystyle \int_{-\infty}^x \int_y^{y + \mathrm{d} y} f(t, s) \, \mathrm{d} s \mathrm{d} t}{\displaystyle \int_y^{y + \mathrm{d} y} f_Y(s) \, \mathrm{d} s} \\
f_X(x | y \le Y \le y + \mathrm{d} y) = \frac{\int_y^{y + \mathrm{d} y} f(x, s) \, \mathrm{d} s}{\int_y^{y + \mathrm{d} y} f_Y(s) \, \mathrm{d} s} \to \frac{f(x, y)}{f_Y(y)} (\mathrm{d} y \to 0)
$$
条件密度函数
$$
f_X(x | y) \stackrel{\triangle}{=} \frac{f(x, y)}{f_Y(y)}
$$
需要 $f_Y(y) > 0$。

$f_Y(y | x)$ 类似定义。

:$f(x, y) = f_X(x | y) f_Y(y) = f_Y(y |x) f_X(x)$
$$
\Rightarrow f_X(x) = \int_{-\infty}^\infty f(x, y) \, \mathrm{d} y = \int_{-\infty}^\infty f_X(x | y) f_Y(y) \, \mathrm{d} y
$$

——全概率公式。
$$
f_X(x | y) = \frac{f(x, y)}{\displaystyle \int_{-\infty}^\infty f(x, y) \, \mathrm{d} x}
$$
$\Rightarrow$ Bayes 公式。
$$
F_X(a | y) = P(X \le a | Y = y) = \int_{-\infty}^a f_X(x | y) \, \mathrm{d} x \\
(P(Y = y) \equiv 0)
$$
多维情况类似。

$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$
$$
f_Y(y | x) = \frac{f(x, y)}{f_X(x)} = \frac{1}{\sqrt{2 \pi} \sigma_2} \frac{1}{\sqrt{1 – \rho^2}} \exp \left( -\frac{\left (y – \left (\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1} (x – \mu_1) \right ) \right )^2}{2(1 – \rho^2)\sigma_2^2} \right )
$$
$\Rightarrow$ 给定 $X = x$ 条件下 $Y$ 的分布为 $N \left (\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(x – \mu_1), (1 – \rho^2) \sigma_2^2 \right )$。

中心为 $\mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(x – \mu_1)$。

6、独立性

定义

$(X, Y)$ 的 cdf 为 $F(x, y)$,若 $F(x, y) = F_X(x) F_Y(y), \forall x, y \in \mathbb{R}$,则称 $X, Y$ 相互独立。

:$X, Y$ 独立 $\Leftrightarrow f(x, y) = f_X(x) f_Y(y) , \forall x, y \in \mathbb{R}$。

连续型时为 pdf,离散型时为 pmf。

定义(高维推广)

设 $(X_1, \cdots, X_n)$ 的 cdf 为 $F(x_1, \cdots, x_n)$,若 $F(x_1, \cdots, x_n) = F_1(x_1) \cdot \cdots \cdot F_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$,则称 $X_1, \cdots, X_n$ 相互独立。

这里的 $F_i(X_i)$ 为边际 cdf。

:$X_1, \cdots, X_n$ 独立 $\Leftrightarrow f(x_1, \cdots, x_n) = f_1(x_1) \cdot \cdots \cdot f_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$。

连续型时为 pdf,离散型时为 pmf。

定理

  1. 若 $f(x_1, \cdots, x_n) = g_1(x_1) \cdot \cdots \cdot g_n(x_n), \forall x_1, \cdots, x_n \in \mathbb{R}$,则连续型随机变量 $X_1, \cdots, X_n$ 独立,且 $f_i(x_i)$ 与 $g_i(x_i)$ 只差常数因子。
  2. 若 $X_1, \cdots, X_n$ 独立,则 $Y_1 = g_1(X_1, \cdots, X_m), Y_2 = g_2(X_{m + 1}, \cdots, X_n)$ 相互独立。

7、多个随机变量的函数

$$
Y = g(X_1, \cdots, X_n)
$$

直接法

$e.g.$ $X_i \sim B(n_i, p)(i = 1, 2)$ 相互独立,$Y = X_1 + X_2$:
$$
P(Y = k) = \sum_{k_1 = 0}^k P(X_1 = k_1, X_2 = k – k_1) \ \ \ (k = 0, 1, \cdots, n_1 + n_2) \\
= \sum_{k_1 = 0}^k P(X_1 = k_1) P(X_2 = k – k_1) \\
= \sum_{k_1 = 0}^k \binom{n_1}{k_1} p^{k_1} (1 – p)^{n_1 – k_1} \binom{n_2}{k – k_1} p^{k – k_1} (1 – p)^{n_2 – (k – k_1)} \\
= \left [ \sum_{k_1 = 0}^k \binom{n_1}{k_1} \binom{n_2}{k – k_1} \right ] p^k (1 – p)^{n_1 + n_2 – k} \\
= \binom{n_1 + n_2}{k} p^k (1 – p)^{n_1 + n_2 – k} \\
\Rightarrow Y \sim B(n_1 + n_2, p)
$$

:对于 $k_1$ 无法取遍 $0 \sim k$ 时,也有相同结果,此处略去讨论。

$e.g.$ $(X_1, X_2)$ 的 pdf 为 $f(x_1, x_2),X_1 > 0, Y = \dfrac{X_2}{X_1}$:
$$
\forall y, P(Y \le y) = P\left ( \frac{X_2}{X_1} \le y \right ) = P(X_2 \le y X_1) \\
= \iint_{B} f(x_1, x_2) \, \mathrm{d} x_1 \mathrm{d} x_2 \\
= \int_0^\infty \int_{-\infty}^{yx_1} f(x_1, x_2) \, \mathrm{d} x_2 \mathrm{d} x_1 \\
= \int_{-\infty}^y \int_0^\infty x_1 f(x_1, x_1 t) \, \mathrm{d} x_1 \mathrm{d} t \\
\Rightarrow Y \text{ 的 } pdf \text{ 为 } l(y) := \int_0^\infty x_1 f(x_1, x_1 y) \, \mathrm{d} x_1
$$

:若 $X_1, X_2$ 独立,则:
$$
l(y) = \int_0^\infty x_1 f_1(x_1) f_2(x_1 y) \mathrm{d} x_1
$$

密度函数变换法

$(X_1, X_2)$ 的 pdf 为 $f(x_1, x_2)$。
$$
\begin{cases}
Y_1 = g_1(X_1, X_2) \\
Y_2 = g_2(X_1, X_2)
\end{cases}
\quad \quad
\begin{cases}
X_1 = h_1(Y_1, Y_2) \\
X_2 = h_2(Y_1, Y_2)
\end{cases}
$$
左侧映射可逆可微。
$$
P \left ( (Y_1, Y_2) \in A \right ) \\
= P \left ( (X_1, X_2) \in B \right ) \\
= \int_B f(x_1, x_2) \, \mathrm{d} x_1 \mathrm{d} x_2 \\
= \int_A f(h_1(y_1, y_2), h_2(y_1, y_2)) |J| \, \mathrm{d} y_1 \mathrm{d} y_2 \\
\Rightarrow (Y_1, Y_2) \text{ 的 } pdf \text{ 为 } f(h_1(y_1, y_2), h_2(y_1, y_2)) |J|
$$
其中 $J$ 为雅克比行列式:
$$
J =
\begin{vmatrix}
\dfrac{\partial h_1}{\partial y_1} & \dfrac{\partial h_1}{\partial y_2} \\
\dfrac{\partial h_2}{\partial y_1} & \dfrac{\partial h_2}{\partial y_2}
\end{vmatrix}
$$
$e.g.$ $X_1, X_2$ 的 pdf 为 $f(x_1, x_2)$,$Y = X_1 + X_2$。

令 $Z = X_1$ 则:
$$
\begin{cases}
X_1 = Z \\
X_2 = Y – Z
\end{cases},
J =
\begin{vmatrix}
0 & 1 \\
1 & -1
\end{vmatrix}
$$
$\Rightarrow Y, Z$ 的联合密度为:
$$
l(y, z) = f(z, y – z) |J| = f(z, y – z)
$$
$\Rightarrow Y$ 的 pdf 为:
$$
l_Y(y) = \int_{-\infty}^\infty f(z, y – z) \, \mathrm{d} z = \int_{-\infty}^\infty f(y – z, z) \, \mathrm{d} z
$$


1. 若 $X_1, X_2$ 独立,则:
$$
l_Y(y) = \int_{-\infty}^\infty f_1(z) f_2(y – z) \, \mathrm{d} z
$$
2. $(X_1, X_2)$ 二元正态分布 $\Rightarrow$ $X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2 + 2 \rho \sigma_1 \sigma_2)$。

 

点赞 0

No Comments

Add your comment