概率论与数理统计笔记(4)——随机变量的数字特征
Contents
Chapter 4:随机变量的数字特征
1、期望
定义
$$
E(X) =
\begin{cases}
\displaystyle \sum_{x \in \mathbb{R}} x f(x) & (pmf) \\
\displaystyle \int_{-\infty}^\infty x f(x) \, \mathrm{d} x & (pdf)
\end{cases}
$$
存在 $\Leftrightarrow$ 绝对收敛。
注:
- $F$ 或 $f$ 可以得出 $E(X)$,但反过来不行。
- 期望一般比分布更容易确定。
性质
- $$
E(g(X_1, \cdots, X_n)) =
\begin{cases}
\displaystyle \sum_{(x_1, \cdots, x_n) \in \mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \\
\displaystyle \int_{\mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \, \mathrm{d} x_1 \cdot \cdots \cdot \mathrm{d} x_n
\end{cases}
$$ $E(c_1 X_1 + \cdots + c_n X_n) = c_1 E(X_1) + \cdots c_n E(X_n)$,其中 $c_1, \cdots, c_n$ 为常数。
若 $X_1, \cdots, X_n$ 相互独立,则 $E(X_1 \cdot \cdots \cdot X_n) = E(X_1) \cdot \cdots \cdot E(X_n)$。
2、分位数
定义
$\forall \alpha \in (0, 1)$,若 $P(X \le a) \ge \alpha, P(X \ge a) \ge 1 - \alpha$,则称 $a$ 为$X$ 的下(或下侧)$\alpha-$ 分位数。
注:
- 连续时 $F(a) = \alpha$。
- $\alpha = 0.5 \leftrightarrow$ 中位数。
- 不一定唯一。
- 分位数、期望都是位置参数。
- 期望 $\leftrightarrow$ 质心,中位数 $\leftrightarrow$ 质量。
3、方差
定义
$$
Var(X) \stackrel{\triangle}{=} E \left [ (X - E(X))^2 \right ] = E(X^2) - E^2(X)
$$
标准差:
$$
SD(X) \stackrel{\triangle}{=} \sqrt{Var(X)}
$$
性质
- $Var(c) = 0$。
- $Var(X + c) = Var(X)$。
- $Var(cX) = c^2 Var(X)$,$c$ 为常数。
- 若 $X_1, \cdots, X_n$ 相互独立,则 $Var(X_1 + \cdots + X_n) = Var(X_1) + \cdots + Var(X_n)$。
4、矩
定义
$$
E \left [ (X - c)^k \right ]
$$
称为 $X$ 关于 $c$ 点的 $k$ 阶矩。
$c = 0 \leftrightarrow$ 原点矩。
$c = E(X) \leftrightarrow$ 中心矩。
注:
- 期望——一阶原点矩。
- 方差——二阶中心矩。
- 偏度系数 $E \left [ \left ( \dfrac{X - \mu}{\sigma} \right)^3 \right]$,$\mu = E(X), \sigma^2 = Var(X)$,小于零代表左偏(负偏)。
- 峰度系数 $E \left [ \left ( \dfrac{X - \mu}{\sigma} \right)^4 \right]$ 与正态相比集中程度(注:正态峰度系数为 $3$)。
- 高于 $4$ 阶的极少应用。
5、协方差与相关系数
协方差定义
$$
E(X) = \mu_1, E(Y) = \mu_2, Var(X) = \sigma_1^2, Var(Y) = \sigma_2^2
$$
协方差:
$$
\mathrm{Cov}(X, Y) \stackrel{\triangle}{=} E[(X - \mu_1)(Y - \mu_2)]
$$
协方差性质
- $\mathrm{Cov}(X, X) = Var(X)$。
- $\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)$。
- $\mathrm{Cov}(X, Y) = E(XY) - E(X) E(Y)$。
- $\mathrm{Cov}(a X_1 + b X_2 + c, Y) = a \mathrm{Cov}(X_1, Y) + b \mathrm{Cov}(X_2, Y)$,$a, b, c$ 为常数。
- $\mathrm{Cov}(\sum\limits_i X_i, \sum\limits_j Y_j) = \sum\limits_{i, j} \mathrm{Cov}(X_i, Y_j)$。
相关系数定义
$$
\mathrm{Corr}(X, Y) \stackrel{\triangle}{=} \frac{\mathrm{Cov}(X, Y)}{\sqrt{Var(X) Var(Y)}} \\
= E \left ( \frac{X - \mu_1}{\sigma_1} \frac{Y - \mu_2}{\sigma_2} \right ) = \rho
$$
定理
- $X, Y$ 独立 $\Rightarrow \mathrm{Corr}(X, Y) \equiv 0$(称为 $X, Y$ 不相关)。
$|\mathrm{Corr}(X, Y)| \le 1$ 且等号成立当且仅当存在常数 $a, b$ 使得 $P(Y = a X + b) = 1$。
证明:
引理:$E^2(UV) \le E(U^2) E(V^2)$ 且等号成立当且仅当 $\exists t_0, s.t. P(V = t_0 U) = 1$。(施瓦茨不等式)
取 $U = \dfrac{X - \mu_1}{\sigma_1}, V = \dfrac{Y - \mu_2}{\sigma_2}$ 即可完成。
注:
- $\rho = \pm 1$ 时,$a = \pm \dfrac{\sigma_2}{\sigma_1}$。
- 不相关不能推出独立,比如 $X \sim N(0, 1), Y = X^2$。
- 此定义实际上为线性相关系数。
协方差矩阵
$$
\Sigma = (\mathrm{Cov}(X_i, X_j))_{n \times n}
$$
6、条件期望
定义
$$
E(Y | X \in A) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X \in A) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | X \in A) \, \mathrm{d} y
\end{cases}
$$
一般会固定 $X$:
$$
E(Y | x) = E(Y | X = x) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X = x) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y
\end{cases}
$$
为 $x$ 的函数。
可以发现 $E(Y | X)$ 是一个新的随机变量($Y$ 对 $X$ 的回归函数)。
实例
$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$:
$$
E(Y | X) = \mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(X - \mu_1)
$$
$e.g.$ 甲乙两种同类产品,平均实用寿命分比为 $10$ 年,$15$ 年,市场占有率分别为 $60 \%$ 和 $40 \%$,随机买一个的期望寿命为:
$$
12 = 10 \times 60 \% + 15 \times 40 \%
$$
可以令随机变量:
$$
X =
\begin{cases}
1 & 甲 & 0.6 \\
2 & 乙 & 0.4
\end{cases}
, Y = 寿命
$$
则:
$$
E(Y) = 12 \\
= E(Y | X = 1) P(X = 1) + E(Y | X = 2) P(X = 2) \\
= E(E(Y | X))
$$
全数学期望公式
$$
E(Y) = E(E(Y | X))
$$
证明:对于连续型:$(X, Y)$ 的 pdf 为 $f(x, y)$:
$$
E(Y | x) = \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \frac{f(x, y)}{f_X(x)} \, \mathrm{d} y \\
E(Y) = \int_{-\infty}^\infty y f_Y(y) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \int_{-\infty}^\infty f(x, y) \, \mathrm{d} x \mathrm{d} y \\
= \int_{-\infty}^\infty f_X(x) \int_{-\infty}^\infty \frac{f(x, y)}{f_X(x)} y \, \mathrm{d} y \mathrm{d} x \\
= \int_{-\infty}^\infty f_X(x) E(Y | x) \, \mathrm{d} x \\
= E(E(Y | X))
$$
注:一般地,$E(g(X, Y)) = E(E(g(X, Y) | X))$。
多维可推广。
定理
$$
E\left[(Y - g(X))^2\right] \ge E\left[(Y - E(Y | X))^2\right]
$$
简单证明:
$$
E\left((Y - g(X))^2 | X\right) \ge E\left((Y - E(Y | X))^2 | X\right)
$$
两边对 $X$ 求期望即得。
注:$E(Y | X)$ 依赖 $X, Y$ 的联合分布信息(通常应用中不易得到),转而求最优线性预测($i.e. \min\limits_{a, b} E \left[(Y - (a X + b))^2 \right]$,$a, b$ 结果只与 $X, Y$ 的期望,方差,相关系数有关)。
7、大数定律
样本均值
$X_1, X_2, \cdots, X_n$ 独立同分布(iid),$E(X_i) = \mu, Var(X_i) = \sigma^2$:
$$
\overline{X} = \frac{1}{n} \sum_{i = 1}^n X_i
$$
称为样本均值。
则可得其期望、方差:
$$
E\left(\overline{X}\right) = \mu, Var\left(\overline{X}\right) = \frac{\sigma^2}{n}
$$
则 $Var\left(\overline{X}\right) \to 0(n \to \infty)$,即直观上 $\overline{X}$ 的分布大部分与 $\mu$ 特别接近。
定理:弱大数定律(辛钦)
条件如上,则对于 $\forall \varepsilon > 0$ 有:
$$
\lim_{n \to \infty} P\left(\left|\overline{X} - \mu\right| \ge \varepsilon\right) = 0 \Leftrightarrow \lim_{n \to \infty} P\left(\left|\overline{X} - \mu\right| < \varepsilon \right) = 1
$$
也称 $\overline{X}$ 依概率收敛至 $\mu$,记为 $\overline{X} \overset{P}{\to} \mu$。注:
- 方差条件可以没有。
$\forall \varepsilon > 0, \forall \alpha > 0, \exists N s.t.$ 当 $n \ge N$ 时有:
$$
P\left(\left|\overline{X} - \mu\right| \ge \varepsilon \right) \le \alpha
$$
其中 $\varepsilon$ 为精度,$\alpha$ 为置信水平。$\mu$(未知)$\approx \overline{X}$。
若 $X_i$ 为 Bernoulli 随机变量,此定律即为 Bernoulli 大数定律(最早的大数定律)。
引理:
- (Markov 不等式)$Y \ge 0$,则 $\forall a > 0$ 有:
$$
P(Y \ge a) \le \frac{E(Y)}{a}
$$
证明:令:
$$
I =
\begin{cases}
1 & Y \ge a \\
0 & otherwise
\end{cases}
$$
则 $I \le \dfrac{Y}{a}$,因此:
$$
E(I) = P(Y \ge a) \le E\left(\frac{Y}{a}\right) = \frac{E(Y)}{a}
$$ (Chebyshev 不等式)若 $Var(Y)$ 存在,则对于 $\forall a > 0$ 有:
$$
P\left(\left| Y - E(Y) \right| \ge a\right) \le \frac{Var(Y)}{a^2}
$$
证明:
$$
P(|Y - E(Y)| \ge a) = P\left((Y - E(Y))^2 \ge a^2\right) \le \frac{E\left((Y - E(Y))^2 \right)}{a^2} = \frac{Var(Y)}{a^2}
$$
证明:
$$
P\left(\left|\overline{X} - \mu\right| \ge \varepsilon\right) \le \frac{Var\left(\overline{X}\right)}{\varepsilon^2} \\
= \frac{\sigma^2}{n \varepsilon^2} \to 0(n \to \infty)
$$
注:
- $Var(X) = 0 \Rightarrow P(X = E(X)) = 1$。
可推广:
- 两两不相关,$Var(X_i)$ 一致有界,则定理依然成立。
- $Var\left(\overline{X}\right) \to 0$(Markov 大数定律)。
- 强大数定律(Kolmogorov):$X_1, X_2, \cdots, X_n$ iid,$E(X_i) = \mu$,则:
$$
P\left(\lim_{n \to \infty} \overline{X} = \mu \right) = 1 \Leftrightarrow \forall \varepsilon > 0, P\left(\lim_{n \to \infty} \left|\overline{X} - \mu\right| < \varepsilon \right) = 1 $$ 即 $\overline{X}$ 依概率 $1$ 收敛至 $\mu$(almost surely $a.s.$)。 依概率收敛是区间大偏差上看,而依概率 $1$ 收敛是逐点看。
8、中心极限定理
定理
$X_1, X_2, \cdots, X_n$ iid,$E(X_i) = \mu, Var(X_i) = \sigma^2$,则:
$$
\lim_{n \to \infty} P\left(\frac{(X_1 + X_2 + \cdots + X_n) - n \mu}{\sqrt{n} \sigma} \le x\right) = \Phi(x), \forall x \in \mathbb{R}
$$
(标准正态分布的 cdf)
也就是依分布收敛于 $N(0, 1)$。
注:
- 此为 Lindeberg-Levy 中心极限定理,可以推广至独立非同分布情形。
可以将定理改写为 $\overline{X}$ 的标准化,也就是说定理可以推出 $\overline{X} \stackrel{近似}{\sim} N\left(\mu, \dfrac{\sigma^2}{n}\right)$。
若 $X_i \sim B(p)$,则:
$$
\sum_{i = 1}^n X_i \sim B(n, p)
$$
可用正态分布来近似(此为 De Moivre-Laplace 中心极限定理)。则:
$$
P\left(t_i \le \sum_{i = 1}^n X_i \le t_2 \right) \approx \Phi(y_2) - \Phi(y_1)
$$其中:
$$
\begin{cases}
y_2 = \dfrac{t_2 - np + \frac{1}{2}}{\sqrt{np(1 - p)}} \\
y_1 = \dfrac{t_1 - np - \frac{1}{2}}{\sqrt{np(1 - p)}}
\end{cases}
$$
其中 $\dfrac{1}{2}$ 为连续性修正。
$e.g.$(选举问题)$P$ 为选民支持比例(未知),随机调查 $n$ 人,支持比例:
$$
P_n =\frac{1}{n} \sum_{i = 1}^n X_i = \overline{X}, X_i \sim B(p)
$$
(注:近似有放回)
问:精度 $\varepsilon = 0.01$,置信度为 $1 - \alpha = 95 \%$,$n$ 取多少较为合适?
$$
P\left(|P_n - P| \ge \varepsilon \right) \le \alpha
$$
利用 Chebyshev 不等式得到的 $n$ 大约为 $50000$。
但利用中心极限定理:
$$
P\left(|P_n - P| \ge \varepsilon \right) \approx 2\left(1 - \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right)\right) \le \alpha \\
\Leftrightarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right) \ge 1 - \frac{\alpha}{2} \\
\Leftarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right) \ge \Phi \left(\frac{\sqrt{n}\varepsilon}{\frac{1}{2}}\right) \ge 1 - \frac{\alpha}{2}
$$
而 $\Phi(1.96) \approx 0.975 \Rightarrow n \ge \dfrac{1.96^2}{4 \varepsilon^2} \approx 9604$。
通常 $\alpha = 0.05, \varepsilon = 0.03$,则 $n \ge 1068$。
No Comments