概率论与数理统计笔记(4)——随机变量的数字特征

概率论与数理统计笔记(4)——随机变量的数字特征

Chapter 4:随机变量的数字特征

1、期望

定义

$$
E(X) =
\begin{cases}
\displaystyle \sum_{x \in \mathbb{R}} x f(x) & (pmf) \\
\displaystyle \int_{-\infty}^\infty x f(x) \, \mathrm{d} x & (pdf)
\end{cases}
$$

存在 $\Leftrightarrow$ 绝对收敛。

  1. $F$ 或 $f$ 可以得出 $E(X)$,但反过来不行。
  2. 期望一般比分布更容易确定。

性质

  1. $$
    E(g(X_1, \cdots, X_n)) =
    \begin{cases}
    \displaystyle \sum_{(x_1, \cdots, x_n) \in \mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \\
    \displaystyle \int_{\mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \, \mathrm{d} x_1 \cdot \cdots \cdot \mathrm{d} x_n
    \end{cases}
    $$

  2. $E(c_1 X_1 + \cdots + c_n X_n) = c_1 E(X_1) + \cdots c_n E(X_n)$,其中 $c_1, \cdots, c_n$ 为常数。

  3. 若 $X_1, \cdots, X_n$ 相互独立,则 $E(X_1 \cdot \cdots \cdot X_n) = E(X_1) \cdot \cdots \cdot E(X_n)$。

2、分位数

定义

$\forall \alpha \in (0, 1)$,若 $P(X \le a) \ge \alpha, P(X \ge a) \ge 1 – \alpha$,则称 $a$ 为$X$ 的下(或下侧)$\alpha-$ 分位数。

  1. 连续时 $F(a) = \alpha$。
  2. $\alpha = 0.5 \leftrightarrow$ 中位数。
  3. 不一定唯一。
  4. 分位数、期望都是位置参数。
  5. 期望 $\leftrightarrow$ 质心,中位数 $\leftrightarrow$ 质量。

3、方差

定义

$$
Var(X) \stackrel{\triangle}{=} E \left [ (X – E(X))^2 \right ] = E(X^2) – E^2(X)
$$

标准差:
$$
SD(X) \stackrel{\triangle}{=} \sqrt{Var(X)}
$$

性质

  1. $Var(c) = 0$。
  2. $Var(X + c) = Var(X)$。
  3. $Var(cX) = c^2 Var(X)$,$c$ 为常数。
  4. 若 $X_1, \cdots, X_n$ 相互独立,则 $Var(X_1 + \cdots + X_n) = Var(X_1) + \cdots + Var(X_n)$。

4、矩

定义

$$
E \left [ (X – c)^k \right ]
$$

称为 $X$ 关于 $c$ 点的 $k$ 阶矩。

$c = 0 \leftrightarrow$ 原点矩。

$c = E(X) \leftrightarrow$ 中心矩。

  1. 期望——一阶中心矩。
  2. 方差——二阶中心矩。
  3. 偏度系数 $E \left [ \left ( \dfrac{X – \mu}{\sigma} \right)^3 \right]$,$\mu = E(X), \sigma^2 = Var(X)$,小于零代表左偏(负偏)。
  4. 峰度系数 $E \left [ \left ( \dfrac{X – \mu}{\sigma} \right)^4 \right]$ 与正态相比集中程度(注:正态峰度系数为 $3$)。
  5. 高于 $4$ 阶的极少应用。

5、协方差与相关系数

协方差定义

$$
E(X) = \mu_1, E(Y) = \mu_2, Var(X) = \sigma_1^2, Var(Y) = \sigma_2^2
$$

协方差:
$$
\mathrm{Cov}(X, Y) \stackrel{\triangle}{=} E[(X – \mu_1)(Y – \mu_2)]
$$

协方差性质

  1. $\mathrm{Cov}(X, X) = Var(X)$。
  2. $\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)$。
  3. $\mathrm{Cov}(X, Y) = E(XY) – E(X) E(Y)$。
  4. $\mathrm{Cov}(a X_1 + b X_2 + c, Y) = a \mathrm{Cov}(X_1, Y) + b \mathrm{Cov}(X_2, Y)$,$a, b, c$ 为常数。
  5. $\mathrm{Cov}(\sum\limits_i X_i, \sum\limits_j Y_j) = \sum\limits_{i, j} \mathrm{Cov}(X_i, Y_j)$。

相关系数定义

$$
\mathrm{Corr}(X, Y) \stackrel{\triangle}{=} \frac{\mathrm{Cov}(X, Y)}{\sqrt{Var(X) Var(Y)}} \\
= E \left ( \frac{X – \mu_1}{\sigma_1} \frac{Y – \mu_2}{\sigma_2} \right ) = \rho
$$

定理

  1. $X, Y$ 独立 $\Rightarrow \mathrm{Corr}(X, Y) \equiv 0$(称为 $X, Y$ 不相关)。

  2. $|\mathrm{Corr}(X, Y)| \le 1$ 且等号成立当且仅当存在常数 $a, b$ 使得 $P(Y = a X + b) = 1$。

证明

引理:$E^2(UV) \le E(U^2) E(V^2)$ 且等号成立当且仅当 $\exists t_0, s.t. P(V = t_0 U) = 1$。(施瓦茨不等式)

取 $U = \dfrac{X – \mu_1}{\sigma_1}, V = \dfrac{Y – \mu_2}{\sigma_2}$ 即可完成。

  1. $\rho = \pm 1$ 时,$a = \pm \dfrac{\sigma_2}{\sigma_1}$。
  2. 不相关不能推出独立,比如 $X \sim N(0, 1), Y = X^2$。
  3. 此定义实际上为线性相关系数。

协方差矩阵

$$
\Sigma = (\mathrm{Cov}(X_i, X_j))_{n \times n}
$$

6、条件期望

定义

$$
E(Y | X \in A) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X \in A) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | X \in A) \, \mathrm{d} y
\end{cases}
$$

一般会固定 $X$:
$$
E(Y | x) = E(Y | X = x) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X = x) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y
\end{cases}
$$
为 $x$ 的函数。

可以发现 $E(Y | X)$ 是一个新的随机变量($Y$ 对 $X$ 的回归函数)。

实例

$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$:
$$
E(Y | X) = \mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(X – \mu_1)
$$
$e.g.$ 甲乙两种同类产品,平均实用寿命分比为 $10$ 年,$15$ 年,市场占有率分别为 $60 \%$ 和 $40 \%$,随机买一个的期望寿命为:
$$
12 = 10 \times 60 \% + 15 \times 40 \%
$$
可以令随机变量:
$$
X =
\begin{cases}
1 & 甲 & 0.6 \\
2 & 乙 & 0.4
\end{cases}
, Y = 寿命
$$
则:
$$
E(Y) = 12 \\
= E(Y | X = 1) P(X = 1) + E(Y | X = 2) P(X = 2) \\
= E(E(Y | X))
$$

全数学期望公式

$$
E(Y) = E(E(Y | X))
$$

证明:对于连续型:$(X, Y)$ 的 pdf 为 $f(x, y)$:
$$
E(Y | x) = \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \frac{f(x, y)}{f_X(x)} \, \mathrm{d} y \\
E(Y) = \int_{-\infty}^\infty y f_Y(y) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \int_{-\infty}^\infty f(x, y) \, \mathrm{d} x \mathrm{d} y \\
= \int_{-\infty}^\infty f_X(x) \int_{-\infty}^\infty \frac{f(x, y)}{f_X(x)} y \, \mathrm{d} y \mathrm{d} x \\
= \int_{-\infty}^\infty f_X(x) E(Y | x) \, \mathrm{d} x \\
= E(E(Y | X))
$$

:一般地,$E(g(X, Y)) = E(E(g(X, Y) | X))$。

多维可推广。

定理

$$
E\left[(Y – g(X))^2\right] \ge E\left[(Y – E(Y | X))^2\right]
$$

简单证明:
$$
E\left((Y – g(X))^2 | X\right) \ge E\left((Y – E(Y | X))^2 | X\right)
$$
两边对 $X$ 求期望即得。

:$E(Y | X)$ 依赖 $X, Y$ 的联合分布信息(通常应用中不易得到),转而求最优线性预测($i.e. \min\limits_{a, b} E \left[(Y – (a X + b))^2 \right]$,$a, b$ 结果只与 $X, Y$ 的期望,方差,相关系数有关)。

7、大数定律

样本均值

$X_1, X_2, \cdots, X_n$ 独立同分布(iid),$E(X_i) = \mu, Var(X_i) = \sigma^2$:
$$
\overline{X} = \frac{1}{n} \sum_{i = 1}^n X_i
$$
称为样本均值

则可得其期望、方差:
$$
E\left(\overline{X}\right) = \mu, Var\left(\overline{X}\right) = \frac{\sigma^2}{n}
$$
则 $Var\left(\overline{X}\right) \to 0(n \to \infty)$,即直观上 $\overline{X}$ 的分布大部分与 $\mu$ 特别接近。

定理:弱大数定律(辛钦)

条件如上,则对于 $\forall \varepsilon > 0$ 有:
$$
\lim_{n \to \infty} P\left(\left|\overline{X} – \mu\right| \ge \varepsilon\right) = 0 \Leftrightarrow \lim_{n \to \infty} P\left(\left|\overline{X} – \mu\right| < \varepsilon \right) = 1 $$ 也称 $\overline{X}$ 依概率收敛至 $\mu$,记为 $\overline{X} \overset{P}{\to} \mu$。

  1. 方差条件可以没有。

  2. $\forall \varepsilon > 0, \forall \alpha > 0, \exists N s.t.$ 当 $n \ge N$ 时有:
    $$
    P\left(\left|\overline{X} – \mu\right| \ge \varepsilon \right) \le \alpha
    $$
    其中 $\varepsilon$ 为精度,$\alpha$ 为置信水平。

  3. $\mu$(未知)$\approx \overline{X}$。

  4. 若 $X_i$ 为 Bernoulli 随机变量,此定律即为 Bernoulli 大数定律(最早的大数定律)。

引理

  1. Markov 不等式)$Y \ge 0$,则 $\forall a > 0$ 有:
    $$
    P(Y \ge a) \le \frac{E(Y)}{a}
    $$
    证明:令:
    $$
    I =
    \begin{cases}
    1 & Y \ge a \\
    0 & otherwise
    \end{cases}
    $$
    则 $I \le \dfrac{Y}{a}$,因此:
    $$
    E(I) = P(Y \ge a) \le E\left(\frac{Y}{a}\right) = \frac{E(Y)}{a}
    $$

  2. Chebyshev 不等式)若 $Var(Y)$ 存在,则对于 $\forall a > 0$ 有:
    $$
    P\left(\left| Y – E(Y) \right| \ge a\right) \le \frac{Var(Y)}{a^2}
    $$
    证明
    $$
    P(|Y – E(Y)| \ge a) = P\left((Y – E(Y))^2 \ge a^2\right) \le \frac{E\left((Y – E(Y))^2 \right)}{a^2} = \frac{Var(Y)}{a^2}
    $$

证明
$$
P\left(\left|\overline{X} – \mu\right| \ge \varepsilon\right) \le \frac{Var\left(\overline{X}\right)}{\varepsilon^2} \\
= \frac{\sigma^2}{n \varepsilon^2} \to 0(n \to \infty)
$$

  1. $Var(X) = 0 \Rightarrow P(X = E(X)) = 1$。

  2. 可推广:

    1. 两两不相关,$Var(X_i)$ 一致有界,则定理依然成立。
    2. $Var\left(\overline{X}\right) \to 0$(Markov 大数定律)。
  3. 强大数定律(Kolmogorov):$X_1, X_2, \cdots, X_n$ iid,$E(X_i) = \mu$,则:
    $$
    P\left(\lim_{n \to \infty} \overline{X} = \mu \right) = 1 \Leftrightarrow \forall \varepsilon > 0, P\left(\lim_{n \to \infty} \left|\overline{X} – \mu\right| < \varepsilon \right) = 1 $$ 即 $\overline{X}$ 依概率 $1$ 收敛至 $\mu$(almost surely $a.s.$)。 依概率收敛是区间大偏差上看,而依概率 $1$ 收敛是逐点看。

8、中心极限定理

定理

$X_1, X_2, \cdots, X_n$ iid,$E(X_i) = \mu, Var(X_i) = \sigma^2$,则:
$$
\lim_{n \to \infty} P\left(\frac{(X_1 + X_2 + \cdots + X_n) – n \mu}{\sqrt{n} \sigma} \le x\right) = \Phi(x), \forall x \in \mathbb{R}
$$
(标准正态分布的 cdf)

也就是依分布收敛于 $N(0, 1)$。

  1. 此为 Lindeberg-Levy 中心极限定理,可以推广至独立非同分布情形。

  2. 可以将定理改写为 $\overline{X}$ 的标准化,也就是说定理可以推出 $\overline{X} \stackrel{近似}{\sim} N\left(\mu, \dfrac{\sigma^2}{n}\right)$。

  3. 若 $X_i \sim B(p)$,则:
    $$
    \sum_{i = 1}^n X_i \sim B(n, p)
    $$
    可用正态分布来近似(此为 De Moivre-Laplace 中心极限定理)。

    则:
    $$
    P\left(t_i \le \sum_{i = 1}^n X_i \le t_2 \right) \approx \Phi(y_2) – \Phi(y_1)
    $$

    其中:
    $$
    \begin{cases}
    y_2 = \dfrac{t_2 – np + \frac{1}{2}}{\sqrt{np(1 – p)}} \\
    y_1 = \dfrac{t_1 – np – \frac{1}{2}}{\sqrt{np(1 – p)}}
    \end{cases}
    $$
    其中 $\dfrac{1}{2}$ 为连续性修正。

$e.g.$(选举问题)$P$ 为选民支持比例(未知),随机调查 $n$ 人,支持比例:
$$
P_n =\frac{1}{n} \sum_{i = 1}^n X_i = \overline{X}, X_i \sim B(p)
$$
(注:近似有放回)

问:精度 $\varepsilon = 0.01$,置信度为 $1 – \alpha = 95 \%$,$n$ 取多少较为合适?
$$
P\left(|P_n – P| \ge \varepsilon \right) \le \alpha
$$
利用 Chebyshev 不等式得到的 $n$ 大约为 $50000$。

但利用中心极限定理:
$$
P\left(|P_n – P| \ge \varepsilon \right) \approx 2\left(1 – \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 – p)}}\right)\right) \le \alpha \\
\Leftrightarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 – p)}}\right) \ge 1 – \frac{\alpha}{2} \\
\Leftarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 – p)}}\right) \ge \Phi \left(\frac{\sqrt{n}\varepsilon}{\frac{1}{2}}\right) \ge 1 – \frac{\alpha}{2}
$$
而 $\Phi(1.96) \approx 0.975 \Rightarrow n \ge \dfrac{1.96^2}{4 \varepsilon^2} \approx 9604$。

通常 $\alpha = 0.05, \varepsilon = 0.03$,则 $n \ge 1068$。

 

点赞 0

No Comments

Add your comment