概率论与数理统计笔记（4）——随机变量的数字特征

wzf2000
2020年4月13日

概率论与数理统计笔记（4）——随机变量的数字特征

Contents

Chapter 4：随机变量的数字特征

1、期望

定义

$$
E(X) =
\begin{cases}
\displaystyle \sum_{x \in \mathbb{R}} x f(x) & (pmf) \\
\displaystyle \int_{-\infty}^\infty x f(x) \, \mathrm{d} x & (pdf)
\end{cases}
$$

存在 $\Leftrightarrow$ 绝对收敛。

注：

$F$ 或 $f$ 可以得出 $E(X)$，但反过来不行。
期望一般比分布更容易确定。

性质

$$
E(g(X_1, \cdots, X_n)) =
\begin{cases}
\displaystyle \sum_{(x_1, \cdots, x_n) \in \mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \\
\displaystyle \int_{\mathbb{R}^n} g(x_1, \cdots, x_n) f(x_1, \cdots, x_n) \, \mathrm{d} x_1 \cdot \cdots \cdot \mathrm{d} x_n
\end{cases}
$$
$E(c_1 X_1 + \cdots + c_n X_n) = c_1 E(X_1) + \cdots c_n E(X_n)$，其中 $c_1, \cdots, c_n$ 为常数。
若 $X_1, \cdots, X_n$ 相互独立，则 $E(X_1 \cdot \cdots \cdot X_n) = E(X_1) \cdot \cdots \cdot E(X_n)$。

2、分位数

定义

$\forall \alpha \in (0, 1)$，若 $P(X \le a) \ge \alpha, P(X \ge a) \ge 1 - \alpha$，则称 $a$ 为$X$ 的下（或下侧）$\alpha-$ 分位数。

注：

连续时 $F(a) = \alpha$。
$\alpha = 0.5 \leftrightarrow$ 中位数。
不一定唯一。
分位数、期望都是位置参数。
期望 $\leftrightarrow$ 质心，中位数 $\leftrightarrow$ 质量。

3、方差

定义

$$
Var(X) \stackrel{\triangle}{=} E \left [ (X - E(X))^2 \right ] = E(X^2) - E^2(X)
$$

标准差：
$$
SD(X) \stackrel{\triangle}{=} \sqrt{Var(X)}
$$

性质

$Var(c) = 0$。
$Var(X + c) = Var(X)$。
$Var(cX) = c^2 Var(X)$，$c$ 为常数。
若 $X_1, \cdots, X_n$ 相互独立，则 $Var(X_1 + \cdots + X_n) = Var(X_1) + \cdots + Var(X_n)$。

4、矩

定义

$$
E \left [ (X - c)^k \right ]
$$

称为 $X$ 关于 $c$ 点的 $k$ 阶矩。

$c = 0 \leftrightarrow$ 原点矩。

$c = E(X) \leftrightarrow$ 中心矩。

注：

期望——一阶原点矩。
方差——二阶中心矩。
偏度系数 $E \left [ \left ( \dfrac{X - \mu}{\sigma} \right)^3 \right]$，$\mu = E(X), \sigma^2 = Var(X)$，小于零代表左偏（负偏）。
峰度系数 $E \left [ \left ( \dfrac{X - \mu}{\sigma} \right)^4 \right]$ 与正态相比集中程度（注：正态峰度系数为 $3$）。
高于 $4$ 阶的极少应用。

5、协方差与相关系数

协方差定义

$$
E(X) = \mu_1, E(Y) = \mu_2, Var(X) = \sigma_1^2, Var(Y) = \sigma_2^2
$$

协方差：
$$
\mathrm{Cov}(X, Y) \stackrel{\triangle}{=} E[(X - \mu_1)(Y - \mu_2)]
$$

协方差性质

$\mathrm{Cov}(X, X) = Var(X)$。
$\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)$。
$\mathrm{Cov}(X, Y) = E(XY) - E(X) E(Y)$。
$\mathrm{Cov}(a X_1 + b X_2 + c, Y) = a \mathrm{Cov}(X_1, Y) + b \mathrm{Cov}(X_2, Y)$，$a, b, c$ 为常数。
$\mathrm{Cov}(\sum\limits_i X_i, \sum\limits_j Y_j) = \sum\limits_{i, j} \mathrm{Cov}(X_i, Y_j)$。

定理

$X, Y$ 独立 $\Rightarrow \mathrm{Corr}(X, Y) \equiv 0$（称为 $X, Y$ 不相关）。
$|\mathrm{Corr}(X, Y)| \le 1$ 且等号成立当且仅当存在常数 $a, b$ 使得 $P(Y = a X + b) = 1$。

证明：

引理：$E^2(UV) \le E(U^2) E(V^2)$ 且等号成立当且仅当 $\exists t_0, s.t. P(V = t_0 U) = 1$。（施瓦茨不等式）

取 $U = \dfrac{X - \mu_1}{\sigma_1}, V = \dfrac{Y - \mu_2}{\sigma_2}$ 即可完成。

注：

$\rho = \pm 1$ 时，$a = \pm \dfrac{\sigma_2}{\sigma_1}$。
不相关不能推出独立，比如 $X \sim N(0, 1), Y = X^2$。
此定义实际上为线性相关系数。

协方差矩阵

$$
\Sigma = (\mathrm{Cov}(X_i, X_j))_{n \times n}
$$

6、条件期望

定义

$$
E(Y | X \in A) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X \in A) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | X \in A) \, \mathrm{d} y
\end{cases}
$$

一般会固定 $X$：
$$
E(Y | x) = E(Y | X = x) \stackrel{\triangle}{=}
\begin{cases}
\displaystyle \sum_i y_i P(Y = y_i | X = x) \\
\displaystyle \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y
\end{cases}
$$
为 $x$ 的函数。

可以发现 $E(Y | X)$ 是一个新的随机变量（$Y$ 对 $X$ 的回归函数）。

实例

$e.g.$ $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$：
$$
E(Y | X) = \mu_2 + \rho \dfrac{\sigma_2}{\sigma_1}(X - \mu_1)
$$
$e.g.$ 甲乙两种同类产品，平均实用寿命分比为 $10$ 年，$15$ 年，市场占有率分别为 $60 \%$ 和 $40 \%$，随机买一个的期望寿命为：
$$
12 = 10 \times 60 \% + 15 \times 40 \%
$$
可以令随机变量：
$$
X =
\begin{cases}
1 & 甲 & 0.6 \\
2 & 乙 & 0.4
\end{cases}
, Y = 寿命
$$
则：
$$
E(Y) = 12 \\
= E(Y | X = 1) P(X = 1) + E(Y | X = 2) P(X = 2) \\
= E(E(Y | X))
$$

全数学期望公式

$$
E(Y) = E(E(Y | X))
$$

证明：对于连续型：$(X, Y)$ 的 pdf 为 $f(x, y)$：
$$
E(Y | x) = \int_{-\infty}^\infty y f_Y(y | x) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \frac{f(x, y)}{f_X(x)} \, \mathrm{d} y \\
E(Y) = \int_{-\infty}^\infty y f_Y(y) \, \mathrm{d} y \\
= \int_{-\infty}^\infty y \int_{-\infty}^\infty f(x, y) \, \mathrm{d} x \mathrm{d} y \\
= \int_{-\infty}^\infty f_X(x) \int_{-\infty}^\infty \frac{f(x, y)}{f_X(x)} y \, \mathrm{d} y \mathrm{d} x \\
= \int_{-\infty}^\infty f_X(x) E(Y | x) \, \mathrm{d} x \\
= E(E(Y | X))
$$

注：一般地，$E(g(X, Y)) = E(E(g(X, Y) | X))$。

多维可推广。

定理

$$
E\left[(Y - g(X))^2\right] \ge E\left[(Y - E(Y | X))^2\right]
$$

简单证明：
$$
E\left((Y - g(X))^2 | X\right) \ge E\left((Y - E(Y | X))^2 | X\right)
$$
两边对 $X$ 求期望即得。

注：$E(Y | X)$ 依赖 $X, Y$ 的联合分布信息（通常应用中不易得到），转而求最优线性预测（$i.e. \min\limits_{a, b} E \left[(Y - (a X + b))^2 \right]$，$a, b$ 结果只与 $X, Y$ 的期望，方差，相关系数有关）。

7、大数定律

样本均值

$X_1, X_2, \cdots, X_n$ 独立同分布（iid），$E(X_i) = \mu, Var(X_i) = \sigma^2$：
$$
\overline{X} = \frac{1}{n} \sum_{i = 1}^n X_i
$$
称为样本均值。

则可得其期望、方差：
$$
E\left(\overline{X}\right) = \mu, Var\left(\overline{X}\right) = \frac{\sigma^2}{n}
$$
则 $Var\left(\overline{X}\right) \to 0(n \to \infty)$，即直观上 $\overline{X}$ 的分布大部分与 $\mu$ 特别接近。

定理：弱大数定律（辛钦）

条件如上，则对于 $\forall \varepsilon > 0$ 有：
$$
\lim_{n \to \infty} P\left(\left|\overline{X} - \mu\right| \ge \varepsilon\right) = 0 \Leftrightarrow \lim_{n \to \infty} P\left(\left|\overline{X} - \mu\right| < \varepsilon \right) = 1 $$ 也称 $\overline{X}$ 依概率收敛至 $\mu$，记为 $\overline{X} \overset{P}{\to} \mu$。注：

方差条件可以没有。
$\forall \varepsilon > 0, \forall \alpha > 0, \exists N s.t.$ 当 $n \ge N$ 时有：
$$
P\left(\left|\overline{X} - \mu\right| \ge \varepsilon \right) \le \alpha
$$
其中 $\varepsilon$ 为精度，$\alpha$ 为置信水平。
$\mu$（未知）$\approx \overline{X}$。
若 $X_i$ 为 Bernoulli 随机变量，此定律即为 Bernoulli 大数定律（最早的大数定律）。

引理：

（Markov 不等式）$Y \ge 0$，则 $\forall a > 0$ 有：
$$
P(Y \ge a) \le \frac{E(Y)}{a}
$$
证明：令：
$$
I =
\begin{cases}
1 & Y \ge a \\
0 & otherwise
\end{cases}
$$
则 $I \le \dfrac{Y}{a}$，因此：
$$
E(I) = P(Y \ge a) \le E\left(\frac{Y}{a}\right) = \frac{E(Y)}{a}
$$
（Chebyshev 不等式）若 $Var(Y)$ 存在，则对于 $\forall a > 0$ 有：
$$
P\left(\left| Y - E(Y) \right| \ge a\right) \le \frac{Var(Y)}{a^2}
$$
证明：
$$
P(|Y - E(Y)| \ge a) = P\left((Y - E(Y))^2 \ge a^2\right) \le \frac{E\left((Y - E(Y))^2 \right)}{a^2} = \frac{Var(Y)}{a^2}
$$

证明：
$$
P\left(\left|\overline{X} - \mu\right| \ge \varepsilon\right) \le \frac{Var\left(\overline{X}\right)}{\varepsilon^2} \\
= \frac{\sigma^2}{n \varepsilon^2} \to 0(n \to \infty)
$$

注：

$Var(X) = 0 \Rightarrow P(X = E(X)) = 1$。
可推广：
1. 两两不相关，$Var(X_i)$ 一致有界，则定理依然成立。
2. $Var\left(\overline{X}\right) \to 0$（Markov 大数定律）。
强大数定律（Kolmogorov）：$X_1, X_2, \cdots, X_n$ iid，$E(X_i) = \mu$，则：
$$
P\left(\lim_{n \to \infty} \overline{X} = \mu \right) = 1 \Leftrightarrow \forall \varepsilon > 0, P\left(\lim_{n \to \infty} \left|\overline{X} - \mu\right| < \varepsilon \right) = 1 $$ 即 $\overline{X}$ 依概率 $1$ 收敛至 $\mu$（almost surely $a.s.$）。依概率收敛是区间大偏差上看，而依概率 $1$ 收敛是逐点看。

8、中心极限定理

定理

$X_1, X_2, \cdots, X_n$ iid，$E(X_i) = \mu, Var(X_i) = \sigma^2$，则：
$$
\lim_{n \to \infty} P\left(\frac{(X_1 + X_2 + \cdots + X_n) - n \mu}{\sqrt{n} \sigma} \le x\right) = \Phi(x), \forall x \in \mathbb{R}
$$
（标准正态分布的 cdf）

也就是依分布收敛于 $N(0, 1)$。

注：

此为 Lindeberg-Levy 中心极限定理，可以推广至独立非同分布情形。
可以将定理改写为 $\overline{X}$ 的标准化，也就是说定理可以推出 $\overline{X} \stackrel{近似}{\sim} N\left(\mu, \dfrac{\sigma^2}{n}\right)$。
若 $X_i \sim B(p)$，则：
$$
\sum_{i = 1}^n X_i \sim B(n, p)
$$
可用正态分布来近似（此为 De Moivre-Laplace 中心极限定理）。
则：
$$
P\left(t_i \le \sum_{i = 1}^n X_i \le t_2 \right) \approx \Phi(y_2) - \Phi(y_1)
$$
其中：
$$
\begin{cases}
y_2 = \dfrac{t_2 - np + \frac{1}{2}}{\sqrt{np(1 - p)}} \\
y_1 = \dfrac{t_1 - np - \frac{1}{2}}{\sqrt{np(1 - p)}}
\end{cases}
$$
其中 $\dfrac{1}{2}$ 为连续性修正。

$e.g.$（选举问题）$P$ 为选民支持比例（未知），随机调查 $n$ 人，支持比例：
$$
P_n =\frac{1}{n} \sum_{i = 1}^n X_i = \overline{X}, X_i \sim B(p)
$$
（注：近似有放回）

问：精度 $\varepsilon = 0.01$，置信度为 $1 - \alpha = 95 \%$，$n$ 取多少较为合适？
$$
P\left(|P_n - P| \ge \varepsilon \right) \le \alpha
$$
利用 Chebyshev 不等式得到的 $n$ 大约为 $50000$。

但利用中心极限定理：
$$
P\left(|P_n - P| \ge \varepsilon \right) \approx 2\left(1 - \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right)\right) \le \alpha \\
\Leftrightarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right) \ge 1 - \frac{\alpha}{2} \\
\Leftarrow \Phi\left(\frac{\sqrt{n}\varepsilon}{\sqrt{p(1 - p)}}\right) \ge \Phi \left(\frac{\sqrt{n}\varepsilon}{\frac{1}{2}}\right) \ge 1 - \frac{\alpha}{2}
$$
而 $\Phi(1.96) \approx 0.975 \Rightarrow n \ge \dfrac{1.96^2}{4 \varepsilon^2} \approx 9604$。

通常 $\alpha = 0.05, \varepsilon = 0.03$，则 $n \ge 1068$。

概统笔记

140 次浏览

No Comments

Add your comment 取消回复

要发表评论，您必须先登录。

概率论与数理统计笔记（4）——随机变量的数字特征

概率论与数理统计笔记（4）——随机变量的数字特征

Chapter 4：随机变量的数字特征

1、期望

定义

性质

2、分位数

定义

3、方差

定义

性质

4、矩

定义

5、协方差与相关系数

协方差定义

协方差性质

相关系数定义

定理

协方差矩阵

6、条件期望

定义

实例

全数学期望公式

定理

7、大数定律

样本均值

定理：弱大数定律（辛钦）

8、中心极限定理

定理

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

扫描二维码加入交流

购买积分

概率论与数理统计笔记（4）——随机变量的数字特征

概率论与数理统计笔记（4）——随机变量的数字特征

Chapter 4：随机变量的数字特征

1、期望

定义

性质

2、分位数

定义

3、方差

定义

性质

4、矩

定义

5、协方差与相关系数

协方差定义

协方差性质

相关系数定义

定理

协方差矩阵

6、条件期望

定义

实例

全数学期望公式

定理

7、大数定律

样本均值

定理：弱大数定律（辛钦）

8、中心极限定理

定理

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

标签

扫描二维码加入交流

购买积分