概率论与数理统计笔记(2)——随机变量
Contents
Chapter 2:随机变量
1、(1 维)随机变量
定义
样本空间上的实值函数。
$$
X : \Omega \to \mathbb{R} \\
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \omega \mapsto X(\omega)
$$
注:概括作用,关注问题本质。
事件对变量类似于静态对动态。
分类
- 离散型:至多可数多个取值。
- 连续型。
- 其他(包括混合型)。
概率定义
$$
P(X \in I)_X \stackrel{\triangle}{=} P(X^{-1}(I))
$$
注:$X^{-1}(I) \subset \Omega$ 表示 $I$ 的原像集。
一般记 $P_X$ 为 $P$。
(累积)分布函数
累积分布函数(Cumulative Distribution Function,简记为 cdf):
$$
F(x) \stackrel{\triangle}{=} P(X \le x), \forall x \in \mathbb{R}
$$
注:
$P(a < X \le b) = F(b) - F(a)$。
性质:
1. $F(x)$ 单调增(不一定严格增)。
2. $\lim\limits_{x \to +\infty} F(x) = 1, \lim\limits_{x \to -\infty} F(x) = 0$。
3. 右连续。
注:
上述三条性质是函数成为概率分布函数的充要条件。
问题:
若定义 $F(x) \stackrel{\triangle}{=} P(X < x)$,三条性质如何?
注:
- 样本空间可以很具体;
- 随机要素来自样本点 $\omega$ 的“随机”选择;
- 应用中,很多时候随机变量的直观意义出现在样本空间的直观意义之前;
- 一般 $g(X,Y)$ 皆为随机变量;
- 要求 $X^{-1}(I) \in \mathcal{F}$;
- 同分布可对应不同的随机变量;
$e.g.$ 掷三次硬币,正面向上和反面向上次数的两个随机变量同分布,但不存在 $\omega$ 使得 $X(\omega) = Y(\omega)$。
2、离散分布
分布表:取值对应概率,上面取值下面概率。
概率质量函数(pmf)
$$
f(x) \stackrel{\triangle}{=} P(X = x), \forall x \in \mathbb{R}
$$
注:$f(x_i) = P_i \ge 0, \sum\limits_{i} f(x_i) = 1$
($\sum\limits_{x \in \mathbb{R}} f(x) = \sum\limits_{i} f(x_i) = 1$)
期望
$$
E(X) \stackrel{\triangle}{=} \sum_i x_i f(x_i)
$$
方差
$$
Var(X) \stackrel{\triangle}{=} \sum_i (x_i - E(X))^2 f(x_i) \\
= E[(X - E(X))^2] \\
= E(X^2) - E^2(X)
$$
注:
期望存在则 $\sum_i |x_i| f(x_i) < \infty$ 即级数绝对收敛。
注:
1. 期望即均值;
2. $E(X)$ 为分布的特征;
3. $E(g(X)) = \sum\limits_i g(x_i) f(x_i)$。
3、常见离散分布
Bernoulli 分布
$$
X =
\begin{cases}
1 & 成功 & p \\
0 & 失败 & 1 - p
\end{cases}
\ \ \ \ (p \in (0, 1))
$$
记 $X \sim B(p)$,则 $E(X) = p, Var(X) = p - p^2 = p(1 - p)$。
二次分布
$X = n$ 次独立重复试验(同上)成功次数。
$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \ \ \ \ (k = 0, 1, \cdots, n)
$$
记 $X \sim B(n, p)$,则 $E(X) = np, Var(X) = np(1 - p)$。
Poisson 分布
$$
P(X = k) = \frac{\lambda^k}{k!} e^{-\lambda} \ \ \ \ (k = 0, 1, 2, \cdots)
$$
$\lambda > 0$ 为常数。
记 $X \sim P(\lambda)$,则 $E(X) = \lambda = Var(X)$(留做练习)。
引入:观察时间 $[0, 1)$(一定时间内),路口交通事故数 $X$。
$l_i = [\frac{i - 1}{n}, \frac{i}{n})$,$n$ 充分大,$i = 1, 2, \cdots, n$。
假设:
- $l_i$ 内至多发生一次事故;
- 恰发生一次的概率 $P = \frac{\lambda}{n}$(与时长 $\frac{1}{n}$ 成正比);
- $l_i$ 各段独立。
则 $X \sim B(n, p)$,其中 $p = \frac{\lambda}{n}$。
$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \\
= \frac{\lambda^k}{k!} \left(1 - \frac{\lambda}{n}\right)^n \frac{n!}{(n - k)!n^k} \left(1 - \frac{\lambda}{n}\right)^{-k} \\
\to \frac{\lambda^k}{k!} e^{-\lambda} (n \to \infty)
$$
注:此即表明,若 $X \sim B(n, p)$,$p$ 很小,$n$ 很大,$np$ 不太大:
则 $X \stackrel{近似}{\sim} P(\lambda), \lambda = np$,即有 $P(X = k) \approx \frac{\lambda^k}{k!} e^{-\lambda}$。
$e.g.$ 某医院平均每小时出生 $\lambda$ 名婴儿,接下来 $t$ 小时内出生数的分布?
$$
P(N(t) = k) = \frac{(\lambda t)^k}{k!} e^{-\lambda t}
$$
注:$P(\lambda)$ 多用于当 $X$ 表示一定时间或一定空间内出现的小概率事件次数这样的集合。
若试验不独立,但弱相依条件下仍为较好近似。
4、连续分布
定义
若存在 $f \ge 0$,使得 $\forall$ 可测集 $I \subset \mathbb{R}$ 都有:
$$
P(X \in I) = \int_I f(x) \mathrm{d} x
$$
则称 $X$ 为连续型随机变量,$f$ 为 $X$ 的概率密度函数(pdf)。
性质
- $$
\int_{-\infty}^{+\infty} f(x) \mathrm{d} x = 1
$$ $$
P(a < x \le b) = F(b) - F(a) = \int_a^b f(x) \mathrm{d} x = P(a \le x \le b) \\ = P(a < x < b) = P(a \le x < b) $$$$
P(X = x) \equiv 0
$$$$
P(x - \delta < X < x + \delta) \approx 2\delta f(x) $$$$
F(x) = P(X \le x) = \int_{-\infty}^x f(t) \mathrm{d} t
$$此函数(cdf)连续。
$$
F^\prime (x) = f(x)
$$
当 $f$ 在 $x$ 处连续时成立。pdf 若存在则不唯一。
期望
$$
E(x) \stackrel{\triangle}{=} \int_{-\infty}^{+\infty} x f(x) \mathrm{d} x
$$
$E(x)$ 存在则等价于:
$$
\int_{-\infty}^{+ \infty} |x| f(x) \mathrm{d} x < \infty
$$
方差
$$
Var(x) \stackrel{\triangle}{=} E[(X - E(X))^2] = E(X^2) - E^2(X) \\
= \int_{-\infty}^{+\infty} (x - E(x))^2 f(x) \mathrm{d} x
$$
注:
$$
E(g(X)) = \int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x
$$
5、常见连续分布
均匀分布
$$
f(x) =
\begin{cases}
\frac{1}{b - a} & a < x < b \\
0 & 其他
\end{cases}
$$即为 $X \sim U(a, b)$。期望、方差留做练习。注:$X \sim U(0, 1)$,通常称 $X$ 为随机数,可用来实现分布模拟。
正态分布
$$
f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\dfrac{(x - \mu)^2}{2 \sigma^2}}, x \in \mathbb{R}
$$
记为 $X \sim N(\mu, \sigma^2)$。
注:
1. $\mu = E(X), \sigma^2 = Var(X)$。
2. $N(0, 1)$——标准正态分布。
3. $X \sim N(\mu, \sigma^2)$,则 $Y = \dfrac{X - \mu}{\sigma} \sim N(0, 1)$。
经验法则:
$$
\begin{matrix}
\sigma & 2\sigma & 3\sigma \\
68\% & 95\% & 99.7\%
\end{matrix}
$$
指数分布
$$
f(x) =
\begin{cases}
\lambda e^{-\lambda x} & x > 0 \\
0 & x \le 0
\end{cases}
\Rightarrow F(x) =
\begin{cases}
1 - e^{-\lambda x} & x > 0 \\
0 & x \le 0
\end{cases}
$$
记为 $X \sim Exp(\lambda)$。
注:
1. $E(X) = \frac{1}{\lambda}, Var(X) = \frac{1}{\lambda^2}$。
2. $X$ 常用于刻画寿命或等待时间。
3. 尾概率:$P(X > x) = e^{-\lambda x}, x > 0$。
$e.g.$ 接下来 $t$ 小时内有婴儿出生的概率。(排队模型)
$$
P(X > t) = P(N(t) = 0) = \frac{(\lambda t)^0}{0!} e^{-\lambda t} = e^{-\lambda t} \\
P(X \le t) = 1 - e^{-\lambda t}
$$
失效率(危险率):
假设 $X$ 为连续型,cdf 为 $F(x)$,$F(0) = 0$,则:
$$
P(x < X < x + \mathrm{d} x | X > x) = \frac{P(x < X < x + \mathrm{d} x)}{P(X > x)} \\
\approx \frac{F^\prime(x) \mathrm{d} x}{1 - F(x)} = \frac{F^\prime (x)}{1 - F(x)} \mathrm{d} x
$$
“年龄”为 $x$ 的年龄不能继续使用的条件概率密度为:
$$
\frac{F^\prime(x)}{1 - F(x)} = \lambda (x)
$$
两边积分可得:
$$
F(x) = 1 - \exp \left (-\int_0^x \lambda(t) \mathrm{d} t \right ), x > 0
$$
“无老化”假设:
若假设 $\lambda (x) \equiv \lambda$,则 $F(x) = 1 - e^{-\lambda x}, x > 0$ 即为指数分布。
$$
\Rightarrow P(X > t + s | X > s) = \frac{P(X > t + s)}{P(X > s)} = e^{- \lambda t} = P(X > t), \forall s, t > 0
$$
这种性质称为无记忆性。
注:“无老化”假设应用局限。
改进:
假设:
$$
\frac{F^\prime (x)}{1 - F(x)} = \alpha \frac{x^{\alpha - 1}}{\beta^\alpha}, x > 0, \alpha > 0, \beta > 0 \\
\Rightarrow F(x) =
\begin{cases}
1 - \exp \left( - \left (\dfrac{x}{\beta} \right )^\alpha \right ) & x > 0 \\
0 & x \le 0
\end{cases}
$$
称为 Weibull 分布。
6、随机变量的函数
$$
Y = g(X)
$$
$X$ 离散 $\Rightarrow Y$ 离散,$X$ 连续 $\not \Rightarrow Y$ 连续。
$e.g.$
$$
X \sim Exp(\lambda), Y =
\begin{cases}
0 & X \le t_0 \\
1 & X > t_0
\end{cases},
t_0 > 0 固定。 \\
\Rightarrow P(Y = 0) = P(X \le t_0) = 1 - e^{\lambda t_0}, P(Y = 1) = e^{-\lambda t_0}
$$
$e.g.$ $g(X) = X^2 = Y$
$X$ 离散,则 $P(Y = b) = \sum\limits_{a^2 = b} P(X = a)$。
$X$ 连续,假设其 pdf 为 $f(x)$:
$$
\forall y > 0, P(Y \le y) = P(X^2 \le y) = P(-\sqrt{y} \le X \le \sqrt{y}) \\
= \int_{-\sqrt{y}}^\sqrt{y} f(x) \mathrm{d} x = \int_0^y l(t) \mathrm{d} t \\
\Rightarrow l(y) =
\begin{cases}
\frac{1}{2\sqrt{y}} (f(\sqrt{y}) + f(-\sqrt{y})) & y > 0 \\
0 & y \le 0
\end{cases}
$$
其中 $l(y)$ 为 $Y$ 的 pdf。
注:直接求分布:
1. 离散:$P(g(X) = y)$。
2. 连续:$P(g(X) \le y)$。
$e.g.$ 假设 $X \in N(0, 1), Y = X^2$ 的 pdf 为:
$$
l(y) = \frac{1}{\sqrt{2\pi}} \frac{1}{\sqrt{y}} e^{-\frac{y}{2}}, y > 0
$$
称为自由度为 $1$ 的 $\chi^2-$ 分布。
$e.g.$ 假设 $X$ 的 cdf 为 $F(x)$,$F(x)$ 连续,则 $Y = F(X) \sim U(0, 1)$。(概率积分变换)
证明:$\forall y \in (0, 1)$ 时:
$$
P(Y \le y) = P(F(X) \le y) \\
= P(X \le F^{-1}(y)) \ \ \ \ (需 F 严格增) \\
= F(F^{-1})(y) = y
$$
一般地,定义 $F^{-1}(y) \stackrel{\triangle}{=} \inf\limits_{F(x) \le y} x$。
注:$Y \sim U(0, 1), F^{-1}(Y)$ 的 cdf 为 $F(x)$。
——构造相应的随机样本,满足给定的分布 $F(x)$。
No Comments