概率论与数理统计笔记(2)——随机变量

概率论与数理统计笔记(2)——随机变量

Chapter 2:随机变量

1、(1 维)随机变量

定义

样本空间上的实值函数。
$$
X : \Omega \to \mathbb{R} \\
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \omega \mapsto X(\omega)
$$

:概括作用,关注问题本质。
事件对变量类似于静态对动态。

分类

  1. 离散型:至多可数多个取值。
  2. 连续型。
  3. 其他(包括混合型)。

概率定义

$$
P(X \in I)_X \stackrel{\triangle}{=} P(X^{-1}(I))
$$

:$X^{-1}(I) \subset \Omega$ 表示 $I$ 的原像集。
一般记 $P_X$ 为 $P$。

(累积)分布函数

累积分布函数(Cumulative Distribution Function,简记为 cdf):
$$
F(x) \stackrel{\triangle}{=} P(X \le x), \forall x \in \mathbb{R}
$$


$P(a < X \le b) = F(b) - F(a)$。

性质
1. $F(x)$ 单调增(不一定严格增)。
2. $\lim\limits_{x \to +\infty} F(x) = 1, \lim\limits_{x \to -\infty} F(x) = 0$。
3. 右连续。


上述三条性质是函数成为概率分布函数的充要条件。

问题
若定义 $F(x) \stackrel{\triangle}{=} P(X < x)$,三条性质如何?

  1. 样本空间可以很具体;
  2. 随机要素来自样本点 $\omega$ 的“随机”选择;
  3. 应用中,很多时候随机变量的直观意义出现在样本空间的直观意义之前;
  4. 一般 $g(X,Y)$ 皆为随机变量;
  5. 要求 $X^{-1}(I) \in \mathcal{F}$;
  6. 同分布可对应不同的随机变量;
    $e.g.$ 掷三次硬币,正面向上和反面向上次数的两个随机变量同分布,但不存在 $\omega$ 使得 $X(\omega) = Y(\omega)$。

2、离散分布

分布表:取值对应概率,上面取值下面概率。

概率质量函数(pmf)

$$
f(x) \stackrel{\triangle}{=} P(X = x), \forall x \in \mathbb{R}
$$

:$f(x_i) = P_i \ge 0, \sum\limits_{i} f(x_i) = 1$

($\sum\limits_{x \in \mathbb{R}} f(x) = \sum\limits_{i} f(x_i) = 1$)

期望

$$
E(X) \stackrel{\triangle}{=} \sum_i x_i f(x_i)
$$

方差

$$
Var(X) \stackrel{\triangle}{=} \sum_i (x_i – E(X))^2 f(x_i) \\
= E[(X – E(X))^2] \\
= E(X^2) – E^2(X)
$$

期望存在则 $\sum_i |x_i| f(x_i) < \infty$ 即级数绝对收敛。


1. 期望即均值;
2. $E(X)$ 为分布的特征;
3. $E(g(X)) = \sum\limits_i g(x_i) f(x_i)$。

3、常见离散分布

Bernoulli 分布

$$
X =
\begin{cases}
1 & 成功 & p \\
0 & 失败 & 1 – p
\end{cases}
\ \ \ \ (p \in (0, 1))
$$

记 $X \sim B(p)$,则 $E(X) = p, Var(X) = p – p^2 = p(1 – p)$。

二次分布

$X = n$ 次独立重复试验(同上)成功次数。
$$
P(X = k) = \binom{n}{k} p^k (1 – p)^{n – k} \ \ \ \ (k = 0, 1, \cdots, n)
$$
记 $X \sim B(n, p)$,则 $E(X) = np, Var(X) = np(1 – p)$。

Poisson 分布

$$
P(X = k) = \frac{\lambda^k}{k!} e^{-\lambda} \ \ \ \ (k = 0, 1, 2, \cdots)
$$

$\lambda > 0$ 为常数。

记 $X \sim P(\lambda)$,则 $E(X) = \lambda = Var(X)$(留做练习)。

引入:观察时间 $[0, 1)$(一定时间内),路口交通事故数 $X$。

$l_i = [\frac{i – 1}{n}, \frac{i}{n})$,$n$ 充分大,$i = 1, 2, \cdots, n$。

假设:

  1. $l_i$ 内至多发生一次事故;
  2. 恰发生一次的概率 $P = \frac{\lambda}{n}$(与时长 $\frac{1}{n}$ 成正比);
  3. $l_i$ 各段独立。

则 $X \sim B(n, p)$,其中 $p = \frac{\lambda}{n}$。
$$
P(X = k) = \binom{n}{k} p^k (1 – p)^{n – k} \\
= \frac{\lambda^k}{k!} \left(1 – \frac{\lambda}{n}\right)^n \frac{n!}{(n – k)!n^k} \left(1 – \frac{\lambda}{n}\right)^{-k} \\
\to \frac{\lambda^k}{k!} e^{-\lambda} (n \to \infty)
$$

:此即表明,若 $X \sim B(n, p)$,$p$ 很小,$n$ 很大,$np$ 不太大:
则 $X \stackrel{近似}{\sim} P(\lambda), \lambda = np$,即有 $P(X = k) \approx \frac{\lambda^k}{k!} e^{-\lambda}$。

$e.g.$ 某医院平均每小时出生 $\lambda$ 名婴儿,接下来 $t$ 小时内出生数的分布?
$$
P(N(t) = k) = \frac{(\lambda t)^k}{k!} e^{-\lambda t}
$$

:$P(\lambda)$ 多用于当 $X$ 表示一定时间或一定空间内出现的小概率事件次数这样的集合。
若试验不独立,但弱相依条件下仍为较好近似。

4、连续分布

定义

若存在 $f \ge 0$,使得 $\forall$ 可测集 $I \subset \mathbb{R}$ 都有:
$$
P(X \in I) = \int_I f(x) \mathrm{d} x
$$
则称 $X$ 为连续型随机变量,$f$ 为 $X$ 的概率密度函数(pdf)

性质

  1. $$
    \int_{-\infty}^{+\infty} f(x) \mathrm{d} x = 1
    $$

  2. $$
    P(a < x \le b) = F(b) - F(a) = \int_a^b f(x) \mathrm{d} x = P(a \le x \le b) \\ = P(a < x < b) = P(a \le x < b) $$

  3. $$
    P(X = x) \equiv 0
    $$

  4. $$
    P(x – \delta < X < x + \delta) \approx 2\delta f(x) $$

  5. $$
    F(x) = P(X \le x) = \int_{-\infty}^x f(t) \mathrm{d} t
    $$

    此函数(cdf)连续。
    $$
    F^\prime (x) = f(x)
    $$
    当 $f$ 在 $x$ 处连续时成立。

  6. pdf 若存在则不唯一。

期望

$$
E(x) \stackrel{\triangle}{=} \int_{-\infty}^{+\infty} x f(x) \mathrm{d} x
$$

$E(x)$ 存在则等价于:
$$
\int_{-\infty}^{+ \infty} |x| f(x) \mathrm{d} x < \infty $$

方差

$$
Var(x) \stackrel{\triangle}{=} E[(X – E(X))^2] = E(X^2) – E^2(X) \\
= \int_{-\infty}^{+\infty} (x – E(x))^2 f(x) \mathrm{d} x
$$


$$
E(g(X)) = \int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x
$$

5、常见连续分布

均匀分布

$$
f(x) =
\begin{cases}
\frac{1}{b – a} & a < x < b \\ 0 & 其他 \end{cases} $$即为 $X \sim U(a, b)$。期望、方差留做练习。:$X \sim U(0, 1)$,通常称 $X$ 为随机数,可用来实现分布模拟。

正态分布

$$
f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\dfrac{(x – \mu)^2}{2 \sigma^2}}, x \in \mathbb{R}
$$

记为 $X \sim N(\mu, \sigma^2)$。


1. $\mu = E(X), \sigma^2 = Var(X)$。
2. $N(0, 1)$——标准正态分布。
3. $X \sim N(\mu, \sigma^2)$,则 $Y = \dfrac{X – \mu}{\sigma} \sim N(0, 1)$。

经验法则
$$
\begin{matrix}
\sigma & 2\sigma & 3\sigma \\
68\% & 95\% & 99.7\%
\end{matrix}
$$

指数分布

$$
f(x) =
\begin{cases}
\lambda e^{-\lambda x} & x > 0 \\
0 & x \le 0
\end{cases}
\Rightarrow F(x) =
\begin{cases}
1 – e^{-\lambda x} & x > 0 \\
0 & x \le 0
\end{cases}
$$

记为 $X \sim Exp(\lambda)$。


1. $E(X) = \frac{1}{\lambda}, Var(X) = \frac{1}{\lambda^2}$。
2. $X$ 常用于刻画寿命或等待时间。
3. 尾概率:$P(X > x) = e^{-\lambda x}, x > 0$。

$e.g.$ 接下来 $t$ 小时内有婴儿出生的概率。(排队模型)
$$
P(X > t) = P(N(t) = 0) = \frac{(\lambda t)^0}{0!} e^{-\lambda t} = e^{-\lambda t} \\
P(X \le t) = 1 – e^{-\lambda t}
$$
失效率(危险率)

假设 $X$ 为连续型,cdf 为 $F(x)$,$F(0) = 0$,则:
$$
P(x < X < x + \mathrm{d} x | X > x) = \frac{P(x < X < x + \mathrm{d} x)}{P(X > x)} \\
\approx \frac{F^\prime(x) \mathrm{d} x}{1 – F(x)} = \frac{F^\prime (x)}{1 – F(x)} \mathrm{d} x
$$
“年龄”为 $x$ 的年龄不能继续使用的条件概率密度为:
$$
\frac{F^\prime(x)}{1 – F(x)} = \lambda (x)
$$
两边积分可得:
$$
F(x) = 1 – \exp \left (-\int_0^x \lambda(t) \mathrm{d} t \right ), x > 0
$$
“无老化”假设

若假设 $\lambda (x) \equiv \lambda$,则 $F(x) = 1 – e^{-\lambda x}, x > 0$ 即为指数分布。
$$
\Rightarrow P(X > t + s | X > s) = \frac{P(X > t + s)}{P(X > s)} = e^{- \lambda t} = P(X > t), \forall s, t > 0
$$
这种性质称为无记忆性

:“无老化”假设应用局限。

改进

假设:
$$
\frac{F^\prime (x)}{1 – F(x)} = \alpha \frac{x^{\alpha – 1}}{\beta^\alpha}, x > 0, \alpha > 0, \beta > 0 \\
\Rightarrow F(x) =
\begin{cases}
1 – \exp \left( – \left (\dfrac{x}{\beta} \right )^\alpha \right ) & x > 0 \\
0 & x \le 0
\end{cases}
$$
称为 Weibull 分布。

6、随机变量的函数

$$
Y = g(X)
$$

$X$ 离散 $\Rightarrow Y$ 离散,$X$ 连续 $\not \Rightarrow Y$ 连续。

$e.g.$
$$
X \sim Exp(\lambda), Y =
\begin{cases}
0 & X \le t_0 \\
1 & X > t_0
\end{cases},
t_0 > 0 固定。 \\
\Rightarrow P(Y = 0) = P(X \le t_0) = 1 – e^{\lambda t_0}, P(Y = 1) = e^{-\lambda t_0}
$$
$e.g.$ $g(X) = X^2 = Y$

$X$ 离散,则 $P(Y = b) = \sum\limits_{a^2 = b} P(X = a)$。

$X$ 连续,假设其 pdf 为 $f(x)$:
$$
\forall y > 0, P(Y \le y) = P(X^2 \le y) = P(-\sqrt{y} \le X \le \sqrt{y}) \\
= \int_{-\sqrt{y}}^\sqrt{y} f(x) \mathrm{d} x = \int_0^y l(t) \mathrm{d} t \\
\Rightarrow l(y) =
\begin{cases}
\frac{1}{2\sqrt{y}} (f(\sqrt{y}) + f(-\sqrt{y})) & y > 0 \\
0 & y \le 0
\end{cases}
$$
其中 $l(y)$ 为 $Y$ 的 pdf。

:直接求分布:
1. 离散:$P(g(X) = y)$。
2. 连续:$P(g(X) \le y)$。

$e.g.$ 假设 $X \in N(0, 1), Y = X^2$ 的 pdf 为:
$$
l(y) = \frac{1}{\sqrt{2\pi}} \frac{1}{\sqrt{y}} e^{-\frac{y}{2}}, y > 0
$$
称为自由度为 $1$ 的 $\chi^2-$ 分布。

$e.g.$ 假设 $X$ 的 cdf 为 $F(x)$,$F(x)$ 连续,则 $Y = F(X) \sim U(0, 1)$。(概率积分变换)

证明:$\forall y \in (0, 1)$ 时:
$$
P(Y \le y) = P(F(X) \le y) \\
= P(X \le F^{-1}(y)) \ \ \ \ (需 F 严格增) \\
= F(F^{-1})(y) = y
$$
一般地,定义 $F^{-1}(y) \stackrel{\triangle}{=} \inf\limits_{F(x) \le y} x$。

:$Y \sim U(0, 1), F^{-1}(Y)$ 的 cdf 为 $F(x)$。
——构造相应的随机样本,满足给定的分布 $F(x)$。

 

点赞 0

No Comments

Add your comment