概率论与数理统计笔记(5)——参数估计
Contents
Chapter 5:参数估计
0、统计引言
数据处理 $\longrightarrow$ 获得信息(不确定性的分解,Shannon)。
统计学
一门艺术。
数理统计学
- 数据收集(带有随机性)。
- 数据分析(依附统计模型)。
- 统计推断(样本到总体)。
总体
统计总体 $=$ 一个概率分布。
注:
- 无限总体;
- 有限总体——离散分布——个体数量很多时近似称为无限总体;
- “虚拟总体”。
统计模型
一族概率分布。
- 参数模型,比如正态分布。
- 非参模型,不能用有限个参数来刻画。
样本
$$
(X_1, \cdots, X_n)
$$
其中每个 $X_i$ 来自总体 $X$。(此处随机变量可能是高维的)
$n$ 称为样本容量,其分布称为样本分布。
获取方式:
- 观测,分为完全和不完全;
- 试验。($e.g.$ 抽样调查)
简单随机样本
总体个数 $N$ 有限,无放回。
任何容量相等的样本都具有相同的发生概率。
随机样本
$X_1, \cdots, X_n$ iid。
$e.g.$ 随机抽样(有放回,或近似有放回 $n << N$)。
注:不当抽样。
$e.g.$ 民意调查。
- 无响应。
- 有偏取样。
- 问题设置,语气,调查员。
统计量
$$
T(X_1, \cdots, X_n)
$$
完全由样本决定的量——数据简化方式。
$e.g.$ $\overline{X} = \dfrac{1}{n} \sum\limits_{i = 1}^n X_i, S^2 = \dfrac{1}{n - 1} \sum\limits_{i = 1}^n \left(X - \overline{X}\right)^2$。
统计推断
总体(因)决定了样本(果)的分布。
通过样本来看总体就是统计推断做的事。
- 经典方法(频率);
- Bayes 方法。
$e.g.$ 元件寿命,假设 $X \sim Exp(\lambda)$,问 $\lambda$ 的值。(参数估计)
注:
- 误差多少?
- 产生指定大小误差的机会有多大?
- 达到指定的置信度,$n = $?
$(\varepsilon, \alpha, n)$ 的关系。
假设合格标准为 $E(X) \ge L$,而 $E(X)$ 未知,检验标准 $\overline{X} \ge l$?(假设检验)
$e.g.$ $Y_i = a X_i + \varepsilon_i$(接收信号与发出信号有线性关系)。
模型推断:$a = $?$(X_i, Y_i) \longrightarrow a$。
变量推断:$a$ 已知,观测到 $Y_i$,问 $X_i$ 的值。
1、矩估计
$X_1, \cdots, X_n$ iid。
样本矩
$k$ 阶原点矩:
$$
a_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n X_i^k
$$
$k$ 阶中心矩:
$$
m_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n \left(X_i - \overline{X}\right)^k
$$
$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$。
$$
\mu = E(X) \approx a_1 = \overline{X} \\
\sigma^2 = Var(X) \approx m_2 = \frac{1}{n} \sum_{i = 1}^n \left(X_i - \overline{X}\right)^2
$$
$e.g.$ $X_i \stackrel{iid}{\sim} Exp(\lambda)$。
$$
\frac{1}{\lambda} = E(X) \approx a_1 = \overline{X} \Rightarrow \lambda \approx \frac{1}{\overline{X}} \\
\frac{1}{\lambda^2} = Var(X) \approx m_2 \Rightarrow \lambda \approx \left(\frac{1}{m_2}\right)^{\frac{1}{2}}
$$
基本原则:尽量用低阶矩。
问题:估计好不好?
经验分布
$$
F_n(x) \stackrel{\triangle}{=} \frac{1}{n} \{X_1, \cdots, X_n \text{ 中 } \le x 的个数\} \\
= \frac{1}{n} \sum_{i = 1}^n I(X_i \le x)
$$
(在每个数据点 $X_i$ 上的概率为 $\frac{1}{n}$ 的 cdf)
其中:
$$
I(X_i \le x) =
\begin{cases}
1 & X_i \le x \\
0 & X_i > x
\end{cases}
$$
则 $F_n \stackrel{P}{\to} F$($F$ 为总体的 cdf)。
注:$F_n$ 的矩即为 $(X_1, \cdots, X_n)$ 的样本矩。
2、极大似然估计
似然函数
假设 $X_1, \cdots, X_n$ 的联合分布为 $f(x_1. \cdots, x_n; \theta)$(pdf/pmf),$\theta$ 为参数(可以是标量也可以是向量)。
对于观测 $(X_1, \cdots, X_n)$ 的似然(函数)定义为:
$$
L(\theta) \stackrel{\triangle}{=} f(x_1, \cdots, x_n; \theta)
$$
注:
- 观测数据通常记为 $x_1, \cdots, x_n$,视为随机变量 $X_1, \cdots, X_n$ 的实现值。
- 若 $X_1, \cdots, X_n$ iid,总体分布的 pdf/pmf 为 $f(x; \theta)$,则 $f(X_1, \cdots, X_n; \theta) = f(X_1; \theta) \cdots f(X_n; \theta)$。
- 离散时,$L(\theta)$ 为出现观测 $(X_1, \cdots, X_n)$ 的概率。
极大似然估计
$$
\theta^* \stackrel{\triangle}{=} \arg \max_{\theta} L(\theta)
$$
称为 $\theta$ 的极大似然估计。($X_1, \cdots, X_n$ 固定)
$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知。
$$
L(\mu, \sigma^2) \stackrel{\triangle}{=} \prod_{i = 1}^n \left(\frac{1}{\sqrt{2\pi}} e^{-\frac{(X_i - \mu)^2}{2 \sigma^2}}\right) \\
\begin{cases}
\dfrac{\partial \ln L}{\partial \mu} = 0 \\
\dfrac{\partial \ln L}{\partial (\sigma^2)} = 0
\end{cases}
\Rightarrow
\begin{cases}
\mu^* = \overline{X} \\
(\sigma^2)^* = m_2 = \dfrac{1}{n} \sum\limits_{i = 1}^n \left(X_i - \overline{X}\right)^2
\end{cases}
$$
(左侧方程称为似然方程组)
容易验证 $\left(\mu^*, (\sigma^2)^*\right)$ 为 $\ln L$ ,进而为 $L$ 的最大值点。
注:
- $g(\theta)$ 的极大似然估计为 $g(\theta^*)$(极大似然估计的不变性)。
- 上例结果与矩估计结果一致,仅是个案。
$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$,$\theta$ 未知。
$$
L(\theta) =
\begin{cases}
\frac{1}{\theta^n} & X_i \in (0, \theta), \forall i \\
0 & otherwise
\end{cases}
\Rightarrow \theta^* = \max \{X_1, \cdots, X_n\}
$$
显然 $L(\theta^*) \ge L(\theta), \forall \theta > 0$,则 $\theta$ 为所求的极大似然估计。
$e.g.$
$$
f(x; \theta) = \frac{1}{\pi[1 + (x - \theta)^2]}, x \in \mathbb{R}
$$
(Cauchy 分布)
- 无矩 $\to$ 无矩估计。
似然方程:
$$
\sum_{i = 1}^n \frac{X_i - \theta}{1 + (X_i - \theta)^2} = 0
$$
根多不易求——极大似然估计方法不够理想。$\theta$ 为中位数,$\theta \approx$ 样本中位数。
注:正态总体 $N(\mu, \sigma^2)$ 中 $\mu$ 既是 $E(X)$,也是中位数。
估计不唯一,优劣是相对的(相对于一定标准)。
- 即使是极大似然估计也不一定唯一。
- 矩估计不需要分布的参数形式。
3、Bayes 估计
先验与后验
在搜集任何数据之前,对参数 $\theta$ 有先验知识,可用一个概率分布来表示(先验分布,$\Theta$——随机变量),则 $\theta$ 即为 $\Theta$ 的实现值。
$f_\Theta(\theta)$ 为先验分布,$X$ 为试验、观测,$f_X(x | \theta)$ 为样本分布($f_X(x; \theta)$)。
$f_\Theta(\theta | x)$ 为后验分布:
$$
f_\Theta(\theta | x) = \frac{f(x, \theta)}{f_X(x)} = \frac{f_\Theta(\theta) f_X(x | \theta)}{f_X(x)}
$$
实例
$e.g.$ 硬币正面向上的概率为 $\theta$(未知),抛了 $n$ 次,出现了 $x$ 次正面向上,对 $\theta$ 的初始认知状态:
$$
f_\Theta(\theta) = 1, \theta \in (0, 1)
$$
这种方法称为 Bayes 原则(准则)。
给定 $\theta$,$X \sim B(n, \theta)$:
$$
f_X(x | \theta) = \binom{n}{x} \theta^x (1 - \theta)^{n - x}, x = 0, 1, \cdots, n
$$
$(x, \theta)$ 的联合分布:
$$
f(x, \theta) = f_X(x | \theta) f_\Theta(\theta) = \binom{n}{x} \theta^x (1 - \theta)^{n - x}, x = 0, 1, \cdots, n, \theta \in (0, 1) \\
\Rightarrow f_X(x) = \int_0^1 f(x, \theta) \, \mathrm{d} \theta = \frac{1}{n + 1} \\
\Rightarrow f_\Theta(\theta | x) = \frac{\Gamma(n +2)}{\Gamma(x + 1) \Gamma(n - x +1)} \theta^x (1 - \theta)^{n - x}
$$
因此后验分布即为参数为 $x + 1$ 和 $n - x + 1$ 的 $\beta$ 分布。
注:可用后验均值 $E(\Theta | x)$ 或后验众数(使得 $f_\Theta(\theta | x)$ 取最大值的点)等来估计 $\theta$。
$\hat{\theta} = E(\Theta | x) = \dfrac{x + 1}{n + 2}, \theta^* = \dfrac{x}{n}$。
$U(0, 1) = \beta(1, 1)$,若先验为 $\beta(a, b)$,则后验为 $\beta(a + x, n + b - x)$,$\hat{\theta} = \dfrac{a + x}{n + a+ b} = \dfrac{a + b}{n + a + b} \cdot \dfrac{a}{a + b} + \dfrac{n}{n + a + b} \cdot \dfrac{x}{n}$。
4、无偏性
偏差(bias)
令:
$$
\hat{\theta} = \hat{\theta}(X_1, \cdots, X_n)
$$
为估计的方法。
定义偏差:
$$
\mathrm{Bias}\left(\hat{\theta}\right) = E_\theta\left(\hat{\theta}\right) - \theta
$$
其中期望是对于 $X_1, \cdots, X_n$ 的期望。
无偏性
若 $E\left(\hat{\theta}\right) = \theta, \forall$ 可能的 $\theta$,则称 $\hat{\theta}$ 为 $\theta$ 的一个无偏估计。
注:一般地,$\hat{g}(X_1, \cdots, X_n)$ 为 $g(\theta)$ 的无偏估计 $\Leftrightarrow E\left(\hat{g}\right) = g(\theta)$。
- 无偏性 $=$ 无系统误差。
- 若无偏,则由大数定律,$\displaystyle \frac{1}{N} \sum_{m = 1}^N \hat{g}\left(X_1^{(m)}, \cdots, X_n^{(m)}\right) \stackrel{P}{\to} E(\hat{g}) = g(\theta)$。
- 无偏性实际价值视情形不同。($e.g.$ 买东西,质量控制)
$e.g.$ $E(X) = \mu, Var(X) = \sigma^2, E\left(\overline{X}\right) = \dfrac{1}{n} n \mu = \mu, E(m_2) = \dfrac{n - 1}{n} \sigma^2$。
$\Rightarrow S^2 = \dfrac{n}{n - 1} m_2$ 为无偏估计。
$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$,$\theta^* = \max\{X_1, \cdots, X_n\}$,$E(\theta^*) = \dfrac{n}{n +1} \theta$。
注:
- 极大似然估计也不一定无偏。
- 上例中 $\dfrac{n + 1}{n} \theta^*$ 无偏,$2 \overline{X}$ 无偏。
5、均方误差准则
均方误差(MSE)
$n$ 固定时,定义均方误差:
$$
E\left[\left(\hat{\theta} - \theta\right)^2\right] \\
= Var\left(\hat{\theta}\right) + E^2\left(\hat{\theta} - \theta\right) \\
= Var\left(\hat{\theta}\right) + \mathrm{Bias}^2\left(\hat{\theta}\right)
$$
其中第二项为准确度,也就是算法能力的刻画。
第一项为精度,数据扰动造成的影响。
定义(准则)
假设 $\hat{\theta}_1, \hat{\theta}_2$ 均为 $\theta$ 的无偏估计,若 $Var\left(\hat{\theta}_1\right) \le Var\left(\hat{\theta}_2\right), \forall \theta$,且存在一个 $\theta$ 值使得 $<$ 成立,则称在均方误差意义下 $\hat{\theta}_1$ 优于 $\hat{\theta}_2$。
$e.g. \ \mu = E\left(\overline{X}\right) = E(X_1) = E\left(\dfrac{X_1 + X_n}{2}\right)$。
$$
Var\left(\overline{X}\right) = \frac{1}{n} \sigma^2, Var(X_1) = \sigma^2, Var\left(\frac{X_1 + X_n}{2}\right) = \frac{\sigma^2}{2}
$$
因此第一种估计最优。
最小方差无偏估计
$\hat{\theta}_0$ 为 $\theta$ 的无偏估计,且 $Var\left(\hat{\theta}_0\right) \le Var\left(\hat{\theta}\right)$,$\forall$ 无偏估计 $\hat{\theta}$,$\forall \theta$,则称 $\hat{\theta}_0$ 为 $\theta$ 的最小方差无偏估计(MVU 估计)。
注:称为有效性。
实例
$e.g.$ $X \sim N(\mu, \sigma^2)$。
$$
E(m_2) = \frac{n - 1}{n} \sigma^2, E(S^2) = \sigma^2 \\
E[(m_2 - \sigma^2)^2] < E[(s^2 - \sigma^2)^2]
$$
也就是低偏移换方差。
标准误差
估计 $\hat{\theta}$ 的标准误差定义为:
$$
se = se\left(\hat{\theta}\right) = \sqrt{Var\left(\hat{\theta}\right)}
$$
其估计为:
$$
\hat{se} = \hat{se}\left(\hat{\theta}\right)
$$
No Comments