概率论与数理统计笔记（5）——参数估计

wzf2000
2020年6月10日

概率论与数理统计笔记（5）——参数估计

Contents

Chapter 5：参数估计

0、统计引言

数据处理 $\longrightarrow$ 获得信息（不确定性的分解，Shannon）。

统计学

一门艺术。

数理统计学

数据收集（带有随机性）。
数据分析（依附统计模型）。
统计推断（样本到总体）。

总体

统计总体 $=$ 一个概率分布。

注：

无限总体；
有限总体——离散分布——个体数量很多时近似称为无限总体；
“虚拟总体”。

统计模型

一族概率分布。

参数模型，比如正态分布。
非参模型，不能用有限个参数来刻画。

样本

$$
(X_1, \cdots, X_n)
$$

其中每个 $X_i$ 来自总体 $X$。（此处随机变量可能是高维的）

$n$ 称为样本容量，其分布称为样本分布。

获取方式：

观测，分为完全和不完全；
试验。（$e.g.$ 抽样调查）

简单随机样本

总体个数 $N$ 有限，无放回。

任何容量相等的样本都具有相同的发生概率。

随机样本

$X_1, \cdots, X_n$ iid。

$e.g.$ 随机抽样（有放回，或近似有放回 $n << N$）。

注：不当抽样。

$e.g.$ 民意调查。

无响应。
有偏取样。
问题设置，语气，调查员。

统计量

$$
T(X_1, \cdots, X_n)
$$

完全由样本决定的量——数据简化方式。

$e.g.$ $\overline{X} = \dfrac{1}{n} \sum\limits_{i = 1}^n X_i, S^2 = \dfrac{1}{n - 1} \sum\limits_{i = 1}^n \left(X - \overline{X}\right)^2$。

统计推断

总体（因）决定了样本（果）的分布。

通过样本来看总体就是统计推断做的事。

经典方法（频率）；
Bayes 方法。

$e.g.$ 元件寿命，假设 $X \sim Exp(\lambda)$，问 $\lambda$ 的值。（参数估计）

注：

误差多少？
产生指定大小误差的机会有多大？
达到指定的置信度，$n = $？
$(\varepsilon, \alpha, n)$ 的关系。

假设合格标准为 $E(X) \ge L$，而 $E(X)$ 未知，检验标准 $\overline{X} \ge l$？（假设检验）

$e.g.$ $Y_i = a X_i + \varepsilon_i$（接收信号与发出信号有线性关系）。

模型推断：$a = $？$(X_i, Y_i) \longrightarrow a$。

变量推断：$a$ 已知，观测到 $Y_i$，问 $X_i$ 的值。

1、矩估计

$X_1, \cdots, X_n$ iid。

样本矩

$k$ 阶原点矩：
$$
a_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n X_i^k
$$
$k$ 阶中心矩：
$$
m_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n \left(X_i - \overline{X}\right)^k
$$
$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$。
$$
\mu = E(X) \approx a_1 = \overline{X} \\
\sigma^2 = Var(X) \approx m_2 = \frac{1}{n} \sum_{i = 1}^n \left(X_i - \overline{X}\right)^2
$$
$e.g.$ $X_i \stackrel{iid}{\sim} Exp(\lambda)$。
$$
\frac{1}{\lambda} = E(X) \approx a_1 = \overline{X} \Rightarrow \lambda \approx \frac{1}{\overline{X}} \\
\frac{1}{\lambda^2} = Var(X) \approx m_2 \Rightarrow \lambda \approx \left(\frac{1}{m_2}\right)^{\frac{1}{2}}
$$
基本原则：尽量用低阶矩。

问题：估计好不好？

经验分布

$$
F_n(x) \stackrel{\triangle}{=} \frac{1}{n} \{X_1, \cdots, X_n \text{ 中 } \le x 的个数\} \\
= \frac{1}{n} \sum_{i = 1}^n I(X_i \le x)
$$

（在每个数据点 $X_i$ 上的概率为 $\frac{1}{n}$ 的 cdf）

其中：
$$
I(X_i \le x) =
\begin{cases}
1 & X_i \le x \\
0 & X_i > x
\end{cases}
$$
则 $F_n \stackrel{P}{\to} F$（$F$ 为总体的 cdf）。

注：$F_n$ 的矩即为 $(X_1, \cdots, X_n)$ 的样本矩。

2、极大似然估计

似然函数

假设 $X_1, \cdots, X_n$ 的联合分布为 $f(x_1. \cdots, x_n; \theta)$（pdf/pmf），$\theta$ 为参数（可以是标量也可以是向量）。

对于观测 $(X_1, \cdots, X_n)$ 的似然（函数）定义为：
$$
L(\theta) \stackrel{\triangle}{=} f(x_1, \cdots, x_n; \theta)
$$

注：

观测数据通常记为 $x_1, \cdots, x_n$，视为随机变量 $X_1, \cdots, X_n$ 的实现值。
若 $X_1, \cdots, X_n$ iid，总体分布的 pdf/pmf 为 $f(x; \theta)$，则 $f(X_1, \cdots, X_n; \theta) = f(X_1; \theta) \cdots f(X_n; \theta)$。
离散时，$L(\theta)$ 为出现观测 $(X_1, \cdots, X_n)$ 的概率。

极大似然估计

$$
\theta^* \stackrel{\triangle}{=} \arg \max_{\theta} L(\theta)
$$

称为 $\theta$ 的极大似然估计。（$X_1, \cdots, X_n$ 固定）

$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$，$\mu, \sigma^2$ 未知。
$$
L(\mu, \sigma^2) \stackrel{\triangle}{=} \prod_{i = 1}^n \left(\frac{1}{\sqrt{2\pi}} e^{-\frac{(X_i - \mu)^2}{2 \sigma^2}}\right) \\
\begin{cases}
\dfrac{\partial \ln L}{\partial \mu} = 0 \\
\dfrac{\partial \ln L}{\partial (\sigma^2)} = 0
\end{cases}
\Rightarrow
\begin{cases}
\mu^* = \overline{X} \\
(\sigma^2)^* = m_2 = \dfrac{1}{n} \sum\limits_{i = 1}^n \left(X_i - \overline{X}\right)^2
\end{cases}
$$
（左侧方程称为似然方程组）

容易验证 $\left(\mu^*, (\sigma^2)^*\right)$ 为 $\ln L$ ，进而为 $L$ 的最大值点。

注：

$g(\theta)$ 的极大似然估计为 $g(\theta^*)$（极大似然估计的不变性）。
上例结果与矩估计结果一致，仅是个案。

$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$，$\theta$ 未知。
$$
L(\theta) =
\begin{cases}
\frac{1}{\theta^n} & X_i \in (0, \theta), \forall i \\
0 & otherwise
\end{cases}
\Rightarrow \theta^* = \max \{X_1, \cdots, X_n\}
$$
显然 $L(\theta^*) \ge L(\theta), \forall \theta > 0$，则 $\theta$ 为所求的极大似然估计。

$e.g.$
$$
f(x; \theta) = \frac{1}{\pi[1 + (x - \theta)^2]}, x \in \mathbb{R}
$$
（Cauchy 分布）

无矩 $\to$ 无矩估计。
似然方程：
$$
\sum_{i = 1}^n \frac{X_i - \theta}{1 + (X_i - \theta)^2} = 0
$$
根多不易求——极大似然估计方法不够理想。
$\theta$ 为中位数，$\theta \approx$ 样本中位数。

注：正态总体 $N(\mu, \sigma^2)$ 中 $\mu$ 既是 $E(X)$，也是中位数。

估计不唯一，优劣是相对的（相对于一定标准）。

即使是极大似然估计也不一定唯一。
矩估计不需要分布的参数形式。

3、Bayes 估计

先验与后验

在搜集任何数据之前，对参数 $\theta$ 有先验知识，可用一个概率分布来表示（先验分布，$\Theta$——随机变量），则 $\theta$ 即为 $\Theta$ 的实现值。

$f_\Theta(\theta)$ 为先验分布，$X$ 为试验、观测，$f_X(x | \theta)$ 为样本分布（$f_X(x; \theta)$）。

$f_\Theta(\theta | x)$ 为后验分布：
$$
f_\Theta(\theta | x) = \frac{f(x, \theta)}{f_X(x)} = \frac{f_\Theta(\theta) f_X(x | \theta)}{f_X(x)}
$$

实例

$e.g.$ 硬币正面向上的概率为 $\theta$（未知），抛了 $n$ 次，出现了 $x$ 次正面向上，对 $\theta$ 的初始认知状态：
$$
f_\Theta(\theta) = 1, \theta \in (0, 1)
$$
这种方法称为 Bayes 原则（准则）。

给定 $\theta$，$X \sim B(n, \theta)$：
$$
f_X(x | \theta) = \binom{n}{x} \theta^x (1 - \theta)^{n - x}, x = 0, 1, \cdots, n
$$
$(x, \theta)$ 的联合分布：
$$
f(x, \theta) = f_X(x | \theta) f_\Theta(\theta) = \binom{n}{x} \theta^x (1 - \theta)^{n - x}, x = 0, 1, \cdots, n, \theta \in (0, 1) \\
\Rightarrow f_X(x) = \int_0^1 f(x, \theta) \, \mathrm{d} \theta = \frac{1}{n + 1} \\
\Rightarrow f_\Theta(\theta | x) = \frac{\Gamma(n +2)}{\Gamma(x + 1) \Gamma(n - x +1)} \theta^x (1 - \theta)^{n - x}
$$
因此后验分布即为参数为 $x + 1$ 和 $n - x + 1$ 的 $\beta$ 分布。

注：可用后验均值 $E(\Theta | x)$ 或后验众数（使得 $f_\Theta(\theta | x)$ 取最大值的点）等来估计 $\theta$。

$\hat{\theta} = E(\Theta | x) = \dfrac{x + 1}{n + 2}, \theta^* = \dfrac{x}{n}$。

$U(0, 1) = \beta(1, 1)$，若先验为 $\beta(a, b)$，则后验为 $\beta(a + x, n + b - x)$，$\hat{\theta} = \dfrac{a + x}{n + a+ b} = \dfrac{a + b}{n + a + b} \cdot \dfrac{a}{a + b} + \dfrac{n}{n + a + b} \cdot \dfrac{x}{n}$。

4、无偏性

偏差（bias）

令：
$$
\hat{\theta} = \hat{\theta}(X_1, \cdots, X_n)
$$

为估计的方法。

定义偏差：
$$
\mathrm{Bias}\left(\hat{\theta}\right) = E_\theta\left(\hat{\theta}\right) - \theta
$$
其中期望是对于 $X_1, \cdots, X_n$ 的期望。

无偏性

若 $E\left(\hat{\theta}\right) = \theta, \forall$ 可能的 $\theta$，则称 $\hat{\theta}$ 为 $\theta$ 的一个无偏估计。

注：一般地，$\hat{g}(X_1, \cdots, X_n)$ 为 $g(\theta)$ 的无偏估计 $\Leftrightarrow E\left(\hat{g}\right) = g(\theta)$。

无偏性 $=$ 无系统误差。
若无偏，则由大数定律，$\displaystyle \frac{1}{N} \sum_{m = 1}^N \hat{g}\left(X_1^{(m)}, \cdots, X_n^{(m)}\right) \stackrel{P}{\to} E(\hat{g}) = g(\theta)$。
无偏性实际价值视情形不同。（$e.g.$ 买东西，质量控制）

$e.g.$ $E(X) = \mu, Var(X) = \sigma^2, E\left(\overline{X}\right) = \dfrac{1}{n} n \mu = \mu, E(m_2) = \dfrac{n - 1}{n} \sigma^2$。

$\Rightarrow S^2 = \dfrac{n}{n - 1} m_2$ 为无偏估计。

$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$，$\theta^* = \max\{X_1, \cdots, X_n\}$，$E(\theta^*) = \dfrac{n}{n +1} \theta$。

注：

极大似然估计也不一定无偏。
上例中 $\dfrac{n + 1}{n} \theta^*$ 无偏，$2 \overline{X}$ 无偏。

5、均方误差准则

均方误差（MSE）

$n$ 固定时，定义均方误差：
$$
E\left[\left(\hat{\theta} - \theta\right)^2\right] \\
= Var\left(\hat{\theta}\right) + E^2\left(\hat{\theta} - \theta\right) \\
= Var\left(\hat{\theta}\right) + \mathrm{Bias}^2\left(\hat{\theta}\right)
$$
其中第二项为准确度，也就是算法能力的刻画。

第一项为精度，数据扰动造成的影响。

定义（准则）

假设 $\hat{\theta}_1, \hat{\theta}_2$ 均为 $\theta$ 的无偏估计，若 $Var\left(\hat{\theta}_1\right) \le Var\left(\hat{\theta}_2\right), \forall \theta$，且存在一个 $\theta$ 值使得 $<$ 成立，则称在均方误差意义下 $\hat{\theta}_1$ 优于 $\hat{\theta}_2$。

$e.g. \ \mu = E\left(\overline{X}\right) = E(X_1) = E\left(\dfrac{X_1 + X_n}{2}\right)$。
$$
Var\left(\overline{X}\right) = \frac{1}{n} \sigma^2, Var(X_1) = \sigma^2, Var\left(\frac{X_1 + X_n}{2}\right) = \frac{\sigma^2}{2}
$$
因此第一种估计最优。

最小方差无偏估计

$\hat{\theta}_0$ 为 $\theta$ 的无偏估计，且 $Var\left(\hat{\theta}_0\right) \le Var\left(\hat{\theta}\right)$，$\forall$ 无偏估计 $\hat{\theta}$，$\forall \theta$，则称 $\hat{\theta}_0$ 为 $\theta$ 的最小方差无偏估计（MVU 估计）。

注：称为有效性。

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$。
$$
E(m_2) = \frac{n - 1}{n} \sigma^2, E(S^2) = \sigma^2 \\
E[(m_2 - \sigma^2)^2] < E[(s^2 - \sigma^2)^2] $$ 也就是低偏移换方差。

标准误差

估计 $\hat{\theta}$ 的标准误差定义为：
$$
se = se\left(\hat{\theta}\right) = \sqrt{Var\left(\hat{\theta}\right)}
$$
其估计为：
$$
\hat{se} = \hat{se}\left(\hat{\theta}\right)
$$

概率论与数理统计笔记（5）——参数估计

概率论与数理统计笔记（5）——参数估计

Chapter 5：参数估计

0、统计引言

统计学

数理统计学

总体

统计模型

样本

简单随机样本

随机样本

统计量

统计推断

1、矩估计

样本矩

经验分布

2、极大似然估计

似然函数

极大似然估计

3、Bayes 估计

先验与后验

实例

4、无偏性

偏差（bias）

无偏性

5、均方误差准则

均方误差（MSE）

定义（准则）

最小方差无偏估计

实例

标准误差

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

扫描二维码加入交流

购买积分

概率论与数理统计笔记（5）——参数估计

概率论与数理统计笔记（5）——参数估计

Chapter 5：参数估计

0、统计引言

统计学

数理统计学

总体

统计模型

样本

简单随机样本

随机样本

统计量

统计推断

1、矩估计

样本矩

经验分布

2、极大似然估计

似然函数

极大似然估计

3、Bayes 估计

先验与后验

实例

4、无偏性

偏差（bias）

无偏性

5、均方误差准则

均方误差（MSE）

定义（准则）

最小方差无偏估计

实例

标准误差

No Comments

Add your comment 取消回复

登录

一言

热门文章

近期评论

标签

扫描二维码加入交流

购买积分