概率论与数理统计笔记(5)——参数估计

概率论与数理统计笔记(5)——参数估计

Contents

Chapter 5:参数估计

0、统计引言

数据处理 $\longrightarrow$ 获得信息(不确定性的分解,Shannon)。

统计学

一门艺术。

数理统计学

  1. 数据收集(带有随机性)。
  2. 数据分析(依附统计模型)。
  3. 统计推断(样本到总体)。

总体

统计总体 $=$ 一个概率分布。

  1. 无限总体;
  2. 有限总体——离散分布——个体数量很多时近似称为无限总体;
  3. “虚拟总体”。

统计模型

一族概率分布。

  1. 参数模型,比如正态分布。
  2. 非参模型,不能用有限个参数来刻画。

样本

$$
(X_1, \cdots, X_n)
$$

其中每个 $X_i$ 来自总体 $X$。(此处随机变量可能是高维的)

$n$ 称为样本容量,其分布称为样本分布。

获取方式

  1. 观测,分为完全和不完全;
  2. 试验。($e.g.$ 抽样调查)

简单随机样本

总体个数 $N$ 有限,无放回

任何容量相等的样本都具有相同的发生概率。

随机样本

$X_1, \cdots, X_n$ iid

$e.g.$ 随机抽样(有放回,或近似有放回 $n << N$)。

:不当抽样。

$e.g.$ 民意调查。

  1. 无响应。
  2. 有偏取样。
  3. 问题设置,语气,调查员。

统计量

$$
T(X_1, \cdots, X_n)
$$

完全由样本决定的量——数据简化方式。

$e.g.$ $\overline{X} = \dfrac{1}{n} \sum\limits_{i = 1}^n X_i, S^2 = \dfrac{1}{n – 1} \sum\limits_{i = 1}^n \left(X – \overline{X}\right)^2$。

统计推断

总体(因)决定了样本(果)的分布。

通过样本来看总体就是统计推断做的事。

  1. 经典方法(频率);
  2. Bayes 方法。

$e.g.$ 元件寿命,假设 $X \sim Exp(\lambda)$,问 $\lambda$ 的值。(参数估计)

  1. 误差多少?
  2. 产生指定大小误差的机会有多大?
  3. 达到指定的置信度,$n = $?

    $(\varepsilon, \alpha, n)$ 的关系。

假设合格标准为 $E(X) \ge L$,而 $E(X)$ 未知,检验标准 $\overline{X} \ge l$?(假设检验)

$e.g.$ $Y_i = a X_i + \varepsilon_i$(接收信号与发出信号有线性关系)。

模型推断:$a = $?$(X_i, Y_i) \longrightarrow a$。

变量推断:$a$ 已知,观测到 $Y_i$,问 $X_i$ 的值。

1、矩估计

$X_1, \cdots, X_n$ iid

样本矩

$k$ 阶原点矩:
$$
a_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n X_i^k
$$
$k$ 阶中心矩:
$$
m_k \stackrel{\triangle}{=} \frac{1}{n} \sum_{i = 1}^n \left(X_i – \overline{X}\right)^k
$$
$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$。
$$
\mu = E(X) \approx a_1 = \overline{X} \\
\sigma^2 = Var(X) \approx m_2 = \frac{1}{n} \sum_{i = 1}^n \left(X_i – \overline{X}\right)^2
$$
$e.g.$ $X_i \stackrel{iid}{\sim} Exp(\lambda)$。
$$
\frac{1}{\lambda} = E(X) \approx a_1 = \overline{X} \Rightarrow \lambda \approx \frac{1}{\overline{X}} \\
\frac{1}{\lambda^2} = Var(X) \approx m_2 \Rightarrow \lambda \approx \left(\frac{1}{m_2}\right)^{\frac{1}{2}}
$$
基本原则:尽量用低阶矩。

问题:估计好不好?

经验分布

$$
F_n(x) \stackrel{\triangle}{=} \frac{1}{n} \{X_1, \cdots, X_n \text{ 中 } \le x 的个数\} \\
= \frac{1}{n} \sum_{i = 1}^n I(X_i \le x)
$$

(在每个数据点 $X_i$ 上的概率为 $\frac{1}{n}$ 的 cdf)

其中:
$$
I(X_i \le x) =
\begin{cases}
1 & X_i \le x \\
0 & X_i > x
\end{cases}
$$
则 $F_n \stackrel{P}{\to} F$($F$ 为总体的 cdf)。

:$F_n$ 的矩即为 $(X_1, \cdots, X_n)$ 的样本矩。

2、极大似然估计

似然函数

假设 $X_1, \cdots, X_n$ 的联合分布为 $f(x_1. \cdots, x_n; \theta)$(pdf/pmf),$\theta$ 为参数(可以是标量也可以是向量)。

对于观测 $(X_1, \cdots, X_n)$ 的似然(函数)定义为:
$$
L(\theta) \stackrel{\triangle}{=} f(x_1, \cdots, x_n; \theta)
$$

  1. 观测数据通常记为 $x_1, \cdots, x_n$,视为随机变量 $X_1, \cdots, X_n$ 的实现值。
  2. 若 $X_1, \cdots, X_n$ iid,总体分布的 pdf/pmf 为 $f(x; \theta)$,则 $f(X_1, \cdots, X_n; \theta) = f(X_1; \theta) \cdots f(X_n; \theta)$。
  3. 离散时,$L(\theta)$ 为出现观测 $(X_1, \cdots, X_n)$ 的概率。

极大似然估计

$$
\theta^* \stackrel{\triangle}{=} \arg \max_{\theta} L(\theta)
$$

称为 $\theta$ 的极大似然估计。($X_1, \cdots, X_n$ 固定)

$e.g.$ $X_i \stackrel{iid}{\sim} N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知。
$$
L(\mu, \sigma^2) \stackrel{\triangle}{=} \prod_{i = 1}^n \left(\frac{1}{\sqrt{2\pi}} e^{-\frac{(X_i – \mu)^2}{2 \sigma^2}}\right) \\
\begin{cases}
\dfrac{\partial \ln L}{\partial \mu} = 0 \\
\dfrac{\partial \ln L}{\partial (\sigma^2)} = 0
\end{cases}
\Rightarrow
\begin{cases}
\mu^* = \overline{X} \\
(\sigma^2)^* = m_2 = \dfrac{1}{n} \sum\limits_{i = 1}^n \left(X_i – \overline{X}\right)^2
\end{cases}
$$
(左侧方程称为似然方程组)

容易验证 $\left(\mu^*, (\sigma^2)^*\right)$ 为 $\ln L$ ,进而为 $L$ 的最大值点。

  1. $g(\theta)$ 的极大似然估计为 $g(\theta^*)$(极大似然估计的不变性)。
  2. 上例结果与矩估计结果一致,仅是个案。

$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$,$\theta$ 未知。
$$
L(\theta) =
\begin{cases}
\frac{1}{\theta^n} & X_i \in (0, \theta), \forall i \\
0 & otherwise
\end{cases}
\Rightarrow \theta^* = \max \{X_1, \cdots, X_n\}
$$
显然 $L(\theta^*) \ge L(\theta), \forall \theta > 0$,则 $\theta$ 为所求的极大似然估计。

$e.g.$
$$
f(x; \theta) = \frac{1}{\pi[1 + (x – \theta)^2]}, x \in \mathbb{R}
$$
(Cauchy 分布)

  1. 无矩 $\to$ 无矩估计。

  2. 似然方程:
    $$
    \sum_{i = 1}^n \frac{X_i – \theta}{1 + (X_i – \theta)^2} = 0
    $$
    根多不易求——极大似然估计方法不够理想。

  3. $\theta$ 为中位数,$\theta \approx$ 样本中位数。

:正态总体 $N(\mu, \sigma^2)$ 中 $\mu$ 既是 $E(X)$,也是中位数。

估计不唯一,优劣是相对的(相对于一定标准)。

  1. 即使是极大似然估计也不一定唯一。
  2. 矩估计不需要分布的参数形式。

3、Bayes 估计

先验与后验

在搜集任何数据之前,对参数 $\theta$ 有先验知识,可用一个概率分布来表示(先验分布,$\Theta$——随机变量),则 $\theta$ 即为 $\Theta$ 的实现值。

$f_\Theta(\theta)$ 为先验分布,$X$ 为试验、观测,$f_X(x | \theta)$ 为样本分布($f_X(x; \theta)$)。

$f_\Theta(\theta | x)$ 为后验分布:
$$
f_\Theta(\theta | x) = \frac{f(x, \theta)}{f_X(x)} = \frac{f_\Theta(\theta) f_X(x | \theta)}{f_X(x)}
$$

实例

$e.g.$ 硬币正面向上的概率为 $\theta$(未知),抛了 $n$ 次,出现了 $x$ 次正面向上,对 $\theta$ 的初始认知状态:
$$
f_\Theta(\theta) = 1, \theta \in (0, 1)
$$
这种方法称为 Bayes 原则(准则)

给定 $\theta$,$X \sim B(n, \theta)$:
$$
f_X(x | \theta) = \binom{n}{x} \theta^x (1 – \theta)^{n – x}, x = 0, 1, \cdots, n
$$
$(x, \theta)$ 的联合分布:
$$
f(x, \theta) = f_X(x | \theta) f_\Theta(\theta) = \binom{n}{x} \theta^x (1 – \theta)^{n – x}, x = 0, 1, \cdots, n, \theta \in (0, 1) \\
\Rightarrow f_X(x) = \int_0^1 f(x, \theta) \, \mathrm{d} \theta = \frac{1}{n + 1} \\
\Rightarrow f_\Theta(\theta | x) = \frac{\Gamma(n +2)}{\Gamma(x + 1) \Gamma(n – x +1)} \theta^x (1 – \theta)^{n – x}
$$
因此后验分布即为参数为 $x + 1$ 和 $n – x + 1$ 的 $\beta$ 分布。

:可用后验均值 $E(\Theta | x)$ 或后验众数(使得 $f_\Theta(\theta | x)$ 取最大值的点)等来估计 $\theta$。

$\hat{\theta} = E(\Theta | x) = \dfrac{x + 1}{n + 2}, \theta^* = \dfrac{x}{n}$。

$U(0, 1) = \beta(1, 1)$,若先验为 $\beta(a, b)$,则后验为 $\beta(a + x, n + b – x)$,$\hat{\theta} = \dfrac{a + x}{n + a+ b} = \dfrac{a + b}{n + a + b} \cdot \dfrac{a}{a + b} + \dfrac{n}{n + a + b} \cdot \dfrac{x}{n}$。

4、无偏性

偏差(bias)

令:
$$
\hat{\theta} = \hat{\theta}(X_1, \cdots, X_n)
$$

为估计的方法。

定义偏差:
$$
\mathrm{Bias}\left(\hat{\theta}\right) = E_\theta\left(\hat{\theta}\right) – \theta
$$
其中期望是对于 $X_1, \cdots, X_n$ 的期望。

无偏性

若 $E\left(\hat{\theta}\right) = \theta, \forall$ 可能的 $\theta$,则称 $\hat{\theta}$ 为 $\theta$ 的一个无偏估计。

:一般地,$\hat{g}(X_1, \cdots, X_n)$ 为 $g(\theta)$ 的无偏估计 $\Leftrightarrow E\left(\hat{g}\right) = g(\theta)$。

  1. 无偏性 $=$ 无系统误差。
  2. 若无偏,则由大数定律,$\displaystyle \frac{1}{N} \sum_{m = 1}^N \hat{g}\left(X_1^{(m)}, \cdots, X_n^{(m)}\right) \stackrel{P}{\to} E(\hat{g}) = g(\theta)$。
  3. 无偏性实际价值视情形不同。($e.g.$ 买东西,质量控制)

$e.g.$ $E(X) = \mu, Var(X) = \sigma^2, E\left(\overline{X}\right) = \dfrac{1}{n} n \mu = \mu, E(m_2) = \dfrac{n – 1}{n} \sigma^2$。

$\Rightarrow S^2 = \dfrac{n}{n – 1} m_2$ 为无偏估计。

$e.g.$ $X_i \stackrel{iid}{\sim} U(0, \theta)$,$\theta^* = \max\{X_1, \cdots, X_n\}$,$E(\theta^*) = \dfrac{n}{n +1} \theta$。

  1. 极大似然估计也不一定无偏。
  2. 上例中 $\dfrac{n + 1}{n} \theta^*$ 无偏,$2 \overline{X}$ 无偏。

5、均方误差准则

均方误差(MSE)

$n$ 固定时,定义均方误差:
$$
E\left[\left(\hat{\theta} – \theta\right)^2\right] \\
= Var\left(\hat{\theta}\right) + E^2\left(\hat{\theta} – \theta\right) \\
= Var\left(\hat{\theta}\right) + \mathrm{Bias}^2\left(\hat{\theta}\right)
$$
其中第二项为准确度,也就是算法能力的刻画。

第一项为精度,数据扰动造成的影响。

定义(准则)

假设 $\hat{\theta}_1, \hat{\theta}_2$ 均为 $\theta$ 的无偏估计,若 $Var\left(\hat{\theta}_1\right) \le Var\left(\hat{\theta}_2\right), \forall \theta$,且存在一个 $\theta$ 值使得 $<$ 成立,则称在均方误差意义下 $\hat{\theta}_1$ 优于 $\hat{\theta}_2$。

$e.g. \ \mu = E\left(\overline{X}\right) = E(X_1) = E\left(\dfrac{X_1 + X_n}{2}\right)$。
$$
Var\left(\overline{X}\right) = \frac{1}{n} \sigma^2, Var(X_1) = \sigma^2, Var\left(\frac{X_1 + X_n}{2}\right) = \frac{\sigma^2}{2}
$$
因此第一种估计最优。

最小方差无偏估计

$\hat{\theta}_0$ 为 $\theta$ 的无偏估计,且 $Var\left(\hat{\theta}_0\right) \le Var\left(\hat{\theta}\right)$,$\forall$ 无偏估计 $\hat{\theta}$,$\forall \theta$,则称 $\hat{\theta}_0$ 为 $\theta$ 的最小方差无偏估计(MVU 估计)

:称为有效性。

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$。
$$
E(m_2) = \frac{n – 1}{n} \sigma^2, E(S^2) = \sigma^2 \\
E[(m_2 – \sigma^2)^2] < E[(s^2 - \sigma^2)^2] $$ 也就是低偏移换方差。

标准误差

估计 $\hat{\theta}$ 的标准误差定义为:
$$
se = se\left(\hat{\theta}\right) = \sqrt{Var\left(\hat{\theta}\right)}
$$
其估计为:
$$
\hat{se} = \hat{se}\left(\hat{\theta}\right)
$$

 

点赞 0

No Comments

Add your comment