概率论与数理统计笔记(6)——参数估计(续)

概率论与数理统计笔记(6)——参数估计(续)

Contents

Chapter 5:参数估计(续)

6、大样本性质

也就是研究:
$$
\hat{\theta} = \hat{\theta}(X_1, \cdots, X_n)
$$
在 $n \to \infty$ 时的性质。

渐近无偏

如果参数估计满足:
$$
\lim_{n \to \infty} \left(E\left(\hat{\theta}\right) – \theta\right) = 0
$$
则称为渐近无偏。

相合性(一致性)

若 $\forall \varepsilon > 0$,有:
$$
\lim_{n \to \infty} P\left(\left|\hat{\theta} – \theta\right| \ge \varepsilon\right) = 0
$$
则称 $\hat{\theta}$ 为 $\theta$ 的相合估计($i.e. \ \hat{\theta} \stackrel{P}{\to} \theta$)。

:弱大数定律 $\Rightarrow \overline{X}$ 是 $\mu$ 的一个相合估计。

相合性是良好点估计的自然要求。

$e.g.$
$$
m_2 = \frac{1}{n} \sum_{i = 1}^n \left(X_i – \overline{X}\right)^2 \\
= \frac{1}{n} \sum_{i = 1}^n (X_i – \mu)^2 – \left(\overline{X} – \mu\right)^2 \stackrel{P}{\to} \sigma^2 – 0 = \sigma^2
$$

:极大似然估计在一定条件下(平滑性条件)也有相合性。

中心极限定理 $\to \displaystyle \sum_{i = 1}^n X_i$ 或 $\overline{X}$ 渐进正态。

事实上,更多统计量适用(统计量的分布不易求)。

渐进正态性

若存在 $\sigma_n > 0$ 满足:

  1. $\displaystyle \lim_{n \to \infty} \sigma_n = 0$;
  2. $\displaystyle \lim_{n \to \infty} \left(\frac{\hat{\theta} – \theta}{\sigma_n} \le x\right) = \Phi(x), \forall x \in \mathbb{R}$。

则称 $\hat{\theta}$ 为 $\theta$ 的相合渐近正态估计。

:$n >> 1$ 时,可用 $N(\theta, \sigma_n^2)$ 来近似 $\hat{\theta}$ 的分布。

$e.g.$ $\overline{X}$ 为 $\mu$ 的相合渐近正态分布(中心极限定理)。

有时 $\sigma_n^2 = Var\left(\hat{\theta}\right)$。

极大似然估计在一定条件下为渐近正态的。

7、统计决策与损失函数

损失函数与风险

设损失函数定义为:
$$
L\left(\theta, \hat{\theta}\right)
$$
则 $\hat{\theta}$ 的风险定义为:
$$
R\left(\theta, \hat{\theta}\right) = \int L\left(\theta, \hat{\theta}\right) f(x_1, \cdots, x_n; \theta) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n \\
= E_\theta\left(L(\theta, \hat{\theta})\right)
$$
$e.g.$
$$
L\left(\theta, \hat{\theta}\right) = \left(\theta – \hat{\theta}\right)^2 \\
\Rightarrow R\left(\theta, \hat{\theta}\right) = E\left[\left(\hat{\theta} – \theta\right)^2\right]
$$

Bayes 风险

$$
\int R\left(\theta, \hat{\theta}\right) f_\Theta(\theta) \, \mathrm{d} \theta \\
= \int L\left(\theta, \hat{\theta}\right) f(x_1, \cdots, x_n|\theta) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n \, \mathrm{d} \theta
$$

:均方误差意义下最优预测为:
$$
E(\Theta | X_1, \cdots, X_n)
$$
即后验均值。

8、区间估计

定义

给定 $\alpha \in (0, 1)$,对于 $\theta$ 的任意可能性有:
$$
P_\theta\left(\hat{\theta}_1 < \theta < \hat{\theta}_2\right) \ge 1 - \alpha $$ 则称 $\left(\hat{\theta}_1, \hat{\theta}_2\right)$ 为 $\theta$ 的 $(1 - \alpha)$ 置信的区间估计,$\hat{\theta}_i$ 分别称为置信下限和上限。

  1. 置信(水平、系数)的含义是针对方法的。
  2. $\alpha$ 通常取 $0.05, 0.01, 0.1$。
  3. 可靠度优先,即先保证 $P\left(\hat{\theta}_1 < \theta < \hat{\theta}_2\right) \ge 1 - \alpha$,之后再尽量提升精度(常用 $E\left(\hat{\theta}_2 - \hat{\theta}_1\right)$ 来刻画)。

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$\mu$ 未知。
$$
P\left(\overline{X} – c_1 < \mu < \overline{X} - c_2\right) = P\left(-c_2 < \overline{X} - \mu < c_1\right) $$ 而 $\overline{X} - \mu \sim N\left(0, \dfrac{\sigma^2}{n}\right)$,因此: $$ P\left(\left|\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}\right| < z_{\frac{\alpha}{2}}\right) = 1 - \alpha $$ 其中 $z_{\frac{\alpha}{2}}$ 称为上 $\dfrac{\alpha}{2}$ 分位数,即: $$ \Phi\left(z_\frac{\alpha}{2}\right) = 1 - \frac{\alpha}{2} $$ 故所求区间估计为: $$ \left(\overline{X} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right) $$

  1. 有时也记为:
    $$
    \overline{X} \pm z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}
    $$

  2. 取 $\alpha = 0.05$,则 $z_{\frac{\alpha}{2}} \approx 1.96 \approx 2$。

  3. 用 $\overline{X}$ 估计 $\mu$,则 $(1 – \alpha)$ 置信误差 $(\overline{X} – \mu)$ 不会超过 $z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$($\frac{\sigma}{\sqrt{n}}$——标准误)。
  4. 给定 $\varepsilon > 0$,则 $n \approx \left(\dfrac{z_{\frac{\alpha}{2}}\sigma}{\varepsilon}\right)^2$ 时,$(1 – \alpha)$ 置信误差 $\le \varepsilon$。

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知,估计 $\mu$。
$$
\frac{\overline{X} – \mu}{\frac{S}{\sqrt{n}}} \sim t(n – 1)
$$
这是考虑到:
$$
\frac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
\frac{(n – 1)S^2}{\sigma^2} \sim \chi^2(n – 1) \\
\Rightarrow \frac{\dfrac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\dfrac{(n – 1)S^2}{\sigma^2} \Big / (n – 1)}} \sim t(n – 1)
$$
因此所求即为:
$$
\left(\overline{X} – t_{\frac{\alpha}{2}} (n – 1) \frac{S}{\sqrt{n}}, \overline{X} + t_{\frac{\alpha}{2}} (n – 1) \frac{S}{\sqrt{n}}\right)
$$

枢轴变量法

  1. 找出 $\theta$ 的相关统计量 $\hat{\theta}(X_1, \cdots, X_n)$(通常为 $\theta$ 的良好点估计)。
  2. 找出函数 $H\left(\hat{\theta}, \theta\right)$ (枢轴变量)的分布(要与未知参数无关)。
  3. 求出 $\left(\hat{\theta}_1, \hat{\theta}_2\right)$。

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知,估计 $\sigma^2$。
$$
\frac{(n – 1)S^2}{\sigma^2} \sim \chi^2(n – 1)
$$
所求为:
$$
\left(\frac{(n – 1)S^2}{\chi^2_{\frac{\alpha}{2}}(n – 1)}, \frac{(n – 1)S^2}{\chi^2_{1 – \frac{\alpha}{2}}(n – 1)} \right)
$$

  1. $\mu$ 为位置参数,$\sigma$ 为尺度参数。
  2. 以上皆为单样本估计(只有一个总体)。

$e.g.$ $X \sim N(\mu_1, \sigma^2), Y \sim N(\mu_2, \sigma^2)$ 独立,$\mu_1, \mu_2, \sigma^2$ 未知,$X_1, \cdots, X_n; Y_1, \cdots, Y_m$ 为样本,估计 $\mu_1 – \mu_2$。
$$
\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2) \sim N\left(0, \frac{\sigma^2}{n} + \frac{\sigma^2}{m} \right) \\
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sigma \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}} \sim N(0, 1)
$$
定义:
$$
S^2 := \frac{n – 1}{n + m – 2} S_1^2 + \frac{m – 1}{n + m – 2} S_2^2 \\
= \frac{1}{m + n – 2} \left(\sum_{i = 1}^n \left(X_i – \overline{X}\right)^2 + \sum_{j = 1}^m \left(Y_i – \overline{Y}\right)^2 \right)
$$
而:
$$
\frac{(n – 1)S_1^2}{\sigma^2} + \frac{(m – 1)S_2^2}{\sigma^2} \sim \chi^2(n + m – 2)
$$
因此:
$$
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{S \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}} \sim t(n + m – 2)
$$
因此所求即为:
$$
\mu_1 – \mu_2 = \left(\overline{X} – \overline{Y}\right) \pm t_{\frac{\alpha}{2}} (n + m – 2) S \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}
$$

渐进置信区间(大样本方法)

$e.g.$(选举问题)$P$——真实的支持度,$n = 1200$,$\dfrac{684}{1200} = 0.57$ 为观测比例,$X_i \sim B(P), i = 1, 2 \cdots, n$,$P_n := \overline{X}$。

则:
$$
E\left(P_n\right) = P \\
Var(P_n) = \frac{P(1 – P)}{n}
$$
因此:
$$
\frac{P_n – P}{\sqrt{\dfrac{P(1 – P)}{n}}} \stackrel{近似}{\sim} N(0, 1)
$$
(根据中心极限定理)

取 $\alpha = 0.05$:

  1. 用 $S^2$ 近似 $P(1 – P) = Var(X_i)$。($S^2 \approx 0.2475$)

    $\Rightarrow (0,542, 0.598)$。

  2. 用 $m_2$ 近似 $P(1 – P) = Var(X_i)$ $\Leftrightarrow$ 用 $P_n(1 – P_n)$ 近似 $P(1 – P)$。

    $\Rightarrow (0.542, 0.598)$。

  3. 用 $P(1 – P)$ 的上界 $\dfrac{1}{4}$ 近似 $P(1 – P)$。

    $\Rightarrow (0.542, 0.599)$。

:置信 $\approx 1 – \alpha$,近似程度取决于 $n$ 及总体分布。

$e.g.$(双样本)$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ 独立,$\mu_1, \mu_2, \sigma_1^2, \sigma_2^2$ 未知,估计 $\mu_1 – \mu_2$,$X_1, \cdots, X_n; Y_1, \cdots, Y_m$ 为样本。
$$
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n} + \dfrac{\sigma_2^2}{m}}} \sim N(0, 1) \\
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sqrt{\dfrac{S_1^2}{n} + \dfrac{S_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1)
$$
之后过程略。

:可考虑单侧置信区间:$e.g.$ $P\left(\theta < \hat{\theta}_2\right) \ge 1 - \alpha$ 或 $P\left(\theta > \hat{\theta}_1\right) \ge 1 – \alpha$ 称为单侧区间估计。

Bayes 区间估计

$f_\Theta(\theta | x)$ 为后验分布,则要求即为:
$$
P(a < \Theta < b | x) \ge 1 - \alpha $$ 最大后验区间估计
$$
f_\Theta(\theta_1 | x) \ge f_\Theta(\theta_2 | x), \forall \theta_1 \in (a, b), \theta_2 \not \in (a, b)
$$
同置信下长度最短。

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知。

取 $f(\mu) \propto 1$,则 $\mu$ 的后验分布:
$$
N\left(\overline{X}, \frac{\sigma^2}{n}\right) \\
\Rightarrow \frac{\mu – \overline{X}}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
\Rightarrow \left(\overline{X} – z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right)
$$

:与经典方法结果相同,反映了无先验信息可用,只能靠样本。

9、充分统计量

定义

若样本 $(X_1, \cdots, X_n)$ 在已知统计量 $T(X_1, \cdots, X_n)$ 取值时的条件分布与 $\theta$ 无关,则称 $T$ 为 $\theta$ 的充分统计量。

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$X_1, \cdots, X_n$ iid,样本分布:
$$
f(x_1, \cdots, x_n; \mu) = \prod_{i = 1}^n \left(\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(X_i – \mu)^2}{2\sigma^2}} \right) \\
= \left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^n \exp\left(-\frac{1}{2 \sigma^2} \sum_{i = 1}^n \left(X_i – \overline{X} \right)^2 \right) \exp\left(-\frac{\left(\overline{X} – \mu \right)^2}{\dfrac{2\sigma^2}{n}} \right)
$$
而 $\overline{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$,所以:
$$
\frac{f(x_1, \cdots, x_n; \mu)}{f\left(\overline{X}; \mu\right)} = f\left(x_1, \cdots, x_n | \overline{X}; \mu\right) = C_n \exp\left(-\frac{1}{2 \sigma^2} \sum_{i = 1}^n \left(X_i – \overline{X} \right)^2 \right)
$$
与 $\mu$ 无关 $\Rightarrow$ $\overline{X}$ 为 $\mu$ 的充分统计量。

定理(因子分解)

$T(X_1, \cdots, X_n)$ 为 $\theta$ 的充分统计量 $\Leftrightarrow \exists$ 函数 $g(t, \theta)$ 和 $h(x_1, \cdots, x_n) \ s.t.$:
$$
f(X_1, \cdots, X_n; \theta) = g(T(X_1, \cdots, X_n), \theta) h(X_1, \cdots, X_n)
$$
证明略。

充分性原理

若 $T$ 充分,两组观测 $\left(x_1^{(1)}, \cdots, x_n^{(1)} \right)$ 和 $\left(x_1^{(2)}, \cdots, x_n^{(2)} \right)$ 具有相同的统计量值,则关于 $\theta$ 的基于样本和 $T$ 的推断完全相同。

:充分统计量不唯一。

 

点赞 0

No Comments

Add your comment