概率论与数理统计笔记(6)——参数估计(续)
Contents
Chapter 5:参数估计(续)
6、大样本性质
也就是研究:
$$
\hat{\theta} = \hat{\theta}(X_1, \cdots, X_n)
$$
在 $n \to \infty$ 时的性质。
渐近无偏
如果参数估计满足:
$$
\lim_{n \to \infty} \left(E\left(\hat{\theta}\right) - \theta\right) = 0
$$
则称为渐近无偏。
相合性(一致性)
若 $\forall \varepsilon > 0$,有:
$$
\lim_{n \to \infty} P\left(\left|\hat{\theta} - \theta\right| \ge \varepsilon\right) = 0
$$
则称 $\hat{\theta}$ 为 $\theta$ 的相合估计($i.e. \ \hat{\theta} \stackrel{P}{\to} \theta$)。
注:弱大数定律 $\Rightarrow \overline{X}$ 是 $\mu$ 的一个相合估计。
相合性是良好点估计的自然要求。
$e.g.$
$$
m_2 = \frac{1}{n} \sum_{i = 1}^n \left(X_i - \overline{X}\right)^2 \\
= \frac{1}{n} \sum_{i = 1}^n (X_i - \mu)^2 - \left(\overline{X} - \mu\right)^2 \stackrel{P}{\to} \sigma^2 - 0 = \sigma^2
$$
注:极大似然估计在一定条件下(平滑性条件)也有相合性。
中心极限定理 $\to \displaystyle \sum_{i = 1}^n X_i$ 或 $\overline{X}$ 渐进正态。
事实上,更多统计量适用(统计量的分布不易求)。
渐进正态性
若存在 $\sigma_n > 0$ 满足:
- $\displaystyle \lim_{n \to \infty} \sigma_n = 0$;
- $\displaystyle \lim_{n \to \infty} \left(\frac{\hat{\theta} - \theta}{\sigma_n} \le x\right) = \Phi(x), \forall x \in \mathbb{R}$。
则称 $\hat{\theta}$ 为 $\theta$ 的相合渐近正态估计。
注:$n >> 1$ 时,可用 $N(\theta, \sigma_n^2)$ 来近似 $\hat{\theta}$ 的分布。
$e.g.$ $\overline{X}$ 为 $\mu$ 的相合渐近正态分布(中心极限定理)。
有时 $\sigma_n^2 = Var\left(\hat{\theta}\right)$。
极大似然估计在一定条件下为渐近正态的。
7、统计决策与损失函数
损失函数与风险
设损失函数定义为:
$$
L\left(\theta, \hat{\theta}\right)
$$
则 $\hat{\theta}$ 的风险定义为:
$$
R\left(\theta, \hat{\theta}\right) = \int L\left(\theta, \hat{\theta}\right) f(x_1, \cdots, x_n; \theta) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n \\
= E_\theta\left(L(\theta, \hat{\theta})\right)
$$
$e.g.$
$$
L\left(\theta, \hat{\theta}\right) = \left(\theta - \hat{\theta}\right)^2 \\
\Rightarrow R\left(\theta, \hat{\theta}\right) = E\left[\left(\hat{\theta} - \theta\right)^2\right]
$$
Bayes 风险
$$
\int R\left(\theta, \hat{\theta}\right) f_\Theta(\theta) \, \mathrm{d} \theta \\
= \int L\left(\theta, \hat{\theta}\right) f(x_1, \cdots, x_n|\theta) \, \mathrm{d} x_1 \cdots \mathrm{d} x_n \, \mathrm{d} \theta
$$
注:均方误差意义下最优预测为:
$$
E(\Theta | X_1, \cdots, X_n)
$$
即后验均值。
8、区间估计
定义
给定 $\alpha \in (0, 1)$,对于 $\theta$ 的任意可能性有:
$$
P_\theta\left(\hat{\theta}_1 < \theta < \hat{\theta}_2\right) \ge 1 - \alpha
$$
则称 $\left(\hat{\theta}_1, \hat{\theta}_2\right)$ 为 $\theta$ 的 $(1 - \alpha)$ 置信的区间估计,$\hat{\theta}_i$ 分别称为置信下限和上限。
注:
- 置信(水平、系数)的含义是针对方法的。
- $\alpha$ 通常取 $0.05, 0.01, 0.1$。
- 可靠度优先,即先保证 $P\left(\hat{\theta}_1 < \theta < \hat{\theta}_2\right) \ge 1 - \alpha$,之后再尽量提升精度(常用 $E\left(\hat{\theta}_2 - \hat{\theta}_1\right)$ 来刻画)。
实例
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$\mu$ 未知。
$$
P\left(\overline{X} - c_1 < \mu < \overline{X} - c_2\right) = P\left(-c_2 < \overline{X} - \mu < c_1\right)
$$
而 $\overline{X} - \mu \sim N\left(0, \dfrac{\sigma^2}{n}\right)$,因此:
$$
P\left(\left|\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}\right| < z_{\frac{\alpha}{2}}\right) = 1 - \alpha
$$
其中 $z_{\frac{\alpha}{2}}$ 称为上 $\dfrac{\alpha}{2}$ 分位数,即:
$$
\Phi\left(z_\frac{\alpha}{2}\right) = 1 - \frac{\alpha}{2}
$$
故所求区间估计为:
$$
\left(\overline{X} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right)
$$注:
- 有时也记为:
$$
\overline{X} \pm z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}
$$ 取 $\alpha = 0.05$,则 $z_{\frac{\alpha}{2}} \approx 1.96 \approx 2$。
- 用 $\overline{X}$ 估计 $\mu$,则 $(1 - \alpha)$ 置信误差 $(\overline{X} - \mu)$ 不会超过 $z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$($\frac{\sigma}{\sqrt{n}}$——标准误)。
- 给定 $\varepsilon > 0$,则 $n \approx \left(\dfrac{z_{\frac{\alpha}{2}}\sigma}{\varepsilon}\right)^2$ 时,$(1 - \alpha)$ 置信误差 $\le \varepsilon$。
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知,估计 $\mu$。
$$
\frac{\overline{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n - 1)
$$
这是考虑到:
$$
\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1) \\
\Rightarrow \frac{\dfrac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\dfrac{(n - 1)S^2}{\sigma^2} \Big / (n - 1)}} \sim t(n - 1)
$$
因此所求即为:
$$
\left(\overline{X} - t_{\frac{\alpha}{2}} (n - 1) \frac{S}{\sqrt{n}}, \overline{X} + t_{\frac{\alpha}{2}} (n - 1) \frac{S}{\sqrt{n}}\right)
$$
枢轴变量法
- 找出 $\theta$ 的相关统计量 $\hat{\theta}(X_1, \cdots, X_n)$(通常为 $\theta$ 的良好点估计)。
- 找出函数 $H\left(\hat{\theta}, \theta\right)$ (枢轴变量)的分布(要与未知参数无关)。
- 求出 $\left(\hat{\theta}_1, \hat{\theta}_2\right)$。
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知,估计 $\sigma^2$。
$$
\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)
$$
所求为:
$$
\left(\frac{(n - 1)S^2}{\chi^2_{\frac{\alpha}{2}}(n - 1)}, \frac{(n - 1)S^2}{\chi^2_{1 - \frac{\alpha}{2}}(n - 1)} \right)
$$
注:
- $\mu$ 为位置参数,$\sigma$ 为尺度参数。
- 以上皆为单样本估计(只有一个总体)。
$e.g.$ $X \sim N(\mu_1, \sigma^2), Y \sim N(\mu_2, \sigma^2)$ 独立,$\mu_1, \mu_2, \sigma^2$ 未知,$X_1, \cdots, X_n; Y_1, \cdots, Y_m$ 为样本,估计 $\mu_1 - \mu_2$。
$$
\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2) \sim N\left(0, \frac{\sigma^2}{n} + \frac{\sigma^2}{m} \right) \\
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sigma \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}} \sim N(0, 1)
$$
定义:
$$
S^2 := \frac{n - 1}{n + m - 2} S_1^2 + \frac{m - 1}{n + m - 2} S_2^2 \\
= \frac{1}{m + n - 2} \left(\sum_{i = 1}^n \left(X_i - \overline{X}\right)^2 + \sum_{j = 1}^m \left(Y_i - \overline{Y}\right)^2 \right)
$$
而:
$$
\frac{(n - 1)S_1^2}{\sigma^2} + \frac{(m - 1)S_2^2}{\sigma^2} \sim \chi^2(n + m - 2)
$$
因此:
$$
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{S \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}} \sim t(n + m - 2)
$$
因此所求即为:
$$
\mu_1 - \mu_2 = \left(\overline{X} - \overline{Y}\right) \pm t_{\frac{\alpha}{2}} (n + m - 2) S \sqrt{\dfrac{1}{n} + \dfrac{1}{m}}
$$
渐进置信区间(大样本方法)
$e.g.$(选举问题)$P$——真实的支持度,$n = 1200$,$\dfrac{684}{1200} = 0.57$ 为观测比例,$X_i \sim B(P), i = 1, 2 \cdots, n$,$P_n := \overline{X}$。
则:
$$
E\left(P_n\right) = P \\
Var(P_n) = \frac{P(1 - P)}{n}
$$
因此:
$$
\frac{P_n - P}{\sqrt{\dfrac{P(1 - P)}{n}}} \stackrel{近似}{\sim} N(0, 1)
$$
(根据中心极限定理)
取 $\alpha = 0.05$:
- 用 $S^2$ 近似 $P(1 - P) = Var(X_i)$。($S^2 \approx 0.2475$)
$\Rightarrow (0,542, 0.598)$。
用 $m_2$ 近似 $P(1 - P) = Var(X_i)$ $\Leftrightarrow$ 用 $P_n(1 - P_n)$ 近似 $P(1 - P)$。
$\Rightarrow (0.542, 0.598)$。
用 $P(1 - P)$ 的上界 $\dfrac{1}{4}$ 近似 $P(1 - P)$。
$\Rightarrow (0.542, 0.599)$。
注:置信 $\approx 1 - \alpha$,近似程度取决于 $n$ 及总体分布。
$e.g.$(双样本)$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ 独立,$\mu_1, \mu_2, \sigma_1^2, \sigma_2^2$ 未知,估计 $\mu_1 - \mu_2$,$X_1, \cdots, X_n; Y_1, \cdots, Y_m$ 为样本。
$$
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n} + \dfrac{\sigma_2^2}{m}}} \sim N(0, 1) \\
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\dfrac{S_1^2}{n} + \dfrac{S_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1)
$$
之后过程略。
注:可考虑单侧置信区间:$e.g.$ $P\left(\theta < \hat{\theta}_2\right) \ge 1 - \alpha$ 或 $P\left(\theta > \hat{\theta}_1\right) \ge 1 - \alpha$ 称为单侧区间估计。
Bayes 区间估计
$f_\Theta(\theta | x)$ 为后验分布,则要求即为:
$$
P(a < \Theta < b | x) \ge 1 - \alpha
$$
最大后验区间估计:
$$
f_\Theta(\theta_1 | x) \ge f_\Theta(\theta_2 | x), \forall \theta_1 \in (a, b), \theta_2 \not \in (a, b)
$$
同置信下长度最短。
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知。
取 $f(\mu) \propto 1$,则 $\mu$ 的后验分布:
$$
N\left(\overline{X}, \frac{\sigma^2}{n}\right) \\
\Rightarrow \frac{\mu - \overline{X}}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
\Rightarrow \left(\overline{X} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right)
$$
注:与经典方法结果相同,反映了无先验信息可用,只能靠样本。
9、充分统计量
定义
若样本 $(X_1, \cdots, X_n)$ 在已知统计量 $T(X_1, \cdots, X_n)$ 取值时的条件分布与 $\theta$ 无关,则称 $T$ 为 $\theta$ 的充分统计量。
实例
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$X_1, \cdots, X_n$ iid,样本分布:
$$
f(x_1, \cdots, x_n; \mu) = \prod_{i = 1}^n \left(\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(X_i - \mu)^2}{2\sigma^2}} \right) \\
= \left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^n \exp\left(-\frac{1}{2 \sigma^2} \sum_{i = 1}^n \left(X_i - \overline{X} \right)^2 \right) \exp\left(-\frac{\left(\overline{X} - \mu \right)^2}{\dfrac{2\sigma^2}{n}} \right)
$$
而 $\overline{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$,所以:
$$
\frac{f(x_1, \cdots, x_n; \mu)}{f\left(\overline{X}; \mu\right)} = f\left(x_1, \cdots, x_n | \overline{X}; \mu\right) = C_n \exp\left(-\frac{1}{2 \sigma^2} \sum_{i = 1}^n \left(X_i - \overline{X} \right)^2 \right)
$$
与 $\mu$ 无关 $\Rightarrow$ $\overline{X}$ 为 $\mu$ 的充分统计量。
定理(因子分解)
$T(X_1, \cdots, X_n)$ 为 $\theta$ 的充分统计量 $\Leftrightarrow \exists$ 函数 $g(t, \theta)$ 和 $h(x_1, \cdots, x_n) \ s.t.$:
$$
f(X_1, \cdots, X_n; \theta) = g(T(X_1, \cdots, X_n), \theta) h(X_1, \cdots, X_n)
$$
证明略。
充分性原理
若 $T$ 充分,两组观测 $\left(x_1^{(1)}, \cdots, x_n^{(1)} \right)$ 和 $\left(x_1^{(2)}, \cdots, x_n^{(2)} \right)$ 具有相同的统计量值,则关于 $\theta$ 的基于样本和 $T$ 的推断完全相同。
注:充分统计量不唯一。
No Comments