概率论与数理统计笔记(7)——假设检验
Contents
Chapter 6:假设检验
1、基本概念
实例
$e.g.$ 一大批电子元件寿命 $X$,样本 $X_1, \cdots, X_n$ iid。
问题 1:假设 $X \sim Exp(\lambda)$,那么 $\lambda =$?( 模型推断)
回答:参数估计。
问题 2:若合格标准为 $E(X) \ge 5000$,那么如何判定这一批是否合格。
回答:假设检验:样本多大程度上支持假设($E(X) \ge 5000$)。
执行标准,$\overline{X} \ge l_1$,问题是如何确定 $l_1$。
定义
统计假设:对一个或多个总体的某种推断或猜测。
原假设:被检验的假设,即为 $H_0$。
备择假设:拒绝 $H_0$ 后可供选择的假设,即为 $H_1$,也称研究假设。
注:假设为参数形式时,$H_0 : \theta \in \Theta_0, H_1 \in \Theta_1$,其中 $\Theta_0 \cap \Theta_1 = \varnothing$,$\Theta_0 \cup \Theta_1 = \theta$ 的所有可能取值。
$e.g.$ $H_0 : \lambda \le \frac{1}{5000}, H_1 : \lambda > \frac{1}{5000}$。
简单假设:只含一个总体。
$e.g.$ 假设 $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,则 $H_0 : \mu = \mu_0$ 就是简单假设。
假设检验
依据样本的决策过程,也就是拒绝 $H_0$ 或者不拒绝 $H_0$。
所有可能观测的集合 $\{(X_1, \cdots, X_n)\}$($n$ 固定),相当于对于落在其中一个集合 $R$ 的样本,选择拒绝 $H_0$,否则不拒绝。
$R$ 称为临界域,或者拒绝域,$e.g.$ $\{(X_1, \cdots, X_n) | \overline{X} \le l_1\}$。
形式上抽象为:
$$
R = \{(X_1, \cdots, X_n) | T(X_1, \cdots, X_n) \ge C\}
$$
$C$ 称为临界值。
拒绝 $H_0$:在假设 $H_0$ 为真的情况下,所观测的样本出现的概率是很小的(样本提供的证据拒绝了 $H_0$)——概率的作用。
两种错误
I 类:弃真。
II 类:取伪。
对应的概率表示为 $P(I), \theta \in \Theta_0$,$P(II), \theta \in \Theta_1$。
注:
- 依据样本作决策错误不可避免。
- 同一次检验不可能同时犯两种错误。
- $n$ 固定时,$e.g.$:
- 都不拒绝 $H_0$,$P(I) = 0$,则 $P(II) = 1$,反之类似。
- $H_0 : $ 合格,$P(I)$ 变小,不容易拒绝(谨慎),不合格不易检出,$P(II)$ 变大。
$P(I) = P((X_1, \cdots, X_n) \in R), \theta \in \Theta_0$,记为 $\alpha(R)$。
$P(II) = P((X_1, \cdots, X_n) \in R^C), \theta \in \Theta_1$。记为 $\beta(R)$。
功效函数
$$
P_\theta((X_1, \cdots, X_n) \in R) =
\begin{cases}
\alpha(R) & \theta \in \Theta_0 \\
1 - \beta(R) & \theta \in \Theta_1
\end{cases}
$$
是 $\theta$ 的函数。
Neyman-Pearson 范式
($n$ 固定)控制 $P(I) \le \alpha, \forall \theta \in \Theta_1$($\alpha > 0$,预先给定,称为检验水平,或显著水平),再在这个限制下使 $P(II)$ 尽可能小。
注:$\alpha$ 固定时,使 $P(II)$ 最小的检验称为水平 $\alpha$ 的一致最优检验(不一定存在,也一般不容易求)。
注:$H_0$ 与 $H_1$ 地位非对称。
- 通常原假设是受保护的,无充分证据不能拒绝。(疑罪从无)
- 备择假设可能才是真正感兴趣的。
2、临界值检验法
实例
$e.g.$ $X \sim N(\mu, \sigma^2)$。
- $H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$。
- $H_0 : \mu \ge \mu_0, H_1 : \mu < \mu_0$。
- $H_0 : \mu \le \mu_0, H_1 : \mu > \mu_0$。
若 $\sigma^2$ 已知。
- $\alpha > 0$ 给定,$H_0$ 为真时,假设 $\left|\overline{X} - \mu_0\right| \ge C$ 时否定 $H_0$。
$$
P_{\mu_0}\left(\left|\overline{X} - \mu_0\right| \ge C\right) \le \alpha \\
\overline{X} - \mu_0 \sim N\left(0, \frac{\sigma^2}{n}\right) \\
P(I) = P_{\mu_0}\left(\left|\frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right| \ge \frac{C}{\frac{\sigma}{\sqrt{n}}} \right) \le \alpha \\
\Rightarrow C = z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}
$$
检验:当 $\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时否定 $H_0$。 $\alpha > 0$ 给定,$H_0$ 为真时,设 $\overline{X} \le C$ 时拒绝 $H_0$。
$$
P_{\mu \ge \mu_0}\left(\overline{X} \le C\right) \le \alpha \\
\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
P(I) = P_{\mu \ge \mu_0} \left(\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \le \frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
= P_{\mu \ge \mu_0} \left(Z \le \frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
\Rightarrow \Phi\left(\frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \le \alpha, \mu \ge \mu_0
$$
取 $C = \mu_0 - z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 即可。检验:当 $\overline{X} \le \mu_0 - z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。
注:也称 $z$ 检验。
若 $\sigma^2$ 未知:
$$
\frac{\overline{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n - 1)
$$
可推出 $t$ 检验。
步骤
- 提出 $H_0, H_1$;
- 给定 $\alpha > 0$;
- 确定检验统计量及其分布,确定拒绝域的形状;
- 建立检验,$P(I) \le \alpha \to$ 拒绝域;
- 收集样本信息,计算检验统计量的值;
- 决策。
并不一定需要完整执行。
3、临界值检验与置信区间的对偶关系
实例
$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$\alpha \in (0, 1)$ 给定,$X_1, \cdots, X_n$ iid。
置信区间(双侧):
$$
\mu \in \left(\overline{X} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right)
$$
假设检验:$H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$(双边检验)
$$
P_{\mu_0}\left(\left|\overline{X} - \mu_0\right| \ge C\right) \le \alpha
$$
$\Rightarrow$ 当 $\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。
$\Leftrightarrow$ 接受域 $\left\{(X_1, \cdots, X_n) | \left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}\right\}$。
由此可见 $\mu_0$ 属于置信区间 $\Leftrightarrow$ 检验不拒绝 $H_0 : \mu = \mu_0$。
注:区间估计信息更丰富。
4、$P$ 值检验法
实例
$e.g.$ $X \sim N(\mu, \sigma^2), \sigma^2 = 25$。
检验假设 $H_0 : \mu = 10, H_1 : \mu \not = 10$。
样本容量 $n = 100$,观测到均值 $\overline{x} = 10.935$。
给定 $\alpha \in (0, 1)$,$\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。
$\Rightarrow$ 若取 $\alpha = 0.05$,则 $|\overline{x} - 10| = 0.935 < 1.96 \times \dfrac{1}{2} \Rightarrow$ 不拒绝 $H_0$。
$\Rightarrow$ 若取 $\alpha = 0.1$,则 $|\overline{x} - 10| = 0.935 > 1.65 \times \dfrac{1}{2} \Rightarrow$ 拒绝 $H_0$。
$$
P_{\mu = 10}\left(\left|\overline{X} - 10\right| \ge |\overline{x} - 10|\right) = P_{\mu = 10} \left(\frac{\left|\overline{X} - 10\right|}{\frac{\sigma}{\sqrt{100}}} \ge \frac{|\overline{x} - 10|}{{\frac{\sigma}{\sqrt{100}}}}\right) \\
\approx P(|Z| \ge 1.87) \approx 0.0614
$$
假设检验的 $P$ 值
原假设为真时,观测值及更极端的观测出现的概率,称为 $P$ 值。
当 $P \le \alpha$ 时,拒绝 $H_0$(通常也称为观测值显著)。
注:
- 通常也称 $P$ 值为观测到的显著水平 $\Leftrightarrow$ 由检验统计量的样本观测值得出拒绝 $H_0$ 的最小检验水平。
- $P$ 值不是 $H_0$ 为真的概率($i.e.$ $P \not = P(H_0 | 观测值)$)。
- $P$ 值大 $\to$ 不拒绝 $H_0$,原因可能为 $H_0$ 为真或 $H_0$ 为假,但检验功效很低。
$P$ 值检验法的步骤
- 提出 $H_0, H_1$;
- 给定 $\alpha > 0$;(不一定需要)
- 确定检验统计量及其分布,确定“极端”形式(由 $H_1$ 决定);
- 搜集样本信息,计算检验统计量的值;
- 计算 $P$ 值;
- 决策 。
$e.g.$(选举问题)观测的支持比例为 $\dfrac{684}{1200} = 0.57, n = 1200$。
考虑假设检验 $H_0 : p = p_0, H_1 : p > p_0$。
$$
P_n - p_0 \stackrel{近似}{\sim} N(0, \hat{se}^2)
$$
$\hat{se}^2 = \dfrac{p_0(1 - p_0)}{n}$ 或 $\dfrac{P_n(1 - P_n)}{n}$ 称为标准误差的估计的平方。
$P$ 值 $= P_{p = p_0}(P_n - p_0 \ge p_n - p_0)$。
故:
$$
P_{p = p_0}(P_n - p_0 \ge p_n - p_0) \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\hat{se}} \ge \frac{p_n - p_0}{\hat{se}} \right) \\
= P\left(Z \ge \frac{0.57 - p_0}{\hat{se}} \right)
$$
若 $p_0 = 0.55$,则 $P$ 值 $= P\left(Z \ge \frac{0.02}{0.014}\right) \approx 0.081$。
若 $p_0 = 0.545$,则 $P$ 值 $= P\left(Z \ge \frac{0.025}{0.014}\right) \approx 0.04$。
考虑假设检验:$H_0 : p \le p_0, H_1 : p > p_0$。
$$
P_{p \le p_0} \left(\frac{P_n - p}{\hat{se}} \ge \frac{p_n - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right)\\
= P_{p \le p_0} \left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}} + \frac{p_0 - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
\le P_{p \le p_0} \left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P_{p \le p_0}(Z \ge Z_0), Z = \frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
\Rightarrow P 值 = \sup_{p \le p_0} P\left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P(Z \ge Z_0)
$$
定理
若拒绝 $H_0 \Leftrightarrow T(X_1, \cdots, X_n) \ge C_\alpha$,则 $P$ 值 $= \sup\limits_{\theta \in \Theta_0} P_\theta(T(X_1, \cdots, X_n) \ge T(x_1, \cdots, x_n))$。
5、Bayes 假设检验
实例
$e.g.$ 硬币,掷 $10$ 次,观测到正面向上 $x$ 次。
$H_0 : p = 0.5, H_1 : p = 0.7$
$$
\frac{P(H_0 | x)}{P(H_1 | x)} = \frac{P(H_0)}{P(H_1)} \cdot \frac{P(x | H_0)}{P(x | H_1)} < 1
$$
则拒绝 $H_0$。
注:
- 也可以设为 $\dfrac{P(H_0 | x)}{P(H_1 | x)} < c, c \not = 1$ 拒绝 $H_0$。
- $H_0 : \theta = \theta_0, H_1 : \theta \not = \theta_0$,若 $\Theta$ 连续,则 $P(\Theta = \theta_0 | x) = 0$,此时需技巧性处理,可参考陈先生书 $5.2.8$。
6、拟合优度检验
实例
$e.g.$ 骰子点数为 $1, 2, 3, 4, 5, 6$,观测得到的频数分别为 $4, 6, 17, 16, 8, 9$,问色子是否均匀?
$H_0 : $ 均匀($i.e. \ P_1 = \cdots = P_6 = \frac{1}{6}$),$H_1 : $ 不均匀。
此时引入拟合优度检验。
Pearson $\chi^2-$ 统计量
$$
\chi^2 \stackrel{\triangle}{=} \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i}
$$
$O_i$ 观测频数,$E_i$ 期望频数。
定理
$H_0 : P(X = a_i) = p_i(i = 1, \cdots, k)$。
若 $H_0$ 为真,则当 $n \to \infty$ 时,$\chi^2$ 的分布 $\to \chi^2(k - 1)$。
$e.g.$ 上例中观测值 $\chi^2_0 = 14.2 \Rightarrow P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.014$。
注:需 $E_i \ge 5$ 时才比较好运用这个决策准则(定理),否则需要会合并相邻单元。
连续情形
$e.g.$ 汽车电池寿命($n = 40$)。
数据 | 数据 | 数据 | 数据 | 数据 | 数据 | 数据 | 数据 |
---|---|---|---|---|---|---|---|
$2.2$ | $4.1$ | $3.5$ | $4.5$ | $3.2$ | $3.7$ | $2.6$ | $3.0$ |
$3.4$ | $1.6$ | $3.1$ | $3.3$ | $3.8$ | $3.1$ | $3.7$ | $4.7$ |
$2.5$ | $4.3$ | $3.4$ | $3.6$ | $2.9$ | $3.3$ | $3.1$ | $3.9$ |
$3.3$ | $3.1$ | $3.7$ | $4.4$ | $3.2$ | $4.1$ | $3.4$ | $1.9$ |
$4.7$ | $3.8$ | $3.2$ | $2.6$ | $3.9$ | $3.0$ | $3.5$ | $4.2$ |
分组 $\to$ 相对频数分布 $\to$ 相对频数直方图 $\to$ 总体分布。
$H_0 : $ 电池寿命的分布是正态的($X \sim N(\mu, \sigma^2)$),$H_1 : $ 电池寿命不是正态的。
基本想法:
$$
P_j(\theta) = \int_{I_j} f(x; \theta) \, \mathrm{d} x \\
L(\theta) \propto \prod_{j = 1}^k P_j(\theta)
$$
可得到 $\theta$ 的极大似然估计 $\tilde{\theta}^*$——通常不易实现。
因此可得到 $P_j\left(\tilde{\theta}^*\right)$,并得到 $E_j = nP_j\left(\tilde{\theta}^*\right)$。
注:此时 $\chi^2$ 的分布趋向于 $\chi^2(k - 1 - s)$,其中 $s$ 为参数 $\theta$ 的维数。
经过整理可得:
单元边界 | $O_i$ | $E_i = n P_i$ |
---|---|---|
$1.45 \sim 1.95$ | $2$ | $0.5$ |
$1.95 \sim 2.45$ | $1$ | $2.1$ |
$2.45 \sim 2.95$ | $4$ | $5.9$ |
$2.95 \sim 3.45$ | $15$ | $10.3$ |
$3.45 \sim 3.95$ | $10$ | $10.7$ |
$3.95 \sim 4.45$ | $5$ | $7.0$ |
$4.45 \sim 4.95$ | $3$ | $3.5$ |
可以将前三个单元合并,最后两个单元合并。
实践方法:
- 直接极大似然估计(不分组),$\mu^* = \overline{X} \approx 3.5, (\sigma^2)^* = m_2 \approx 0.7^2$。
- $E_i$ 的计算,这里也就是对应 cdf 相减。
- 计算 $\chi_0^2$,这里得到 $\chi_0^2 \approx 3.05 < \chi^2_{0.05}(1) \approx 3.84 \Rightarrow$ 不拒绝 $H_0$($\alpha = 0.05$)。
注:
- 上述做法 $\chi^2$ 统计量严格来说不是近似 $\chi^2(k - 1 - s)$,但 $P$ 值介于 $\chi^2(k - 1 - s)$ 的 $P$ 值和 $\chi^2(k - 1)$ 的 $P$ 值之间。
- 不拒绝 $H_0$ 并不意味着数据是正态的。
注:独立的 $\chi^2$ 统计量可以合并。
$e.g.$ Mendel 的实验全部独立(不同的作物组),Fisher 计算其每个 $\chi^2$ 的统计量并合并,得到 $\chi^2$ 值略小于 $42$,自由度为 $84$。
检验是否造假:
$H_0 : $ Mendel 数据是真实收集的。
$H_1 : $ Mendel 数据时捏造的(处理过的)。(目的是使得记录的频数更接近于期望频数)
$P$ 值 $\approx 4 \times 10^{-5} \Rightarrow$ 拒绝 $H_0$。
No Comments