概率论与数理统计笔记（7）——假设检验

wzf2000
2020年6月10日

概率论与数理统计笔记（7）——假设检验

Chapter 6：假设检验

1、基本概念

实例

$e.g.$ 一大批电子元件寿命 $X$，样本 $X_1, \cdots, X_n$ iid。

问题 1：假设 $X \sim Exp(\lambda)$，那么 $\lambda =$？（模型推断）

回答：参数估计。

问题 2：若合格标准为 $E(X) \ge 5000$，那么如何判定这一批是否合格。

回答：假设检验：样本多大程度上支持假设（$E(X) \ge 5000$）。

执行标准，$\overline{X} \ge l_1$，问题是如何确定 $l_1$。

定义

统计假设：对一个或多个总体的某种推断或猜测。

原假设：被检验的假设，即为 $H_0$。

备择假设：拒绝 $H_0$ 后可供选择的假设，即为 $H_1$，也称研究假设。

注：假设为参数形式时，$H_0 : \theta \in \Theta_0, H_1 \in \Theta_1$，其中 $\Theta_0 \cap \Theta_1 = \varnothing$，$\Theta_0 \cup \Theta_1 = \theta$ 的所有可能取值。

$e.g.$ $H_0 : \lambda \le \frac{1}{5000}, H_1 : \lambda > \frac{1}{5000}$。

简单假设：只含一个总体。

$e.g.$ 假设 $X \sim N(\mu, \sigma^2)$，$\sigma^2$ 已知，则 $H_0 : \mu = \mu_0$ 就是简单假设。

假设检验

依据样本的决策过程，也就是拒绝 $H_0$ 或者不拒绝 $H_0$。

所有可能观测的集合 $\{(X_1, \cdots, X_n)\}$（$n$ 固定），相当于对于落在其中一个集合 $R$ 的样本，选择拒绝 $H_0$，否则不拒绝。

$R$ 称为临界域，或者拒绝域，$e.g.$ $\{(X_1, \cdots, X_n) | \overline{X} \le l_1\}$。

形式上抽象为：
$$
R = \{(X_1, \cdots, X_n) | T(X_1, \cdots, X_n) \ge C\}
$$
$C$ 称为临界值。

拒绝 $H_0$：在假设 $H_0$ 为真的情况下，所观测的样本出现的概率是很小的（样本提供的证据拒绝了 $H_0$）——概率的作用。

两种错误

I 类：弃真。

II 类：取伪。

对应的概率表示为 $P(I), \theta \in \Theta_0$，$P(II), \theta \in \Theta_1$。

注：

依据样本作决策错误不可避免。
同一次检验不可能同时犯两种错误。
$n$ 固定时，$e.g.$：
1. 都不拒绝 $H_0$，$P(I) = 0$，则 $P(II) = 1$，反之类似。
2. $H_0 : $ 合格，$P(I)$ 变小，不容易拒绝（谨慎），不合格不易检出，$P(II)$ 变大。

$P(I) = P((X_1, \cdots, X_n) \in R), \theta \in \Theta_0$，记为 $\alpha(R)$。

$P(II) = P((X_1, \cdots, X_n) \in R^C), \theta \in \Theta_1$。记为 $\beta(R)$。

功效函数

$$
P_\theta((X_1, \cdots, X_n) \in R) =
\begin{cases}
\alpha(R) & \theta \in \Theta_0 \\
1 – \beta(R) & \theta \in \Theta_1
\end{cases}
$$

是 $\theta$ 的函数。

Neyman-Pearson 范式

（$n$ 固定）控制 $P(I) \le \alpha, \forall \theta \in \Theta_1$（$\alpha > 0$，预先给定，称为检验水平，或显著水平），再在这个限制下使 $P(II)$ 尽可能小。

注：$\alpha$ 固定时，使 $P(II)$ 最小的检验称为水平 $\alpha$ 的一致最优检验（不一定存在，也一般不容易求）。

注：$H_0$ 与 $H_1$ 地位非对称。

通常原假设是受保护的，无充分证据不能拒绝。（疑罪从无）
备择假设可能才是真正感兴趣的。

2、临界值检验法

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$。

$H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$。
$H_0 : \mu \ge \mu_0, H_1 : \mu < \mu_0$。
$H_0 : \mu \le \mu_0, H_1 : \mu > \mu_0$。

若 $\sigma^2$ 已知。

$\alpha > 0$ 给定，$H_0$ 为真时，假设 $\left|\overline{X} – \mu_0\right| \ge C$ 时否定 $H_0$。
$$
P_{\mu_0}\left(\left|\overline{X} – \mu_0\right| \ge C\right) \le \alpha \\
\overline{X} – \mu_0 \sim N\left(0, \frac{\sigma^2}{n}\right) \\
P(I) = P_{\mu_0}\left(\left|\frac{\overline{X} – \mu_0}{\frac{\sigma}{\sqrt{n}}}\right| \ge \frac{C}{\frac{\sigma}{\sqrt{n}}} \right) \le \alpha \\
\Rightarrow C = z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}
$$
检验：当 $\left|\overline{X} – \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时否定 $H_0$。
$\alpha > 0$ 给定，$H_0$ 为真时，设 $\overline{X} \le C$ 时拒绝 $H_0$。
$$
P_{\mu \ge \mu_0}\left(\overline{X} \le C\right) \le \alpha \\
\frac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
P(I) = P_{\mu \ge \mu_0} \left(\frac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}} \le \frac{C – \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
= P_{\mu \ge \mu_0} \left(Z \le \frac{C – \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
\Rightarrow \Phi\left(\frac{C – \mu}{\frac{\sigma}{\sqrt{n}}}\right) \le \alpha, \mu \ge \mu_0
$$
取 $C = \mu_0 – z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 即可。
检验：当 $\overline{X} \le \mu_0 – z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。
注：也称 $z$ 检验。

若 $\sigma^2$ 未知：
$$
\frac{\overline{X} – \mu}{\frac{S}{\sqrt{n}}} \sim t(n – 1)
$$
可推出 $t$ 检验。

步骤

提出 $H_0, H_1$；
给定 $\alpha > 0$；
确定检验统计量及其分布，确定拒绝域的形状；
建立检验，$P(I) \le \alpha \to$ 拒绝域；
收集样本信息，计算检验统计量的值；
决策。

并不一定需要完整执行。

3、临界值检验与置信区间的对偶关系

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$，$\sigma^2$ 已知，$\alpha \in (0, 1)$ 给定，$X_1, \cdots, X_n$ iid。

置信区间（双侧）：
$$
\mu \in \left(\overline{X} – z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right)
$$
假设检验：$H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$（双边检验）
$$
P_{\mu_0}\left(\left|\overline{X} – \mu_0\right| \ge C\right) \le \alpha
$$
$\Rightarrow$ 当 $\left|\overline{X} – \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。

$\Leftrightarrow$ 接受域 $\left\{(X_1, \cdots, X_n) | \left|\overline{X} – \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}\right\}$。

由此可见 $\mu_0$ 属于置信区间 $\Leftrightarrow$ 检验不拒绝 $H_0 : \mu = \mu_0$。

注：区间估计信息更丰富。

4、$P$ 值检验法

实例

$e.g.$ $X \sim N(\mu, \sigma^2), \sigma^2 = 25$。

检验假设 $H_0 : \mu = 10, H_1 : \mu \not = 10$。

样本容量 $n = 100$，观测到均值 $\overline{x} = 10.935$。

给定 $\alpha \in (0, 1)$，$\left|\overline{X} – \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。

$\Rightarrow$ 若取 $\alpha = 0.05$，则 $|\overline{x} – 10| = 0.935 < 1.96 \times \dfrac{1}{2} \Rightarrow$ 不拒绝 $H_0$。

$\Rightarrow$ 若取 $\alpha = 0.1$，则 $|\overline{x} – 10| = 0.935 > 1.65 \times \dfrac{1}{2} \Rightarrow$ 拒绝 $H_0$。
$$
P_{\mu = 10}\left(\left|\overline{X} – 10\right| \ge |\overline{x} – 10|\right) = P_{\mu = 10} \left(\frac{\left|\overline{X} – 10\right|}{\frac{\sigma}{\sqrt{100}}} \ge \frac{|\overline{x} – 10|}{{\frac{\sigma}{\sqrt{100}}}}\right) \\
\approx P(|Z| \ge 1.87) \approx 0.0614
$$

假设检验的 $P$ 值

原假设为真时，观测值及更极端的观测出现的概率，称为 $P$ 值。

当 $P \le \alpha$ 时，拒绝 $H_0$（通常也称为观测值显著）。

注：

通常也称 $P$ 值为观测到的显著水平 $\Leftrightarrow$ 由检验统计量的样本观测值得出拒绝 $H_0$ 的最小检验水平。
$P$ 值不是 $H_0$ 为真的概率（$i.e.$ $P \not = P(H_0 | 观测值)$）。
$P$ 值大 $\to$ 不拒绝 $H_0$，原因可能为 $H_0$ 为真或 $H_0$ 为假，但检验功效很低。

$P$ 值检验法的步骤

提出 $H_0, H_1$；
给定 $\alpha > 0$；（不一定需要）
确定检验统计量及其分布，确定“极端”形式（由 $H_1$ 决定）；
搜集样本信息，计算检验统计量的值；
计算 $P$ 值；
决策。

$e.g.$（选举问题）观测的支持比例为 $\dfrac{684}{1200} = 0.57, n = 1200$。

考虑假设检验 $H_0 : p = p_0, H_1 : p > p_0$。
$$
P_n – p_0 \stackrel{近似}{\sim} N(0, \hat{se}^2)
$$
$\hat{se}^2 = \dfrac{p_0(1 – p_0)}{n}$ 或 $\dfrac{P_n(1 – P_n)}{n}$ 称为标准误差的估计的平方。

$P$ 值 $= P_{p = p_0}(P_n – p_0 \ge p_n – p_0)$。

故：
$$
P_{p = p_0}(P_n – p_0 \ge p_n – p_0) \\
= P_{p = p_0} \left(\frac{P_n – p_0}{\hat{se}} \ge \frac{p_n – p_0}{\hat{se}} \right) \\
= P\left(Z \ge \frac{0.57 – p_0}{\hat{se}} \right)
$$
若 $p_0 = 0.55$，则 $P$ 值 $= P\left(Z \ge \frac{0.02}{0.014}\right) \approx 0.081$。

若 $p_0 = 0.545$，则 $P$ 值 $= P\left(Z \ge \frac{0.025}{0.014}\right) \approx 0.04$。

考虑假设检验：$H_0 : p \le p_0, H_1 : p > p_0$。
$$
P_{p \le p_0} \left(\frac{P_n – p}{\hat{se}} \ge \frac{p_n – p}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right)\\
= P_{p \le p_0} \left(\frac{P_n – p}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \ge \frac{p_n – p_0}{\sqrt{\frac{p_n(1 – p_n)}{n}}} + \frac{p_0 – p}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right) \\
\le P_{p \le p_0} \left(\frac{P_n – p}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \ge \frac{p_n – p_0}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right) \\
= P_{p \le p_0}(Z \ge Z_0), Z = \frac{P_n – p}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \\
= P_{p = p_0} \left(\frac{P_n – p_0}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \ge \frac{p_n – p_0}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right) \\
\Rightarrow P 值 = \sup_{p \le p_0} P\left(\frac{P_n – p}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \ge \frac{p_n – p}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right) \\
= P_{p = p_0} \left(\frac{P_n – p_0}{\sqrt{\frac{P_n(1 – P_n)}{n}}} \ge \frac{p_n – p_0}{\sqrt{\frac{p_n(1 – p_n)}{n}}}\right) \\
= P(Z \ge Z_0)
$$

定理

若拒绝 $H_0 \Leftrightarrow T(X_1, \cdots, X_n) \ge C_\alpha$，则 $P$ 值 $= \sup\limits_{\theta \in \Theta_0} P_\theta(T(X_1, \cdots, X_n) \ge T(x_1, \cdots, x_n))$。

5、Bayes 假设检验

实例

$e.g.$ 硬币，掷 $10$ 次，观测到正面向上 $x$ 次。

$H_0 : p = 0.5, H_1 : p = 0.7$
$$
\frac{P(H_0 | x)}{P(H_1 | x)} = \frac{P(H_0)}{P(H_1)} \cdot \frac{P(x | H_0)}{P(x | H_1)} < 1 $$ 则拒绝 $H_0$。

注：

也可以设为 $\dfrac{P(H_0 | x)}{P(H_1 | x)} < c, c \not = 1$ 拒绝 $H_0$。
$H_0 : \theta = \theta_0, H_1 : \theta \not = \theta_0$，若 $\Theta$ 连续，则 $P(\Theta = \theta_0 | x) = 0$，此时需技巧性处理，可参考陈先生书 $5.2.8$。

6、拟合优度检验

实例

$e.g.$ 骰子点数为 $1, 2, 3, 4, 5, 6$，观测得到的频数分别为 $4, 6, 17, 16, 8, 9$，问色子是否均匀？

$H_0 : $ 均匀（$i.e. \ P_1 = \cdots = P_6 = \frac{1}{6}$），$H_1 : $ 不均匀。

此时引入拟合优度检验。

Pearson $\chi^2-$ 统计量

$$
\chi^2 \stackrel{\triangle}{=} \sum_{i = 1}^k \frac{(O_i – E_i)^2}{E_i}
$$

$O_i$ 观测频数，$E_i$ 期望频数。

定理

$H_0 : P(X = a_i) = p_i(i = 1, \cdots, k)$。

若 $H_0$ 为真，则当 $n \to \infty$ 时，$\chi^2$ 的分布 $\to \chi^2(k – 1)$。

$e.g.$ 上例中观测值 $\chi^2_0 = 14.2 \Rightarrow P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.014$。

注：需 $E_i \ge 5$ 时才比较好运用这个决策准则（定理），否则需要会合并相邻单元。

连续情形

$e.g.$ 汽车电池寿命（$n = 40$）。

数据	数据	数据	数据	数据	数据	数据	数据
$2.2$	$4.1$	$3.5$	$4.5$	$3.2$	$3.7$	$2.6$	$3.0$
$3.4$	$1.6$	$3.1$	$3.3$	$3.8$	$3.1$	$3.7$	$4.7$
$2.5$	$4.3$	$3.4$	$3.6$	$2.9$	$3.3$	$3.1$	$3.9$
$3.3$	$3.1$	$3.7$	$4.4$	$3.2$	$4.1$	$3.4$	$1.9$
$4.7$	$3.8$	$3.2$	$2.6$	$3.9$	$3.0$	$3.5$	$4.2$

分组 $\to$ 相对频数分布 $\to$ 相对频数直方图 $\to$ 总体分布。

$H_0 : $ 电池寿命的分布是正态的（$X \sim N(\mu, \sigma^2)$），$H_1 : $ 电池寿命不是正态的。

基本想法：
$$
P_j(\theta) = \int_{I_j} f(x; \theta) \, \mathrm{d} x \\
L(\theta) \propto \prod_{j = 1}^k P_j(\theta)
$$
可得到 $\theta$ 的极大似然估计 $\tilde{\theta}^*$——通常不易实现。

因此可得到 $P_j\left(\tilde{\theta}^*\right)$，并得到 $E_j = nP_j\left(\tilde{\theta}^*\right)$。

注：此时 $\chi^2$ 的分布趋向于 $\chi^2(k – 1 – s)$，其中 $s$ 为参数 $\theta$ 的维数。

经过整理可得：

单元边界	$O_i$	$E_i = n P_i$
$1.45 \sim 1.95$	$2$	$0.5$
$1.95 \sim 2.45$	$1$	$2.1$
$2.45 \sim 2.95$	$4$	$5.9$
$2.95 \sim 3.45$	$15$	$10.3$
$3.45 \sim 3.95$	$10$	$10.7$
$3.95 \sim 4.45$	$5$	$7.0$
$4.45 \sim 4.95$	$3$	$3.5$

可以将前三个单元合并，最后两个单元合并。

实践方法：

直接极大似然估计（不分组），$\mu^* = \overline{X} \approx 3.5, (\sigma^2)^* = m_2 \approx 0.7^2$。
$E_i$ 的计算，这里也就是对应 cdf 相减。
计算 $\chi_0^2$，这里得到 $\chi_0^2 \approx 3.05 < \chi^2_{0.05}(1) \approx 3.84 \Rightarrow$ 不拒绝 $H_0$（$\alpha = 0.05$）。

注：

上述做法 $\chi^2$ 统计量严格来说不是近似 $\chi^2(k – 1 – s)$，但 $P$ 值介于 $\chi^2(k – 1 – s)$ 的 $P$ 值和 $\chi^2(k – 1)$ 的 $P$ 值之间。
不拒绝 $H_0$ 并不意味着数据是正态的。

注：独立的 $\chi^2$ 统计量可以合并。

$e.g.$ Mendel 的实验全部独立（不同的作物组），Fisher 计算其每个 $\chi^2$ 的统计量并合并，得到 $\chi^2$ 值略小于 $42$，自由度为 $84$。

检验是否造假：

$H_0 : $ Mendel 数据是真实收集的。

$H_1 : $ Mendel 数据时捏造的（处理过的）。（目的是使得记录的频数更接近于期望频数）

$P$ 值 $\approx 4 \times 10^{-5} \Rightarrow$ 拒绝 $H_0$。

概统笔记

120 次浏览

No Comments