概率论与数理统计笔记(7)——假设检验

概率论与数理统计笔记(7)——假设检验

Contents

Chapter 6:假设检验

1、基本概念

实例

$e.g.$ 一大批电子元件寿命 $X$,样本 $X_1, \cdots, X_n$ iid。

问题 1:假设 $X \sim Exp(\lambda)$,那么 $\lambda =$?( 模型推断)

回答:参数估计。

问题 2:若合格标准为 $E(X) \ge 5000$,那么如何判定这一批是否合格。

回答:假设检验:样本多大程度上支持假设($E(X) \ge 5000$)。

执行标准,$\overline{X} \ge l_1$,问题是如何确定 $l_1$。

定义

统计假设:对一个或多个总体的某种推断或猜测。

原假设:被检验的假设,即为 $H_0$。

备择假设:拒绝 $H_0$ 后可供选择的假设,即为 $H_1$,也称研究假设。

:假设为参数形式时,$H_0 : \theta \in \Theta_0, H_1 \in \Theta_1$,其中 $\Theta_0 \cap \Theta_1 = \varnothing$,$\Theta_0 \cup \Theta_1 = \theta$ 的所有可能取值。

$e.g.$ $H_0 : \lambda \le \frac{1}{5000}, H_1 : \lambda > \frac{1}{5000}$。

简单假设:只含一个总体。

$e.g.$ 假设 $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,则 $H_0 : \mu = \mu_0$ 就是简单假设。

假设检验

依据样本的决策过程,也就是拒绝 $H_0$ 或者不拒绝 $H_0$。

所有可能观测的集合 $\{(X_1, \cdots, X_n)\}$($n$ 固定),相当于对于落在其中一个集合 $R$ 的样本,选择拒绝 $H_0$,否则不拒绝。

$R$ 称为临界域,或者拒绝域,$e.g.$ $\{(X_1, \cdots, X_n) | \overline{X} \le l_1\}$。

形式上抽象为:
$$
R = \{(X_1, \cdots, X_n) | T(X_1, \cdots, X_n) \ge C\}
$$
$C$ 称为临界值。

拒绝 $H_0$:在假设 $H_0$ 为真的情况下,所观测的样本出现的概率是很小的(样本提供的证据拒绝了 $H_0$)——概率的作用。

两种错误

I 类:弃真。

II 类:取伪。

对应的概率表示为 $P(I), \theta \in \Theta_0$,$P(II), \theta \in \Theta_1$。

  1. 依据样本作决策错误不可避免。
  2. 同一次检验不可能同时犯两种错误。
  3. $n$ 固定时,$e.g.$:
    1. 都不拒绝 $H_0$,$P(I) = 0$,则 $P(II) = 1$,反之类似。
    2. $H_0 : $ 合格,$P(I)$ 变小,不容易拒绝(谨慎),不合格不易检出,$P(II)$ 变大。

$P(I) = P((X_1, \cdots, X_n) \in R), \theta \in \Theta_0$,记为 $\alpha(R)$。

$P(II) = P((X_1, \cdots, X_n) \in R^C), \theta \in \Theta_1$。记为 $\beta(R)$。

功效函数

$$
P_\theta((X_1, \cdots, X_n) \in R) =
\begin{cases}
\alpha(R) & \theta \in \Theta_0 \\
1 - \beta(R) & \theta \in \Theta_1
\end{cases}
$$

是 $\theta$ 的函数。

Neyman-Pearson 范式

($n$ 固定)控制 $P(I) \le \alpha, \forall \theta \in \Theta_1$($\alpha > 0$,预先给定,称为检验水平,或显著水平),再在这个限制下使 $P(II)$ 尽可能小。

:$\alpha$ 固定时,使 $P(II)$ 最小的检验称为水平 $\alpha$ 的一致最优检验(不一定存在,也一般不容易求)。

:$H_0$ 与 $H_1$ 地位非对称。

  1. 通常原假设是受保护的,无充分证据不能拒绝。(疑罪从无)
  2. 备择假设可能才是真正感兴趣的。

2、临界值检验法

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$。

  1. $H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$。
  2. $H_0 : \mu \ge \mu_0, H_1 : \mu < \mu_0$。
  3. $H_0 : \mu \le \mu_0, H_1 : \mu > \mu_0$。

若 $\sigma^2$ 已知。

  1. $\alpha > 0$ 给定,$H_0$ 为真时,假设 $\left|\overline{X} - \mu_0\right| \ge C$ 时否定 $H_0$。
    $$
    P_{\mu_0}\left(\left|\overline{X} - \mu_0\right| \ge C\right) \le \alpha \\
    \overline{X} - \mu_0 \sim N\left(0, \frac{\sigma^2}{n}\right) \\
    P(I) = P_{\mu_0}\left(\left|\frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right| \ge \frac{C}{\frac{\sigma}{\sqrt{n}}} \right) \le \alpha \\
    \Rightarrow C = z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}
    $$
    检验:当 $\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时否定 $H_0$。

  2. $\alpha > 0$ 给定,$H_0$ 为真时,设 $\overline{X} \le C$ 时拒绝 $H_0$。
    $$
    P_{\mu \ge \mu_0}\left(\overline{X} \le C\right) \le \alpha \\
    \frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1) \\
    P(I) = P_{\mu \ge \mu_0} \left(\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \le \frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
    = P_{\mu \ge \mu_0} \left(Z \le \frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \\
    \Rightarrow \Phi\left(\frac{C - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \le \alpha, \mu \ge \mu_0
    $$
    取 $C = \mu_0 - z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 即可。

    检验:当 $\overline{X} \le \mu_0 - z_\alpha \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。

    :也称 $z$ 检验。

若 $\sigma^2$ 未知:
$$
\frac{\overline{X} - \mu}{\frac{S}{\sqrt{n}}} \sim t(n - 1)
$$
可推出 $t$ 检验。

步骤

  1. 提出 $H_0, H_1$;
  2. 给定 $\alpha > 0$;
  3. 确定检验统计量及其分布,确定拒绝域的形状;
  4. 建立检验,$P(I) \le \alpha \to$ 拒绝域;
  5. 收集样本信息,计算检验统计量的值;
  6. 决策。

并不一定需要完整执行。

3、临界值检验与置信区间的对偶关系

实例

$e.g.$ $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 已知,$\alpha \in (0, 1)$ 给定,$X_1, \cdots, X_n$ iid。

置信区间(双侧):
$$
\mu \in \left(\overline{X} - z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right)
$$
假设检验:$H_0 : \mu = \mu_0, H_1 : \mu \not = \mu_0$(双边检验)
$$
P_{\mu_0}\left(\left|\overline{X} - \mu_0\right| \ge C\right) \le \alpha
$$
$\Rightarrow$ 当 $\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。

$\Leftrightarrow$ 接受域 $\left\{(X_1, \cdots, X_n) | \left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}\right\}$。

由此可见 $\mu_0$ 属于置信区间 $\Leftrightarrow$ 检验不拒绝 $H_0 : \mu = \mu_0$。

:区间估计信息更丰富。

4、$P$ 值检验法

实例

$e.g.$ $X \sim N(\mu, \sigma^2), \sigma^2 = 25$。

检验假设 $H_0 : \mu = 10, H_1 : \mu \not = 10$。

样本容量 $n = 100$,观测到均值 $\overline{x} = 10.935$。

给定 $\alpha \in (0, 1)$,$\left|\overline{X} - \mu_0\right| \ge z_{\frac{\alpha}{2}} \cdot \dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$。

$\Rightarrow$ 若取 $\alpha = 0.05$,则 $|\overline{x} - 10| = 0.935 < 1.96 \times \dfrac{1}{2} \Rightarrow$ 不拒绝 $H_0$。

$\Rightarrow$ 若取 $\alpha = 0.1$,则 $|\overline{x} - 10| = 0.935 > 1.65 \times \dfrac{1}{2} \Rightarrow$ 拒绝 $H_0$。
$$
P_{\mu = 10}\left(\left|\overline{X} - 10\right| \ge |\overline{x} - 10|\right) = P_{\mu = 10} \left(\frac{\left|\overline{X} - 10\right|}{\frac{\sigma}{\sqrt{100}}} \ge \frac{|\overline{x} - 10|}{{\frac{\sigma}{\sqrt{100}}}}\right) \\
\approx P(|Z| \ge 1.87) \approx 0.0614
$$

假设检验的 $P$ 值

原假设为真时,观测值及更极端的观测出现的概率,称为 $P$ 值。

当 $P \le \alpha$ 时,拒绝 $H_0$(通常也称为观测值显著)。

  1. 通常也称 $P$ 值为观测到的显著水平 $\Leftrightarrow$ 由检验统计量的样本观测值得出拒绝 $H_0$ 的最小检验水平。
  2. $P$ 值不是 $H_0$ 为真的概率($i.e.$ $P \not = P(H_0 | 观测值)$)。
  3. $P$ 值大 $\to$ 不拒绝 $H_0$,原因可能为 $H_0$ 为真或 $H_0$ 为假,但检验功效很低。

$P$ 值检验法的步骤

  1. 提出 $H_0, H_1$;
  2. 给定 $\alpha > 0$;(不一定需要)
  3. 确定检验统计量及其分布,确定“极端”形式(由 $H_1$ 决定);
  4. 搜集样本信息,计算检验统计量的值;
  5. 计算 $P$ 值;
  6. 决策 。

$e.g.$(选举问题)观测的支持比例为 $\dfrac{684}{1200} = 0.57, n = 1200$。

考虑假设检验 $H_0 : p = p_0, H_1 : p > p_0$。
$$
P_n - p_0 \stackrel{近似}{\sim} N(0, \hat{se}^2)
$$
$\hat{se}^2 = \dfrac{p_0(1 - p_0)}{n}$ 或 $\dfrac{P_n(1 - P_n)}{n}$ 称为标准误差的估计的平方。

$P$ 值 $= P_{p = p_0}(P_n - p_0 \ge p_n - p_0)$。

故:
$$
P_{p = p_0}(P_n - p_0 \ge p_n - p_0) \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\hat{se}} \ge \frac{p_n - p_0}{\hat{se}} \right) \\
= P\left(Z \ge \frac{0.57 - p_0}{\hat{se}} \right)
$$
若 $p_0 = 0.55$,则 $P$ 值 $= P\left(Z \ge \frac{0.02}{0.014}\right) \approx 0.081$。

若 $p_0 = 0.545$,则 $P$ 值 $= P\left(Z \ge \frac{0.025}{0.014}\right) \approx 0.04$。

考虑假设检验:$H_0 : p \le p_0, H_1 : p > p_0$。
$$
P_{p \le p_0} \left(\frac{P_n - p}{\hat{se}} \ge \frac{p_n - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right)\\
= P_{p \le p_0} \left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}} + \frac{p_0 - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
\le P_{p \le p_0} \left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P_{p \le p_0}(Z \ge Z_0), Z = \frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
\Rightarrow P 值 = \sup_{p \le p_0} P\left(\frac{P_n - p}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P_{p = p_0} \left(\frac{P_n - p_0}{\sqrt{\frac{P_n(1 - P_n)}{n}}} \ge \frac{p_n - p_0}{\sqrt{\frac{p_n(1 - p_n)}{n}}}\right) \\
= P(Z \ge Z_0)
$$

定理

若拒绝 $H_0 \Leftrightarrow T(X_1, \cdots, X_n) \ge C_\alpha$,则 $P$ 值 $= \sup\limits_{\theta \in \Theta_0} P_\theta(T(X_1, \cdots, X_n) \ge T(x_1, \cdots, x_n))$。

5、Bayes 假设检验

实例

$e.g.$ 硬币,掷 $10$ 次,观测到正面向上 $x$ 次。

$H_0 : p = 0.5, H_1 : p = 0.7$
$$
\frac{P(H_0 | x)}{P(H_1 | x)} = \frac{P(H_0)}{P(H_1)} \cdot \frac{P(x | H_0)}{P(x | H_1)} < 1 $$ 则拒绝 $H_0$。

  1. 也可以设为 $\dfrac{P(H_0 | x)}{P(H_1 | x)} < c, c \not = 1$ 拒绝 $H_0$。
  2. $H_0 : \theta = \theta_0, H_1 : \theta \not = \theta_0$,若 $\Theta$ 连续,则 $P(\Theta = \theta_0 | x) = 0$,此时需技巧性处理,可参考陈先生书 $5.2.8$。

6、拟合优度检验

实例

$e.g.$ 骰子点数为 $1, 2, 3, 4, 5, 6$,观测得到的频数分别为 $4, 6, 17, 16, 8, 9$,问色子是否均匀?

$H_0 : $ 均匀($i.e. \ P_1 = \cdots = P_6 = \frac{1}{6}$),$H_1 : $ 不均匀。

此时引入拟合优度检验。

Pearson $\chi^2-$ 统计量

$$
\chi^2 \stackrel{\triangle}{=} \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i}
$$

$O_i$ 观测频数,$E_i$ 期望频数。

定理

$H_0 : P(X = a_i) = p_i(i = 1, \cdots, k)$。

若 $H_0$ 为真,则当 $n \to \infty$ 时,$\chi^2$ 的分布 $\to \chi^2(k - 1)$。

$e.g.$ 上例中观测值 $\chi^2_0 = 14.2 \Rightarrow P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.014$。

:需 $E_i \ge 5$ 时才比较好运用这个决策准则(定理),否则需要会合并相邻单元。

连续情形

$e.g.$ 汽车电池寿命($n = 40$)。

数据数据数据数据数据数据数据数据
$2.2$$4.1$$3.5$$4.5$$3.2$$3.7$$2.6$$3.0$
$3.4$$1.6$$3.1$$3.3$$3.8$$3.1$$3.7$$4.7$
$2.5$$4.3$$3.4$$3.6$$2.9$$3.3$$3.1$$3.9$
$3.3$$3.1$$3.7$$4.4$$3.2$$4.1$$3.4$$1.9$
$4.7$$3.8$$3.2$$2.6$$3.9$$3.0$$3.5$$4.2$

分组 $\to$ 相对频数分布 $\to$ 相对频数直方图 $\to$ 总体分布。

$H_0 : $ 电池寿命的分布是正态的($X \sim N(\mu, \sigma^2)$),$H_1 : $ 电池寿命不是正态的。

基本想法:
$$
P_j(\theta) = \int_{I_j} f(x; \theta) \, \mathrm{d} x \\
L(\theta) \propto \prod_{j = 1}^k P_j(\theta)
$$
可得到 $\theta$ 的极大似然估计 $\tilde{\theta}^*$——通常不易实现。

因此可得到 $P_j\left(\tilde{\theta}^*\right)$,并得到 $E_j = nP_j\left(\tilde{\theta}^*\right)$。

:此时 $\chi^2$ 的分布趋向于 $\chi^2(k - 1 - s)$,其中 $s$ 为参数 $\theta$ 的维数。

经过整理可得:

单元边界$O_i$$E_i = n P_i$
$1.45 \sim 1.95$$2$$0.5$
$1.95 \sim 2.45$$1$$2.1$
$2.45 \sim 2.95$$4$$5.9$
$2.95 \sim 3.45$$15$$10.3$
$3.45 \sim 3.95$$10$$10.7$
$3.95 \sim 4.45$$5$$7.0$
$4.45 \sim 4.95$$3$$3.5$

可以将前三个单元合并,最后两个单元合并。

实践方法

  1. 直接极大似然估计(不分组),$\mu^* = \overline{X} \approx 3.5, (\sigma^2)^* = m_2 \approx 0.7^2$。
  2. $E_i$ 的计算,这里也就是对应 cdf 相减。
  3. 计算 $\chi_0^2$,这里得到 $\chi_0^2 \approx 3.05 < \chi^2_{0.05}(1) \approx 3.84 \Rightarrow$ 不拒绝 $H_0$($\alpha = 0.05$)。

  1. 上述做法 $\chi^2$ 统计量严格来说不是近似 $\chi^2(k - 1 - s)$,但 $P$ 值介于 $\chi^2(k - 1 - s)$ 的 $P$ 值和 $\chi^2(k - 1)$ 的 $P$ 值之间。
  2. 不拒绝 $H_0$ 并不意味着数据是正态的。

:独立的 $\chi^2$ 统计量可以合并。

$e.g.$ Mendel 的实验全部独立(不同的作物组),Fisher 计算其每个 $\chi^2$ 的统计量并合并,得到 $\chi^2$ 值略小于 $42$,自由度为 $84$。

检验是否造假:

$H_0 : $ Mendel 数据是真实收集的。

$H_1 : $ Mendel 数据时捏造的(处理过的)。(目的是使得记录的频数更接近于期望频数)

$P$ 值 $\approx 4 \times 10^{-5} \Rightarrow$ 拒绝 $H_0$。

 

点赞 0

No Comments

Add your comment