概率论与数理统计笔记（8）——假设检验（续）

wzf2000
2020年6月10日

概率论与数理统计笔记（8）——假设检验（续）

Chapter 6：假设检验（续）

7、列联表检验

独立性检验

$e.g.$ （独立性检验）啤酒口味偏好与饮酒者性别是否独立。

样本见下：

	淡	普	黑	合计
男	$20$	$40$	$20$	$80$
女	$30$	$30$	$10$	$70$
合计	$50$	$70$	$30$	$150$

$H_0 : $ 独立（$H_1 : $ 不独立）。

令 $P_{i+}, P_{+j}$ 为边际概率。
$$
\chi^2 = \sum_{i, j} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}, E_{ij} = n P_{ij}
$$
$H_0 : P_{ij} = P_{i+} \cdot P_{+j}(1 \le i \le 2, 1 \le j \le 3)$。

极大似然估计 $P_{ij}$（$H_0$ 为真前提下）。
$$
P_{ij}^* = P_{i+}^* \cdot P_{+j}^* = \frac{\sum_j O_{ij}}{n} \frac{\sum_i O_{ij}}{n}
$$
消耗自由度为 $(a – 1) + (b – 1) = a + b – 2$。
$E_{ij} = n P_{ij} \approx n P_{ij}^* \Rightarrow \chi_0^2 \approx 6.12$。
自由度为 $ab – 1 – (a + b – 2) = (a – 1)(b – 1) = (2 – 1)(3 – 1) = 2$。
$P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.0469$。

齐性检验

$e.g.$ （齐性检验）Jane Austen：

	Sense & Sensibility	Emma	Sandition I	小计	Sandition II
a	$147$	$186$	$101$	$434$	$83$
an	$25$	$26$	$11$	$62$	$29$
this	$32$	$39$	$15$	$86$	$15$
that	$94$	$105$	$37$	$236$	$22$
with	$59$	$74$	$28$	$161$	$43$
without	$18$	$10$	$10$	$38$	$4$
总计	$375$	$440$	$202$	$1017$	$196$

检验 Austen 不同作品的单词用法的一致性：$H_0 : P_{i1} = P_{i2} = P_{i3}(i = 1, \cdots, 6)$。
1. 在 $H_0$ 下，记 $P_{i1} = P_{i2} = P_{i3} = P_i$，估计 $P_i$，极大似然估计 $P_i^* = \dfrac{\sum_j O_{ij}}{n}$，$e.g.$ $P_1^* = \frac{434}{1017}$。
2. $E_{ij} = n_j P_i \approx n_j P_i^*$，$e.g.$ $E_{32} = 440 \times \frac{86}{1017} \approx 37.2$。
3. $\chi_0^2 \approx 12.27$，自由度为 $b(a – 1) – (a – 1) = (a – 1)(b – 1) = (6 – 1)(3 – 1) = 10$。
4. $P$ 值介于 $0.25$ 与 $0.30$ 之间 $\Rightarrow$ 不拒绝 $H_0$。
检验 Austen 的崇拜者模仿是否成功（单词用法角度）。
$H_0 : P_{i1} = P_{i2}(i = 1, \cdots, 6)$（用后两列）。
类似可得 $\chi_0^2 \approx 32.81$，自由度 $= (a – 1)(b – 1) = (6 – 1)(2 – 1) = 5$。
$P$ 值 $< 10^{-3} \Rightarrow$ 拒绝 $H_0$。

注：

逐个单元检查 $\chi^2$ 统计量的贡献，“an”，“that”用法不同。
独立性检验与齐性检验的差别：
1. 假设不同。
2. 抽样方案不同。

8、似然比检验

实例

$e.g.$ 硬币例子，$n = 10$，$x$ 次正面向上，$H_0 : P = 0.5, H_1 : P = 0.7$，则：
$$
\frac{P(x | H_0)}{P(x | H_1)}
$$
称为似然比，当其 $\le C$ 时拒绝 $H_0$。

注：$H_0, H_1$ 皆为简单假设时，似然比检验是最优的（最大功效，Neyman-Pearson），不是简单的假设时，一般不最优，通常表现也不错。

$H_0 : \theta \in \Theta_0, H_1 : \theta \in \Theta_1$，样本 $X_1, \cdots, X_n$ iid。

广义似然比

$$
\Lambda^* = \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_1} L(\theta)}
$$

基于技术原因，检验统计量为：
$$
\Lambda \stackrel{\triangle}{=} \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_0 \cup \Theta_1} L(\theta)} \\
\Lambda = \min (\Lambda^*, 1)
$$
临界值检验 $\Leftrightarrow$ 选择 $\lambda_0$，$s.t.$ $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。

注：若 $\Lambda$ 分布可求，则可直接计算 $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。

定理

在一定条件下（光滑性），$n \to \infty$ 时，在 $H_0$ 假设下，$-2 \ln \Lambda$ 的分布 $\to \chi^2$ 分布，其自由度为：
$$
\dim (\Theta_0 \cup \Theta_1) – \dim(\Theta_0)
$$
（$\dim$——自由参数个数）

注：$H_0 : p_1 = p, p_2 = 1 – p, k = 2$。

则 $\chi^2-$ 统计量为：
$$
\frac{(O_1 – np)^2}{np(1 – p)}
$$
由于 $E(O_1) = np, Var(O_1) = np(1 – p)$，因此：
$$
\frac{(O_1 – np)^2}{np(1 – p)} \stackrel{近似}{\sim} \chi^2(1)
$$
$e.g.$（多项分布）$H_0 : p_1 = p_{10}, \cdots p_k = p_{k0}, n_1 + \cdots + n_k = n$。
$$
L(p_1, \cdots, p_k) = \binom{n}{n_1, \cdots, n_k} p_1^{n_1} \cdots p_k^{n_k} \\
\Rightarrow \Lambda = \frac{p_{10}^{n_1} \cdots p_{k0}^{n_k}}{{p_1^*}^{n_1} \cdots {p_k^*}^{n_k}}, p_i^* = \frac{n_i}{n} \\
= \prod_{i = 1}^k \left(\frac{p_{i0}}{p_i^*}\right)^{n_i} \\
\Rightarrow -2 \ln \Lambda = -2 \sum_{i = 1}^k n_i \ln \frac{p_{i0}}{p_i^*} = -2 \sum_{i = 1}^k n_i \ln \frac{np_{i0}}{n_i} \\
= 2 \sum_{i = 1}^k O_i \ln \frac{O_i}{E_i}, O_i = n_i = n p_i^*, E_i = n p_{i0}
$$
根据 $x \ln \dfrac{x}{x_0}$ 的泰勒展开，可得：
$$
-2 \ln \Lambda = 2 \sum_{i = 1}^k (O_i – E_i) + \sum_{i = 1}^k \frac{(O_i – E_i)^2}{E_i} + \cdots \\
= \sum_{i = 1}^k \frac{(O_i – E_i)^2}{E_i} + \cdots
$$
第一项确实与卡方统计量相同。

9、两个总体的比较

两独立总体比较

总体	均值	方差	样本
$X$	$\mu_1$	$\sigma_1^2$	$X_1, \cdots, X_n$
$Y$	$\mu_2$	$\sigma_2^2$	$Y_1, \cdots, Y_n$

可知：
$$
E\left(\overline{X} – \overline{Y}\right) = \mu_1 – \mu_2 \\
Var\left(\overline{X} – \overline{Y}\right) = \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}
$$

若 $X, Y$ 皆为正态分布，且 $\sigma_1^2 = \sigma_2^2 = \sigma^2$，则：
$$
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sigma \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim N(0, 1) \\
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{S \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim t(n + m – 2), S^2 = \frac{(n – 1) S_1^2 + (m – 1) S_2^2}{n + m – 2}
$$
一般地：
$$
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1) \\
\frac{\left(\overline{X} – \overline{Y}\right) – (\mu_1 – \mu_2)}{\sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1)
$$

$e.g.$（比较成功率/失败率）

阿司匹林对于降低心脏病发病率的有效性（五年）。

样本信息：

	心脏病发作	未发作	合计	发作率
安慰剂	$239$	$10795$	$11034$	$0.0217$
阿司匹林	$139$	$10898$	$11037$	$0.0126$

$$
\frac{(P_1 – P_2) – (p_1 – p_2)}{se(P_1 – P_2)} \stackrel{近似}{\sim} N(0, 1)
$$

考虑：
$$
E(P_1 – P_2) = p_1 – p_2, Var(P_1 – P_2) = Var(P_1) + Var(P_2) = \frac{p_1(1 – p_1)}{n_1} + \frac{p_2(1 – p_2)}{n_2}
$$
假设检验：$H_0 : $ 无效（$p_1 = p_2$），$H_1 : $ 有效（$p_1 > p_2$）。

$H_0$ 为真前提下，$p$ 的极大似然估计为 $p^* := \dfrac{k_1 + k_2}{n_1 + n_2}$，因此：
$$
p_1 = p_2 \Rightarrow Var(P_1 – P_2) = p(1 – p) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \\
\approx p^* (1 – p^*) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \approx 0.00175^2
$$
可得 $P$ 值约为：
$$
P\left(Z \ge \frac{0.0091 – 0}{0.00175} \approx 5.20 \right) \approx 10^{-7}
$$
因此拒绝 $H_0$。

注：

随机分组。
单盲/双盲试验。
$n$ 足够大。

两相关总体比较

$e.g.$ 某大型出租车公司，比较汽油 $A$ 与 $B$ 的行驶里程。

$100$ 辆车分为两组：

	样本容量	平均里程	标准差
汽油 $A$	$50$	$25$	$5.00$
汽油 $B$	$50$	$26$	$4.00$

假设检验：$H_0 : \mu_A = \mu_B$，$H_1 : \mu_A \not = \mu_B$。
$$
se\left(\overline{X} – \overline{Y}\right) \approx \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n^2}} = \sqrt{\frac{25 + 16}{50}} = 0.905
$$
$P$ 值约为：
$$
P_{\mu_A = \mu_B} \left(|Z| \ge \frac{25 – 26 – 0}{0.905} \approx 1.1\right) \approx 0.1357 \times 2 \approx 0.27
$$
因此不拒绝 $H_0$，也就是有利于任何一种汽油的证据都是不充分的。

改进：

同一辆车（司机）不同日子分配不同的汽油，$n = 10$。

车号	汽油 $A$	汽油 $B$	差异
$1$	$27.01$	$26.95$	$0.06$
$2$	$20.00$	$20.44$	$-0.44$
$\vdots$	$\vdots$	$\vdots$	$\vdots$
$10$	$25.22$	$26.01$	$-0.79$
平均值	$25.20$	$25.80$	$-0.60$
标准差	$4.27$	$4.10$	$0.61$

注：可发现差异列的标准差变小了，消除了汽车（司机）之间的差异性。
$$
\overline{d} = \frac{1}{n} \sum_{i = 1}^n d_i = \overline{X} – \overline{Y}, E(\overline{d}) = \mu_a – \mu_b =: \mu_d
$$
假设 $d = X – Y$ 服从正态分布，则：
$$
\frac{\overline{d} – \mu_d}{\frac{S_d}{\sqrt{n}}} \sim t(n – 1)
$$
假设检验 $H_0 : \mu_d = 0(\Leftrightarrow \mu_a = \mu_b)$，$H_1 : \mu_d \not = 0$。

可知 $P$ 值约为 $0.006 \times 2 = 0.012$，拒绝 $H_0$（$\alpha = 0.05$）。

10、多个正态总体均值的比较

具体案例

$H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$，$H_1 : $ 至少存在一组 $\mu_i \not = \mu_j, 1 \le i < j \le n$。

注：假设 $k = 3$，则 $H_0$ 化为三个检验：
$$
H_0^{(1)} : \mu_2 = \mu_3, H_0^{(2)} : \mu_3 = \mu_1, H_0^{(3)} : \mu_1 = \mu_2
$$
每个检验水平都设为 $\alpha = 0.05$，则 $H_0$ 的检验水平 $> 0.05$。

令 $E_1$ 为 $\mu_2 = \mu_3$ 但拒绝 $H_0^{(1)}$，$E_2, E_3$ 类似定义。

令 $E$ 为 $\mu_1 = \mu_2 = \mu_3$ 但拒绝 $H_0$，$P(E_i) = 0.05$。

而 $E = E_1 + E_2 + E_3$，故：
$$
P(E) = P(E_1 + E_2 + E_3) > 0.05
$$

方差分析：ANOVA

$X_{ij}$ 表示第 $i$ 组第 $j$ 个观测，$n_i$ 为第 $i$ 组样本容量，$n = n_1 + \cdots + n_k$。
$$
\overline{X}_i = \frac{1}{n_i} \sum_{j = 1}^{n_i} X_{ij}
$$
为第 $i$ 组的样本均值。
$$
\overline{X} = \frac{1}{n} \sum_{i, j} X_{ij} = \frac{1}{n} \sum_{i = 1}^k \left(n_i \overline{X}_i \right)
$$
则：
$$
\sum_{ij} \left(X_{ij} – \overline{X} \right)^2 = \sum_{i = 1}^k \sum_{j = 1}^{n_i} \left(X_{ij} – \overline{X}_i \right)^2 + \sum_{i = 1}^k n_i \left(\overline{X}_i – \overline{X} \right)^2
$$
左侧称为 $SST$，右侧分别为 $SSW$ 和 $SSB$。

总离差平方和 $=$ 组内离差平方和 $+$ 组间离差平方和。

检验统计量：
$$
F \stackrel{\triangle}{=} \frac{SSB / (k – 1)}{SSW / (n – k)}
$$
$F$ 值越大，说明组间差异相对于组内波动来说越明显，反对 $H_0$。

$F-$ 检验

当 $H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$ 成立时，统计量 $F$ 服从自由度为 $(k – 1, n – k)$ 的 $F$ 分布（由卡方分布生成），且 $F \ge F_\alpha(k – 1, n – k)$ 时拒绝 $H_0$。

方差分析表

方差来源	平方和	自由度	均方
组间	$SSB$	$k – 1$	$SSB / (k – 1)$
组内	$SSW$	$n – k$	$SSW / (n – k)$
总计	$SST$	$n – 1$

最后得出：
$$
F \stackrel{\triangle}{=} \frac{SSB / (k – 1)}{SSW / (n – k)}
$$

理论框架

$$
X_{ij} = \mu + \alpha_i + \xi_{ij}
$$

第一项为总平均水平，第二项为第 $i$ 组的不同效应，第三项为随机误差（独立，服从 $N(0, \sigma^2)$）。（$\mu_i = \mu + \alpha_i$）
$$
\sum_{i = 1}^k \alpha_i = 0
$$
为规范。
$$
E(SSW) = \sigma^2 \sum_{i = 1}^k (n_i – 1) = \sigma^2 (n – k)
$$
可得：
$$
\frac{SSW}{\sigma^2} \sim \chi^2(n – k)
$$
而：
$$
E(SSB) = \sigma^2 (k – 1) + \sum_{i = 1}^k n_i \alpha_i^2
$$
如果 $\alpha_i \equiv 0$，则：
$$
\frac{SSB}{\sigma^2} \sim \chi^2(k – 1)
$$
且相互独立。

若一些 $\alpha_i \not = 0$，则 $SSB$ 就会膨胀。

重要假设：

$\xi_{ij}$ 正态（$\Rightarrow X_{ij}$ 正态），类似 $t$ 检验，对于来自适度的非正态大样本，$F$ 检验是近似合理的。
$\sigma^2$ 为常数（方差相同）。
$\xi_{ij}$ 独立。

注：$k = 2$，$F = t^2, F(1, n – 2) = t^2(n – 2)$，$F$ 检验与 $t$ 检验一致。

11、显著性的思考

结果显著吗？
数据窥探。
结果是否重要？
检验不解释原因。

12、非参数检验

不依赖于总体分布的统计推断。

在可以使用参数检验时，一般使用参数检验。

参数检验问题

$e.g.$ 服务满意度回访，管理层要求：平均满意度必须高于 $4$ 分。

	非常满意	满意	一般	不满意	非常不满意	合计
分数	$5$	$4$	$3$	$2$	$1$
人数	$11$	$12$	$3$	$0$	$2$	$28$

尝试做法：$H_0 : \mu \le 4, H_1 : \mu > 4$。

$\overline{x} \approx 4.07, s^2 \approx 1.086^2$。

检验统计量的观测值为（$t$ 检验）：
$$
\frac{\overline{x} – \mu_0}{\frac{s}{\sqrt{n}}} \approx \frac{4.07 – 4}{\frac{1.086}{\sqrt{28}}} \approx 0.341
$$
$\Rightarrow P$ 值大约介于 $0.35 \sim 0.40$，因此不拒绝 $H_0$。

注：判决结果有失公允，$t$ 检验不恰当：

$t$ 检验条件：近似正态（或至少表现为单峰且关于均值基本对称），方差未知，$n$ 较小（一般小于 $30$）。
而数据明显严重左偏。
两个 $1$ 分为离群值，中位数描述数据中心更恰当。
$t$ 检验处理数值型数据，此处赋值合理性值得商榷。

因此综合来看，严重有偏，存在离群值，属性变量都是几个关键问题。

符号检验

$e.g.$ 房地产股价已回落到 $6$ 元水平？

编号	$1$	$2$	$3$	$4$	$5$	$6$	$7$	$8$	$9$	$10$
股价	$13.03$	$3.94$	$7.24$	$2.89$	$5.95$	$4.65$	$6.34$	$5.86$	$5.96$	$3.93$
$St – 6$	$7.03$	$-2.06$	$1.24$	$-3.11$	$-0.05$	$-1.35$	$0.34$	$-0.14$	$-0.04$	$-2.07$
符号	$+$	$-$	$+$	$-$	$-$	$-$	$+$	$-$	$-$	$-$

$H_0 : $ 中位数 $= 6$，$H_1 : $ 中位数 $\not = 6$。

$\Leftrightarrow H_0 : +$ 出现概率 $p = 0.5, H_1 : p \not = 0.5$。

$\overline{X} = +$ 出现的个数，$H_0$ 为真时，$X \sim B(10, 0.5)$。

$P$ 值 $= 2 P(X \le 3) \approx 0.344 > 0.1 = \alpha \Rightarrow$ 不拒绝 $H_0$。

注：这是总体中位数的符号检验，但也同样可以检验其他分位数。

$e.g.$（配对比较）

若能证明一半以上客户都偏好新网站，则启用新网站。

客户	新	旧	评分之差（$d_i$）	符号	秩
$1$	$7$	$5$	$2$	$+$	$3.5$
$2$	$8$	$4$	$4$	$+$	$6$
$3$	$5$	$6$	$-1$	$-$	$1.5$
$4$	$8$	$5$	$3$	$+$	$5$
$5$	$6$	$6$	$0$	剔除
$6$	$8$	$3$	$5$	$+$	$7$
$7$	$8$	$7$	$1$	$+$	$1.5$
$8$	$9$	$3$	$6$	$+$	$8$
$9$	$5$	$7$	$-2$	$-$	$3.5$

$H_0 : $ 没有偏好新网站（$+$ 出现概率 $p \le 0.5$），$H_1 : $ 偏好新网站（$p > 0.5$）。

$X = +$ 出现的次数，$H_0$ 为真时 $X \sim B(8, p), p \le 0.5$。

故 $P$ 值 $ = \sup\limits_{p \le 0.5} P(X \ge 6) \approx P_{p = 0.5} (X \ge 6) \approx 0.109 + 0.031 + 0.004 > 0.1 = \alpha$（符号检验功效低，比较保守）$\Rightarrow$ 不拒绝 $H_0$。

未考虑到评分差绝对值的影响。

符号秩和检验（Wilcoxon, 1945）

$e.g.$ 上例续。

由画图表可知，其分布大致对称。

将 $|d_i|$ 从小到大排序，$T_i =$ 其序号称为秩，当 $|d_i|$ 有重复时，$T_i =$ 其平均序号。

$T^+$——正秩和，$T^-$——负秩和。（都是正数）

$T^+ + T^- = 1 + 2 + \cdots + n = \dfrac{n(n + 1)}{2}$。

$H_0 : $ 中位数 $M_d \le 0$，$H_1 : $ 中位数 $M_d > 0$。

检验统计量 $T = T^-$（越小越支持 $H_1$）。

观测值 $T^- = 5 \Rightarrow T = 5 \le T_{0.05}(8) = 5$。

注：
$$
T =
\begin{cases}
T^- & H_1 : M_d > 0 \\
T^+ & H_1 : M_d < 0 \\ \min(T^+, T^-) & H_1 : M_d \not = 0 \end{cases} $$ 为检验统计量。

$n > 20$ 时，$H_0$ 为真时，$T \stackrel{近似}{\sim} N(\mu_T, \sigma_T^2)$，$\mu_T = \dfrac{n(n + 1)}{4}, \sigma_T^2 = \dfrac{n(n + 1)(2n + 1)}{24}$。

概率论与数理统计笔记（8）——假设检验（续）

概率论与数理统计笔记（8）——假设检验（续）

Chapter 6：假设检验（续）

7、列联表检验

独立性检验

齐性检验

8、似然比检验

实例

广义似然比

定理

9、两个总体的比较

两独立总体比较

两相关总体比较

10、多个正态总体均值的比较

具体案例

方差分析：ANOVA

$F-$ 检验

方差分析表

理论框架

11、显著性的思考

12、非参数检验

参数检验问题

符号检验

符号秩和检验（Wilcoxon, 1945）

No Comments

Add your comment 取消回复

登录

热门文章

近期评论

扫描二维码加入交流

概率论与数理统计笔记（8）——假设检验（续）

概率论与数理统计笔记（8）——假设检验（续）

Chapter 6：假设检验（续）

7、列联表检验

独立性检验

齐性检验

8、似然比检验

实例

广义似然比

定理

9、两个总体的比较

两独立总体比较

两相关总体比较

10、多个正态总体均值的比较

具体案例

方差分析：ANOVA

$F-$ 检验

方差分析表

理论框架

11、显著性的思考

12、非参数检验

参数检验问题

符号检验

符号秩和检验（Wilcoxon, 1945）

No Comments

Add your comment 取消回复

登录

热门文章

近期评论

标签

扫描二维码加入交流