概率论与数理统计笔记(8)——假设检验(续)
Contents
Chapter 6:假设检验(续)
7、列联表检验
独立性检验
$e.g.$ (独立性检验)啤酒口味偏好与饮酒者性别是否独立。
样本见下:
淡 | 普 | 黑 | 合计 | |
---|---|---|---|---|
男 | $20$ | $40$ | $20$ | $80$ |
女 | $30$ | $30$ | $10$ | $70$ |
合计 | $50$ | $70$ | $30$ | $150$ |
$H_0 : $ 独立($H_1 : $ 不独立)。
令 $P_{i+}, P_{+j}$ 为边际概率。
$$
\chi^2 = \sum_{i, j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, E_{ij} = n P_{ij}
$$
$H_0 : P_{ij} = P_{i+} \cdot P_{+j}(1 \le i \le 2, 1 \le j \le 3)$。
- 极大似然估计 $P_{ij}$($H_0$ 为真前提下)。
$$
P_{ij}^* = P_{i+}^* \cdot P_{+j}^* = \frac{\sum_j O_{ij}}{n} \frac{\sum_i O_{ij}}{n}
$$
消耗自由度为 $(a - 1) + (b - 1) = a + b - 2$。 $E_{ij} = n P_{ij} \approx n P_{ij}^* \Rightarrow \chi_0^2 \approx 6.12$。
自由度为 $ab - 1 - (a + b - 2) = (a - 1)(b - 1) = (2 - 1)(3 - 1) = 2$。
$P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.0469$。
齐性检验
$e.g.$ (齐性检验)Jane Austen:
Sense & Sensibility | Emma | Sandition I | 小计 | Sandition II | |
---|---|---|---|---|---|
a | $147$ | $186$ | $101$ | $434$ | $83$ |
an | $25$ | $26$ | $11$ | $62$ | $29$ |
this | $32$ | $39$ | $15$ | $86$ | $15$ |
that | $94$ | $105$ | $37$ | $236$ | $22$ |
with | $59$ | $74$ | $28$ | $161$ | $43$ |
without | $18$ | $10$ | $10$ | $38$ | $4$ |
总计 | $375$ | $440$ | $202$ | $1017$ | $196$ |
- 检验 Austen 不同作品的单词用法的一致性:$H_0 : P_{i1} = P_{i2} = P_{i3}(i = 1, \cdots, 6)$。
- 在 $H_0$ 下,记 $P_{i1} = P_{i2} = P_{i3} = P_i$,估计 $P_i$,极大似然估计 $P_i^* = \dfrac{\sum_j O_{ij}}{n}$,$e.g.$ $P_1^* = \frac{434}{1017}$。
- $E_{ij} = n_j P_i \approx n_j P_i^*$,$e.g.$ $E_{32} = 440 \times \frac{86}{1017} \approx 37.2$。
- $\chi_0^2 \approx 12.27$,自由度为 $b(a - 1) - (a - 1) = (a - 1)(b - 1) = (6 - 1)(3 - 1) = 10$。
- $P$ 值介于 $0.25$ 与 $0.30$ 之间 $\Rightarrow$ 不拒绝 $H_0$。
- 检验 Austen 的崇拜者模仿是否成功(单词用法角度)。
$H_0 : P_{i1} = P_{i2}(i = 1, \cdots, 6)$(用后两列)。
类似可得 $\chi_0^2 \approx 32.81$,自由度 $= (a - 1)(b - 1) = (6 - 1)(2 - 1) = 5$。
$P$ 值 $< 10^{-3} \Rightarrow$ 拒绝 $H_0$。
注:
- 逐个单元检查 $\chi^2$ 统计量的贡献,“an”,“that”用法不同。
- 独立性检验与齐性检验的差别:
- 假设不同。
- 抽样方案不同。
8、似然比检验
实例
$e.g.$ 硬币例子,$n = 10$,$x$ 次正面向上,$H_0 : P = 0.5, H_1 : P = 0.7$,则:
$$
\frac{P(x | H_0)}{P(x | H_1)}
$$
称为似然比,当其 $\le C$ 时拒绝 $H_0$。
注:$H_0, H_1$ 皆为简单假设时,似然比检验是最优的(最大功效,Neyman-Pearson),不是简单的假设时,一般不最优,通常表现也不错。
$H_0 : \theta \in \Theta_0, H_1 : \theta \in \Theta_1$,样本 $X_1, \cdots, X_n$ iid。
广义似然比
$$
\Lambda^* = \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_1} L(\theta)}
$$
基于技术原因,检验统计量为:
$$
\Lambda \stackrel{\triangle}{=} \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_0 \cup \Theta_1} L(\theta)} \\
\Lambda = \min (\Lambda^*, 1)
$$
临界值检验 $\Leftrightarrow$ 选择 $\lambda_0$,$s.t.$ $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。
注:若 $\Lambda$ 分布可求,则可直接计算 $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。
定理
在一定条件下(光滑性),$n \to \infty$ 时,在 $H_0$ 假设下,$-2 \ln \Lambda$ 的分布 $\to \chi^2$ 分布,其自由度为:
$$
\dim (\Theta_0 \cup \Theta_1) - \dim(\Theta_0)
$$
($\dim$——自由参数个数)
注:$H_0 : p_1 = p, p_2 = 1 - p, k = 2$。
则 $\chi^2-$ 统计量为:
$$
\frac{(O_1 - np)^2}{np(1 - p)}
$$
由于 $E(O_1) = np, Var(O_1) = np(1 - p)$,因此:
$$
\frac{(O_1 - np)^2}{np(1 - p)} \stackrel{近似}{\sim} \chi^2(1)
$$
$e.g.$(多项分布)$H_0 : p_1 = p_{10}, \cdots p_k = p_{k0}, n_1 + \cdots + n_k = n$。
$$
L(p_1, \cdots, p_k) = \binom{n}{n_1, \cdots, n_k} p_1^{n_1} \cdots p_k^{n_k} \\
\Rightarrow \Lambda = \frac{p_{10}^{n_1} \cdots p_{k0}^{n_k}}{{p_1^*}^{n_1} \cdots {p_k^*}^{n_k}}, p_i^* = \frac{n_i}{n} \\
= \prod_{i = 1}^k \left(\frac{p_{i0}}{p_i^*}\right)^{n_i} \\
\Rightarrow -2 \ln \Lambda = -2 \sum_{i = 1}^k n_i \ln \frac{p_{i0}}{p_i^*} = -2 \sum_{i = 1}^k n_i \ln \frac{np_{i0}}{n_i} \\
= 2 \sum_{i = 1}^k O_i \ln \frac{O_i}{E_i}, O_i = n_i = n p_i^*, E_i = n p_{i0}
$$
根据 $x \ln \dfrac{x}{x_0}$ 的泰勒展开,可得:
$$
-2 \ln \Lambda = 2 \sum_{i = 1}^k (O_i - E_i) + \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i} + \cdots \\
= \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i} + \cdots
$$
第一项确实与卡方统计量相同。
9、两个总体的比较
两独立总体比较
总体 | 均值 | 方差 | 样本 |
---|---|---|---|
$X$ | $\mu_1$ | $\sigma_1^2$ | $X_1, \cdots, X_n$ |
$Y$ | $\mu_2$ | $\sigma_2^2$ | $Y_1, \cdots, Y_n$ |
可知:
$$
E\left(\overline{X} - \overline{Y}\right) = \mu_1 - \mu_2 \\
Var\left(\overline{X} - \overline{Y}\right) = \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}
$$
- 若 $X, Y$ 皆为正态分布,且 $\sigma_1^2 = \sigma_2^2 = \sigma^2$,则:
$$
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sigma \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim N(0, 1) \\
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{S \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim t(n + m - 2), S^2 = \frac{(n - 1) S_1^2 + (m - 1) S_2^2}{n + m - 2}
$$ 一般地:
$$
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1) \\
\frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1)
$$
$e.g.$(比较成功率/失败率)
阿司匹林对于降低心脏病发病率的有效性(五年)。
样本信息:
心脏病发作 | 未发作 | 合计 | 发作率 | |
---|---|---|---|---|
安慰剂 | $239$ | $10795$ | $11034$ | $0.0217$ |
阿司匹林 | $139$ | $10898$ | $11037$ | $0.0126$ |
$$
\frac{(P_1 - P_2) - (p_1 - p_2)}{se(P_1 - P_2)} \stackrel{近似}{\sim} N(0, 1)
$$
考虑:
$$
E(P_1 - P_2) = p_1 - p_2, Var(P_1 - P_2) = Var(P_1) + Var(P_2) = \frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2}
$$
假设检验:$H_0 : $ 无效($p_1 = p_2$),$H_1 : $ 有效($p_1 > p_2$)。
$H_0$ 为真前提下,$p$ 的极大似然估计为 $p^* := \dfrac{k_1 + k_2}{n_1 + n_2}$,因此:
$$
p_1 = p_2 \Rightarrow Var(P_1 - P_2) = p(1 - p) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \\
\approx p^* (1 - p^*) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \approx 0.00175^2
$$
可得 $P$ 值约为:
$$
P\left(Z \ge \frac{0.0091 - 0}{0.00175} \approx 5.20 \right) \approx 10^{-7}
$$
因此拒绝 $H_0$。
注:
- 随机分组。
- 单盲/双盲试验。
- $n$ 足够大。
两相关总体比较
$e.g.$ 某大型出租车公司,比较汽油 $A$ 与 $B$ 的行驶里程。
$100$ 辆车分为两组:
样本容量 | 平均里程 | 标准差 | |
---|---|---|---|
汽油 $A$ | $50$ | $25$ | $5.00$ |
汽油 $B$ | $50$ | $26$ | $4.00$ |
假设检验:$H_0 : \mu_A = \mu_B$,$H_1 : \mu_A \not = \mu_B$。
$$
se\left(\overline{X} - \overline{Y}\right) \approx \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n^2}} = \sqrt{\frac{25 + 16}{50}} = 0.905
$$
$P$ 值约为:
$$
P_{\mu_A = \mu_B} \left(|Z| \ge \frac{25 - 26 - 0}{0.905} \approx 1.1\right) \approx 0.1357 \times 2 \approx 0.27
$$
因此不拒绝 $H_0$,也就是有利于任何一种汽油的证据都是不充分的。
改进:
同一辆车(司机)不同日子分配不同的汽油,$n = 10$。
车号 | 汽油 $A$ | 汽油 $B$ | 差异 |
---|---|---|---|
$1$ | $27.01$ | $26.95$ | $0.06$ |
$2$ | $20.00$ | $20.44$ | $-0.44$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$10$ | $25.22$ | $26.01$ | $-0.79$ |
平均值 | $25.20$ | $25.80$ | $-0.60$ |
标准差 | $4.27$ | $4.10$ | $0.61$ |
注:可发现差异列的标准差变小了,消除了汽车(司机)之间的差异性。
$$
\overline{d} = \frac{1}{n} \sum_{i = 1}^n d_i = \overline{X} - \overline{Y}, E(\overline{d}) = \mu_a - \mu_b =: \mu_d
$$
假设 $d = X - Y$ 服从正态分布,则:
$$
\frac{\overline{d} - \mu_d}{\frac{S_d}{\sqrt{n}}} \sim t(n - 1)
$$
假设检验 $H_0 : \mu_d = 0(\Leftrightarrow \mu_a = \mu_b)$,$H_1 : \mu_d \not = 0$。
可知 $P$ 值约为 $0.006 \times 2 = 0.012$,拒绝 $H_0$($\alpha = 0.05$)。
10、多个正态总体均值的比较
具体案例
$H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$,$H_1 : $ 至少存在一组 $\mu_i \not = \mu_j, 1 \le i < j \le n$。
注:假设 $k = 3$,则 $H_0$ 化为三个检验:
$$
H_0^{(1)} : \mu_2 = \mu_3, H_0^{(2)} : \mu_3 = \mu_1, H_0^{(3)} : \mu_1 = \mu_2
$$
每个检验水平都设为 $\alpha = 0.05$,则 $H_0$ 的检验水平 $> 0.05$。
令 $E_1$ 为 $\mu_2 = \mu_3$ 但拒绝 $H_0^{(1)}$,$E_2, E_3$ 类似定义。
令 $E$ 为 $\mu_1 = \mu_2 = \mu_3$ 但拒绝 $H_0$,$P(E_i) = 0.05$。
而 $E = E_1 + E_2 + E_3$,故:
$$
P(E) = P(E_1 + E_2 + E_3) > 0.05
$$
方差分析:ANOVA
$X_{ij}$ 表示第 $i$ 组第 $j$ 个观测,$n_i$ 为第 $i$ 组样本容量,$n = n_1 + \cdots + n_k$。
$$
\overline{X}_i = \frac{1}{n_i} \sum_{j = 1}^{n_i} X_{ij}
$$
为第 $i$ 组的样本均值。
$$
\overline{X} = \frac{1}{n} \sum_{i, j} X_{ij} = \frac{1}{n} \sum_{i = 1}^k \left(n_i \overline{X}_i \right)
$$
则:
$$
\sum_{ij} \left(X_{ij} - \overline{X} \right)^2 = \sum_{i = 1}^k \sum_{j = 1}^{n_i} \left(X_{ij} - \overline{X}_i \right)^2 + \sum_{i = 1}^k n_i \left(\overline{X}_i - \overline{X} \right)^2
$$
左侧称为 $SST$,右侧分别为 $SSW$ 和 $SSB$。
总离差平方和 $=$ 组内离差平方和 $+$ 组间离差平方和。
检验统计量:
$$
F \stackrel{\triangle}{=} \frac{SSB / (k - 1)}{SSW / (n - k)}
$$
$F$ 值越大,说明组间差异相对于组内波动来说越明显,反对 $H_0$。
$F-$ 检验
当 $H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$ 成立时,统计量 $F$ 服从自由度为 $(k - 1, n - k)$ 的 $F$ 分布(由卡方分布生成),且 $F \ge F_\alpha(k - 1, n - k)$ 时拒绝 $H_0$。
方差分析表
方差来源 | 平方和 | 自由度 | 均方 |
---|---|---|---|
组间 | $SSB$ | $k - 1$ | $SSB / (k - 1)$ |
组内 | $SSW$ | $n - k$ | $SSW / (n - k)$ |
总计 | $SST$ | $n - 1$ |
最后得出:
$$
F \stackrel{\triangle}{=} \frac{SSB / (k - 1)}{SSW / (n - k)}
$$
理论框架
$$
X_{ij} = \mu + \alpha_i + \xi_{ij}
$$
第一项为总平均水平,第二项为第 $i$ 组的不同效应,第三项为随机误差(独立,服从 $N(0, \sigma^2)$)。($\mu_i = \mu + \alpha_i$)
$$
\sum_{i = 1}^k \alpha_i = 0
$$
为规范。
$$
E(SSW) = \sigma^2 \sum_{i = 1}^k (n_i - 1) = \sigma^2 (n - k)
$$
可得:
$$
\frac{SSW}{\sigma^2} \sim \chi^2(n - k)
$$
而:
$$
E(SSB) = \sigma^2 (k - 1) + \sum_{i = 1}^k n_i \alpha_i^2
$$
如果 $\alpha_i \equiv 0$,则:
$$
\frac{SSB}{\sigma^2} \sim \chi^2(k - 1)
$$
且相互独立。
若一些 $\alpha_i \not = 0$,则 $SSB$ 就会膨胀。
重要假设:
- $\xi_{ij}$ 正态($\Rightarrow X_{ij}$ 正态),类似 $t$ 检验,对于来自适度的非正态大样本,$F$ 检验是近似合理的。
- $\sigma^2$ 为常数(方差相同)。
- $\xi_{ij}$ 独立。
注:$k = 2$,$F = t^2, F(1, n - 2) = t^2(n - 2)$,$F$ 检验与 $t$ 检验一致。
11、显著性的思考
- 结果显著吗?
- 数据窥探。
- 结果是否重要?
- 检验不解释原因。
12、非参数检验
不依赖于总体分布的统计推断。
在可以使用参数检验时,一般使用参数检验。
参数检验问题
$e.g.$ 服务满意度回访,管理层要求:平均满意度必须高于 $4$ 分。
非常满意 | 满意 | 一般 | 不满意 | 非常不满意 | 合计 | |
---|---|---|---|---|---|---|
分数 | $5$ | $4$ | $3$ | $2$ | $1$ | |
人数 | $11$ | $12$ | $3$ | $0$ | $2$ | $28$ |
尝试做法:$H_0 : \mu \le 4, H_1 : \mu > 4$。
$\overline{x} \approx 4.07, s^2 \approx 1.086^2$。
检验统计量的观测值为($t$ 检验):
$$
\frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}} \approx \frac{4.07 - 4}{\frac{1.086}{\sqrt{28}}} \approx 0.341
$$
$\Rightarrow P$ 值大约介于 $0.35 \sim 0.40$,因此不拒绝 $H_0$。
注:判决结果有失公允,$t$ 检验不恰当:
- $t$ 检验条件:近似正态(或至少表现为单峰且关于均值基本对称),方差未知,$n$ 较小(一般小于 $30$)。
而数据明显严重左偏。
两个 $1$ 分为离群值,中位数描述数据中心更恰当。
$t$ 检验处理数值型数据,此处赋值合理性值得商榷。
因此综合来看,严重有偏,存在离群值,属性变量都是几个关键问题。
符号检验
$e.g.$ 房地产股价已回落到 $6$ 元水平?
编号 | $1$ | $2$ | $3$ | $4$ | $5$ | $6$ | $7$ | $8$ | $9$ | $10$ |
---|---|---|---|---|---|---|---|---|---|---|
股价 | $13.03$ | $3.94$ | $7.24$ | $2.89$ | $5.95$ | $4.65$ | $6.34$ | $5.86$ | $5.96$ | $3.93$ |
$St - 6$ | $7.03$ | $-2.06$ | $1.24$ | $-3.11$ | $-0.05$ | $-1.35$ | $0.34$ | $-0.14$ | $-0.04$ | $-2.07$ |
符号 | $+$ | $-$ | $+$ | $-$ | $-$ | $-$ | $+$ | $-$ | $-$ | $-$ |
$H_0 : $ 中位数 $= 6$,$H_1 : $ 中位数 $\not = 6$。
$\Leftrightarrow H_0 : +$ 出现概率 $p = 0.5, H_1 : p \not = 0.5$。
$\overline{X} = +$ 出现的个数,$H_0$ 为真时,$X \sim B(10, 0.5)$。
$P$ 值 $= 2 P(X \le 3) \approx 0.344 > 0.1 = \alpha \Rightarrow$ 不拒绝 $H_0$。
注:这是总体中位数的符号检验,但也同样可以检验其他分位数。
$e.g.$(配对比较)
若能证明一半以上客户都偏好新网站,则启用新网站。
客户 | 新 | 旧 | 评分之差($d_i$) | 符号 | 秩 |
---|---|---|---|---|---|
$1$ | $7$ | $5$ | $2$ | $+$ | $3.5$ |
$2$ | $8$ | $4$ | $4$ | $+$ | $6$ |
$3$ | $5$ | $6$ | $-1$ | $-$ | $1.5$ |
$4$ | $8$ | $5$ | $3$ | $+$ | $5$ |
$5$ | $6$ | $6$ | $0$ | 剔除 | |
$6$ | $8$ | $3$ | $5$ | $+$ | $7$ |
$7$ | $8$ | $7$ | $1$ | $+$ | $1.5$ |
$8$ | $9$ | $3$ | $6$ | $+$ | $8$ |
$9$ | $5$ | $7$ | $-2$ | $-$ | $3.5$ |
$H_0 : $ 没有偏好新网站($+$ 出现概率 $p \le 0.5$),$H_1 : $ 偏好新网站($p > 0.5$)。
$X = +$ 出现的次数,$H_0$ 为真时 $X \sim B(8, p), p \le 0.5$。
故 $P$ 值 $ = \sup\limits_{p \le 0.5} P(X \ge 6) \approx P_{p = 0.5} (X \ge 6) \approx 0.109 + 0.031 + 0.004 > 0.1 = \alpha$(符号检验功效低,比较保守)$\Rightarrow$ 不拒绝 $H_0$。
未考虑到评分差绝对值的影响。
符号秩和检验(Wilcoxon, 1945)
$e.g.$ 上例续。
由画图表可知,其分布大致对称。
将 $|d_i|$ 从小到大排序,$T_i =$ 其序号称为秩,当 $|d_i|$ 有重复时,$T_i =$ 其平均序号。
$T^+$——正秩和,$T^-$——负秩和。(都是正数)
$T^+ + T^- = 1 + 2 + \cdots + n = \dfrac{n(n + 1)}{2}$。
$H_0 : $ 中位数 $M_d \le 0$,$H_1 : $ 中位数 $M_d > 0$。
检验统计量 $T = T^-$(越小越支持 $H_1$)。
观测值 $T^- = 5 \Rightarrow T = 5 \le T_{0.05}(8) = 5$。
注:
$$
T =
\begin{cases}
T^- & H_1 : M_d > 0 \\
T^+ & H_1 : M_d < 0 \\
\min(T^+, T^-) & H_1 : M_d \not = 0
\end{cases}
$$
为检验统计量。
$n > 20$ 时,$H_0$ 为真时,$T \stackrel{近似}{\sim} N(\mu_T, \sigma_T^2)$,$\mu_T = \dfrac{n(n + 1)}{4}, \sigma_T^2 = \dfrac{n(n + 1)(2n + 1)}{24}$。
No Comments