概率论与数理统计笔记(8)——假设检验(续)

概率论与数理统计笔记(8)——假设检验(续)

Contents

Chapter 6:假设检验(续)

7、列联表检验

独立性检验

$e.g.$ (独立性检验)啤酒口味偏好与饮酒者性别是否独立。

样本见下:

合计
$20$$40$$20$$80$
$30$$30$$10$$70$
合计$50$$70$$30$$150$

$H_0 : $ 独立($H_1 : $ 不独立)。

令 $P_{i+}, P_{+j}$ 为边际概率。
$$
\chi^2 = \sum_{i, j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, E_{ij} = n P_{ij}
$$
$H_0 : P_{ij} = P_{i+} \cdot P_{+j}(1 \le i \le 2, 1 \le j \le 3)$。

  1. 极大似然估计 $P_{ij}$($H_0$ 为真前提下)。
    $$
    P_{ij}^* = P_{i+}^* \cdot P_{+j}^* = \frac{\sum_j O_{ij}}{n} \frac{\sum_i O_{ij}}{n}
    $$
    消耗自由度为 $(a - 1) + (b - 1) = a + b - 2$。

  2. $E_{ij} = n P_{ij} \approx n P_{ij}^* \Rightarrow \chi_0^2 \approx 6.12$。

  3. 自由度为 $ab - 1 - (a + b - 2) = (a - 1)(b - 1) = (2 - 1)(3 - 1) = 2$。

  4. $P$ 值 $= P(\chi^2 \ge \chi_0^2) \approx 0.0469$。

齐性检验

$e.g.$ (齐性检验)Jane Austen:

Sense & SensibilityEmmaSandition I小计Sandition II
a$147$$186$$101$$434$$83$
an$25$$26$$11$$62$$29$
this$32$$39$$15$$86$$15$
that$94$$105$$37$$236$$22$
with$59$$74$$28$$161$$43$
without$18$$10$$10$$38$$4$
总计$375$$440$$202$$1017$$196$
  1. 检验 Austen 不同作品的单词用法的一致性:$H_0 : P_{i1} = P_{i2} = P_{i3}(i = 1, \cdots, 6)$。
    1. 在 $H_0$ 下,记 $P_{i1} = P_{i2} = P_{i3} = P_i$,估计 $P_i$,极大似然估计 $P_i^* = \dfrac{\sum_j O_{ij}}{n}$,$e.g.$ $P_1^* = \frac{434}{1017}$。
    2. $E_{ij} = n_j P_i \approx n_j P_i^*$,$e.g.$ $E_{32} = 440 \times \frac{86}{1017} \approx 37.2$。
    3. $\chi_0^2 \approx 12.27$,自由度为 $b(a - 1) - (a - 1) = (a - 1)(b - 1) = (6 - 1)(3 - 1) = 10$。
    4. $P$ 值介于 $0.25$ 与 $0.30$ 之间 $\Rightarrow$ 不拒绝 $H_0$。
  2. 检验 Austen 的崇拜者模仿是否成功(单词用法角度)。

    $H_0 : P_{i1} = P_{i2}(i = 1, \cdots, 6)$(用后两列)。

    类似可得 $\chi_0^2 \approx 32.81$,自由度 $= (a - 1)(b - 1) = (6 - 1)(2 - 1) = 5$。

    $P$ 值 $< 10^{-3} \Rightarrow$ 拒绝 $H_0$。

  1. 逐个单元检查 $\chi^2$ 统计量的贡献,“an”,“that”用法不同。
  2. 独立性检验与齐性检验的差别:
    1. 假设不同。
    2. 抽样方案不同。

8、似然比检验

实例

$e.g.$ 硬币例子,$n = 10$,$x$ 次正面向上,$H_0 : P = 0.5, H_1 : P = 0.7$,则:
$$
\frac{P(x | H_0)}{P(x | H_1)}
$$
称为似然比,当其 $\le C$ 时拒绝 $H_0$。

:$H_0, H_1$ 皆为简单假设时,似然比检验是最优的(最大功效,Neyman-Pearson),不是简单的假设时,一般不最优,通常表现也不错。

$H_0 : \theta \in \Theta_0, H_1 : \theta \in \Theta_1$,样本 $X_1, \cdots, X_n$ iid。

广义似然比

$$
\Lambda^* = \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_1} L(\theta)}
$$

基于技术原因,检验统计量为:
$$
\Lambda \stackrel{\triangle}{=} \frac{\displaystyle \sup_{\theta \in \Theta_0} L(\theta)}{\displaystyle \sup_{\theta \in \Theta_0 \cup \Theta_1} L(\theta)} \\
\Lambda = \min (\Lambda^*, 1)
$$
临界值检验 $\Leftrightarrow$ 选择 $\lambda_0$,$s.t.$ $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。

:若 $\Lambda$ 分布可求,则可直接计算 $P(\Lambda \le \lambda_0 | H_0) \le \alpha$。

定理

在一定条件下(光滑性),$n \to \infty$ 时,在 $H_0$ 假设下,$-2 \ln \Lambda$ 的分布 $\to \chi^2$ 分布,其自由度为:
$$
\dim (\Theta_0 \cup \Theta_1) - \dim(\Theta_0)
$$
($\dim$——自由参数个数)

:$H_0 : p_1 = p, p_2 = 1 - p, k = 2$。

则 $\chi^2-$ 统计量为:
$$
\frac{(O_1 - np)^2}{np(1 - p)}
$$
由于 $E(O_1) = np, Var(O_1) = np(1 - p)$,因此:
$$
\frac{(O_1 - np)^2}{np(1 - p)} \stackrel{近似}{\sim} \chi^2(1)
$$
$e.g.$(多项分布)$H_0 : p_1 = p_{10}, \cdots p_k = p_{k0}, n_1 + \cdots + n_k = n$。
$$
L(p_1, \cdots, p_k) = \binom{n}{n_1, \cdots, n_k} p_1^{n_1} \cdots p_k^{n_k} \\
\Rightarrow \Lambda = \frac{p_{10}^{n_1} \cdots p_{k0}^{n_k}}{{p_1^*}^{n_1} \cdots {p_k^*}^{n_k}}, p_i^* = \frac{n_i}{n} \\
= \prod_{i = 1}^k \left(\frac{p_{i0}}{p_i^*}\right)^{n_i} \\
\Rightarrow -2 \ln \Lambda = -2 \sum_{i = 1}^k n_i \ln \frac{p_{i0}}{p_i^*} = -2 \sum_{i = 1}^k n_i \ln \frac{np_{i0}}{n_i} \\
= 2 \sum_{i = 1}^k O_i \ln \frac{O_i}{E_i}, O_i = n_i = n p_i^*, E_i = n p_{i0}
$$
根据 $x \ln \dfrac{x}{x_0}$ 的泰勒展开,可得:
$$
-2 \ln \Lambda = 2 \sum_{i = 1}^k (O_i - E_i) + \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i} + \cdots \\
= \sum_{i = 1}^k \frac{(O_i - E_i)^2}{E_i} + \cdots
$$
第一项确实与卡方统计量相同。

9、两个总体的比较

两独立总体比较

总体均值方差样本
$X$$\mu_1$$\sigma_1^2$$X_1, \cdots, X_n$
$Y$$\mu_2$$\sigma_2^2$$Y_1, \cdots, Y_n$

可知:
$$
E\left(\overline{X} - \overline{Y}\right) = \mu_1 - \mu_2 \\
Var\left(\overline{X} - \overline{Y}\right) = \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}
$$

  1. 若 $X, Y$ 皆为正态分布,且 $\sigma_1^2 = \sigma_2^2 = \sigma^2$,则:
    $$
    \frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sigma \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim N(0, 1) \\
    \frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{S \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim t(n + m - 2), S^2 = \frac{(n - 1) S_1^2 + (m - 1) S_2^2}{n + m - 2}
    $$

  2. 一般地:
    $$
    \frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1) \\
    \frac{\left(\overline{X} - \overline{Y}\right) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}} \stackrel{近似}{\sim} N(0, 1)
    $$

$e.g.$(比较成功率/失败率)

阿司匹林对于降低心脏病发病率的有效性(五年)。

样本信息:

心脏病发作未发作合计发作率
安慰剂$239$$10795$$11034$$0.0217$
阿司匹林$139$$10898$$11037$$0.0126$

$$
\frac{(P_1 - P_2) - (p_1 - p_2)}{se(P_1 - P_2)} \stackrel{近似}{\sim} N(0, 1)
$$

考虑:
$$
E(P_1 - P_2) = p_1 - p_2, Var(P_1 - P_2) = Var(P_1) + Var(P_2) = \frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2}
$$
假设检验:$H_0 : $ 无效($p_1 = p_2$),$H_1 : $ 有效($p_1 > p_2$)。

$H_0$ 为真前提下,$p$ 的极大似然估计为 $p^* := \dfrac{k_1 + k_2}{n_1 + n_2}$,因此:
$$
p_1 = p_2 \Rightarrow Var(P_1 - P_2) = p(1 - p) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \\
\approx p^* (1 - p^*) \left(\frac{1}{n_1} + \frac{1}{n_2} \right) \approx 0.00175^2
$$
可得 $P$ 值约为:
$$
P\left(Z \ge \frac{0.0091 - 0}{0.00175} \approx 5.20 \right) \approx 10^{-7}
$$
因此拒绝 $H_0$。

  1. 随机分组。
  2. 单盲/双盲试验。
  3. $n$ 足够大。

两相关总体比较

$e.g.$ 某大型出租车公司,比较汽油 $A$ 与 $B$ 的行驶里程。

$100$ 辆车分为两组:

样本容量平均里程标准差
汽油 $A$$50$$25$$5.00$
汽油 $B$$50$$26$$4.00$

假设检验:$H_0 : \mu_A = \mu_B$,$H_1 : \mu_A \not = \mu_B$。
$$
se\left(\overline{X} - \overline{Y}\right) \approx \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n^2}} = \sqrt{\frac{25 + 16}{50}} = 0.905
$$
$P$ 值约为:
$$
P_{\mu_A = \mu_B} \left(|Z| \ge \frac{25 - 26 - 0}{0.905} \approx 1.1\right) \approx 0.1357 \times 2 \approx 0.27
$$
因此不拒绝 $H_0$,也就是有利于任何一种汽油的证据都是不充分的。

改进

同一辆车(司机)不同日子分配不同的汽油,$n = 10$。

车号汽油 $A$汽油 $B$差异
$1$$27.01$$26.95$$0.06$
$2$$20.00$$20.44$$-0.44$
$\vdots$$\vdots$$\vdots$$\vdots$
$10$$25.22$$26.01$$-0.79$
平均值$25.20$$25.80$$-0.60$
标准差$4.27$$4.10$$0.61$

:可发现差异列的标准差变小了,消除了汽车(司机)之间的差异性。
$$
\overline{d} = \frac{1}{n} \sum_{i = 1}^n d_i = \overline{X} - \overline{Y}, E(\overline{d}) = \mu_a - \mu_b =: \mu_d
$$
假设 $d = X - Y$ 服从正态分布,则:
$$
\frac{\overline{d} - \mu_d}{\frac{S_d}{\sqrt{n}}} \sim t(n - 1)
$$
假设检验 $H_0 : \mu_d = 0(\Leftrightarrow \mu_a = \mu_b)$,$H_1 : \mu_d \not = 0$。

可知 $P$ 值约为 $0.006 \times 2 = 0.012$,拒绝 $H_0$($\alpha = 0.05$)。

10、多个正态总体均值的比较

具体案例

$H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$,$H_1 : $ 至少存在一组 $\mu_i \not = \mu_j, 1 \le i < j \le n$。

:假设 $k = 3$,则 $H_0$ 化为三个检验:
$$
H_0^{(1)} : \mu_2 = \mu_3, H_0^{(2)} : \mu_3 = \mu_1, H_0^{(3)} : \mu_1 = \mu_2
$$
每个检验水平都设为 $\alpha = 0.05$,则 $H_0$ 的检验水平 $> 0.05$。

令 $E_1$ 为 $\mu_2 = \mu_3$ 但拒绝 $H_0^{(1)}$,$E_2, E_3$ 类似定义。

令 $E$ 为 $\mu_1 = \mu_2 = \mu_3$ 但拒绝 $H_0$,$P(E_i) = 0.05$。

而 $E = E_1 + E_2 + E_3$,故:
$$
P(E) = P(E_1 + E_2 + E_3) > 0.05
$$

方差分析:ANOVA

$X_{ij}$ 表示第 $i$ 组第 $j$ 个观测,$n_i$ 为第 $i$ 组样本容量,$n = n_1 + \cdots + n_k$。
$$
\overline{X}_i = \frac{1}{n_i} \sum_{j = 1}^{n_i} X_{ij}
$$
为第 $i$ 组的样本均值。
$$
\overline{X} = \frac{1}{n} \sum_{i, j} X_{ij} = \frac{1}{n} \sum_{i = 1}^k \left(n_i \overline{X}_i \right)
$$
则:
$$
\sum_{ij} \left(X_{ij} - \overline{X} \right)^2 = \sum_{i = 1}^k \sum_{j = 1}^{n_i} \left(X_{ij} - \overline{X}_i \right)^2 + \sum_{i = 1}^k n_i \left(\overline{X}_i - \overline{X} \right)^2
$$
左侧称为 $SST$,右侧分别为 $SSW$ 和 $SSB$。

总离差平方和 $=$ 组内离差平方和 $+$ 组间离差平方和。

检验统计量:
$$
F \stackrel{\triangle}{=} \frac{SSB / (k - 1)}{SSW / (n - k)}
$$
$F$ 值越大,说明组间差异相对于组内波动来说越明显,反对 $H_0$。

$F-$ 检验

当 $H_0 : \mu_1 = \mu_2 = \cdots = \mu_k$ 成立时,统计量 $F$ 服从自由度为 $(k - 1, n - k)$ 的 $F$ 分布(由卡方分布生成),且 $F \ge F_\alpha(k - 1, n - k)$ 时拒绝 $H_0$。

方差分析表

方差来源平方和自由度均方
组间$SSB$$k - 1$$SSB / (k - 1)$
组内$SSW$$n - k$$SSW / (n - k)$
总计$SST$$n - 1$

最后得出:
$$
F \stackrel{\triangle}{=} \frac{SSB / (k - 1)}{SSW / (n - k)}
$$

理论框架

$$
X_{ij} = \mu + \alpha_i + \xi_{ij}
$$

第一项为总平均水平,第二项为第 $i$ 组的不同效应,第三项为随机误差(独立,服从 $N(0, \sigma^2)$)。($\mu_i = \mu + \alpha_i$)
$$
\sum_{i = 1}^k \alpha_i = 0
$$
为规范。
$$
E(SSW) = \sigma^2 \sum_{i = 1}^k (n_i - 1) = \sigma^2 (n - k)
$$
可得:
$$
\frac{SSW}{\sigma^2} \sim \chi^2(n - k)
$$
而:
$$
E(SSB) = \sigma^2 (k - 1) + \sum_{i = 1}^k n_i \alpha_i^2
$$
如果 $\alpha_i \equiv 0$,则:
$$
\frac{SSB}{\sigma^2} \sim \chi^2(k - 1)
$$
且相互独立。

若一些 $\alpha_i \not = 0$,则 $SSB$ 就会膨胀。

重要假设

  1. $\xi_{ij}$ 正态($\Rightarrow X_{ij}$ 正态),类似 $t$ 检验,对于来自适度的非正态大样本,$F$ 检验是近似合理的。
  2. $\sigma^2$ 为常数(方差相同)。
  3. $\xi_{ij}$ 独立。

:$k = 2$,$F = t^2, F(1, n - 2) = t^2(n - 2)$,$F$ 检验与 $t$ 检验一致。

11、显著性的思考

  1. 结果显著吗?
  2. 数据窥探。
  3. 结果是否重要?
  4. 检验不解释原因。

12、非参数检验

不依赖于总体分布的统计推断。

在可以使用参数检验时,一般使用参数检验。

参数检验问题

$e.g.$ 服务满意度回访,管理层要求:平均满意度必须高于 $4$ 分。

非常满意满意一般不满意非常不满意合计
分数$5$$4$$3$$2$$1$
人数$11$$12$$3$$0$$2$$28$

尝试做法:$H_0 : \mu \le 4, H_1 : \mu > 4$。

$\overline{x} \approx 4.07, s^2 \approx 1.086^2$。

检验统计量的观测值为($t$ 检验):
$$
\frac{\overline{x} - \mu_0}{\frac{s}{\sqrt{n}}} \approx \frac{4.07 - 4}{\frac{1.086}{\sqrt{28}}} \approx 0.341
$$
$\Rightarrow P$ 值大约介于 $0.35 \sim 0.40$,因此不拒绝 $H_0$。

:判决结果有失公允,$t$ 检验不恰当:

  1. $t$ 检验条件:近似正态(或至少表现为单峰且关于均值基本对称),方差未知,$n$ 较小(一般小于 $30$)。

    而数据明显严重左偏。

  2. 两个 $1$ 分为离群值,中位数描述数据中心更恰当。

  3. $t$ 检验处理数值型数据,此处赋值合理性值得商榷。

因此综合来看,严重有偏,存在离群值,属性变量都是几个关键问题。

符号检验

$e.g.$ 房地产股价已回落到 $6$ 元水平?

编号$1$$2$$3$$4$$5$$6$$7$$8$$9$$10$
股价$13.03$$3.94$$7.24$$2.89$$5.95$$4.65$$6.34$$5.86$$5.96$$3.93$
$St - 6$$7.03$$-2.06$$1.24$$-3.11$$-0.05$$-1.35$$0.34$$-0.14$$-0.04$$-2.07$
符号$+$$-$$+$$-$$-$$-$$+$$-$$-$$-$

$H_0 : $ 中位数 $= 6$,$H_1 : $ 中位数 $\not = 6$。

$\Leftrightarrow H_0 : +$ 出现概率 $p = 0.5, H_1 : p \not = 0.5$。

$\overline{X} = +$ 出现的个数,$H_0$ 为真时,$X \sim B(10, 0.5)$。

$P$ 值 $= 2 P(X \le 3) \approx 0.344 > 0.1 = \alpha \Rightarrow$ 不拒绝 $H_0$。

:这是总体中位数的符号检验,但也同样可以检验其他分位数。

$e.g.$(配对比较)

若能证明一半以上客户都偏好新网站,则启用新网站。

客户评分之差($d_i$)符号
$1$$7$$5$$2$$+$$3.5$
$2$$8$$4$$4$$+$$6$
$3$$5$$6$$-1$$-$$1.5$
$4$$8$$5$$3$$+$$5$
$5$$6$$6$$0$剔除
$6$$8$$3$$5$$+$$7$
$7$$8$$7$$1$$+$$1.5$
$8$$9$$3$$6$$+$$8$
$9$$5$$7$$-2$$-$$3.5$

$H_0 : $ 没有偏好新网站($+$ 出现概率 $p \le 0.5$),$H_1 : $ 偏好新网站($p > 0.5$)。

$X = +$ 出现的次数,$H_0$ 为真时 $X \sim B(8, p), p \le 0.5$。

故 $P$ 值 $ = \sup\limits_{p \le 0.5} P(X \ge 6) \approx P_{p = 0.5} (X \ge 6) \approx 0.109 + 0.031 + 0.004 > 0.1 = \alpha$(符号检验功效低,比较保守)$\Rightarrow$ 不拒绝 $H_0$。

未考虑到评分差绝对值的影响。

符号秩和检验(Wilcoxon, 1945)

$e.g.$ 上例续。

由画图表可知,其分布大致对称。

将 $|d_i|$ 从小到大排序,$T_i =$ 其序号称为秩,当 $|d_i|$ 有重复时,$T_i =$ 其平均序号。

$T^+$——正秩和,$T^-$——负秩和。(都是正数)

$T^+ + T^- = 1 + 2 + \cdots + n = \dfrac{n(n + 1)}{2}$。

$H_0 : $ 中位数 $M_d \le 0$,$H_1 : $ 中位数 $M_d > 0$。

检验统计量 $T = T^-$(越小越支持 $H_1$)。

观测值 $T^- = 5 \Rightarrow T = 5 \le T_{0.05}(8) = 5$。


$$
T =
\begin{cases}
T^- & H_1 : M_d > 0 \\
T^+ & H_1 : M_d < 0 \\ \min(T^+, T^-) & H_1 : M_d \not = 0 \end{cases} $$ 为检验统计量。

$n > 20$ 时,$H_0$ 为真时,$T \stackrel{近似}{\sim} N(\mu_T, \sigma_T^2)$,$\mu_T = \dfrac{n(n + 1)}{4}, \sigma_T^2 = \dfrac{n(n + 1)(2n + 1)}{24}$。

 

点赞 1

No Comments

Add your comment