
概率论与数理统计笔记(8)——假设检验(续)
Chapter 6:假设检验(续)
7、列联表检验
独立性检验
e.g. (独立性检验)啤酒口味偏好与饮酒者性别是否独立。
样本见下:
淡 | 普 | 黑 | 合计 | |
---|---|---|---|---|
男 | 20 | 40 | 20 | 80 |
女 | 30 | 30 | 10 | 70 |
合计 | 50 | 70 | 30 | 150 |
H0: 独立(H1: 不独立)。
令 Pi+,P+j 为边际概率。
χ2=∑i,j(Oij–Eij)2Eij,Eij=nPij
H0:Pij=Pi+⋅P+j(1≤i≤2,1≤j≤3)。
- 极大似然估计 Pij(H0 为真前提下)。
P∗ij=P∗i+⋅P∗+j=∑jOijn∑iOijn
消耗自由度为 (a–1)+(b–1)=a+b–2。 Eij=nPij≈nP∗ij⇒χ20≈6.12。
自由度为 ab–1–(a+b–2)=(a–1)(b–1)=(2–1)(3–1)=2。
P 值 =P(χ2≥χ20)≈0.0469。
齐性检验
e.g. (齐性检验)Jane Austen:
Sense & Sensibility | Emma | Sandition I | 小计 | Sandition II | |
---|---|---|---|---|---|
a | 147 | 186 | 101 | 434 | 83 |
an | 25 | 26 | 11 | 62 | 29 |
this | 32 | 39 | 15 | 86 | 15 |
that | 94 | 105 | 37 | 236 | 22 |
with | 59 | 74 | 28 | 161 | 43 |
without | 18 | 10 | 10 | 38 | 4 |
总计 | 375 | 440 | 202 | 1017 | 196 |
- 检验 Austen 不同作品的单词用法的一致性:H0:Pi1=Pi2=Pi3(i=1,⋯,6)。
- 在 H0 下,记 Pi1=Pi2=Pi3=Pi,估计 Pi,极大似然估计 P∗i=∑jOijn,e.g. P∗1=4341017。
- Eij=njPi≈njP∗i,e.g. E32=440×861017≈37.2。
- χ20≈12.27,自由度为 b(a–1)–(a–1)=(a–1)(b–1)=(6–1)(3–1)=10。
- P 值介于 0.25 与 0.30 之间 ⇒ 不拒绝 H0。
- 检验 Austen 的崇拜者模仿是否成功(单词用法角度)。
H0:Pi1=Pi2(i=1,⋯,6)(用后两列)。
类似可得 χ20≈32.81,自由度 =(a–1)(b–1)=(6–1)(2–1)=5。
P 值 <10−3⇒ 拒绝 H0。
注:
- 逐个单元检查 χ2 统计量的贡献,“an”,“that”用法不同。
- 独立性检验与齐性检验的差别:
- 假设不同。
- 抽样方案不同。
8、似然比检验
实例
e.g. 硬币例子,n=10,x 次正面向上,H0:P=0.5,H1:P=0.7,则:
P(x|H0)P(x|H1)
称为似然比,当其 ≤C 时拒绝 H0。
注:H0,H1 皆为简单假设时,似然比检验是最优的(最大功效,Neyman-Pearson),不是简单的假设时,一般不最优,通常表现也不错。
H0:θ∈Θ0,H1:θ∈Θ1,样本 X1,⋯,Xn iid。
广义似然比
Λ∗=supθ∈Θ0L(θ)supθ∈Θ1L(θ)
基于技术原因,检验统计量为:
Λ△=supθ∈Θ0L(θ)supθ∈Θ0∪Θ1L(θ)Λ=min(Λ∗,1)
临界值检验 ⇔ 选择 λ0,s.t. P(Λ≤λ0|H0)≤α。
注:若 Λ 分布可求,则可直接计算 P(Λ≤λ0|H0)≤α。
定理
在一定条件下(光滑性),n→∞ 时,在 H0 假设下,−2lnΛ 的分布 →χ2 分布,其自由度为:
dim(Θ0∪Θ1)–dim(Θ0)
(dim——自由参数个数)
注:H0:p1=p,p2=1–p,k=2。
则 χ2− 统计量为:
(O1–np)2np(1–p)
由于 E(O1)=np,Var(O1)=np(1–p),因此:
(O1–np)2np(1–p)近似∼χ2(1)
e.g.(多项分布)H0:p1=p10,⋯pk=pk0,n1+⋯+nk=n。
L(p1,⋯,pk)=(nn1,⋯,nk)pn11⋯pnkk⇒Λ=pn110⋯pnkk0p∗1n1⋯p∗knk,p∗i=nin=k∏i=1(pi0p∗i)ni⇒−2lnΛ=−2k∑i=1nilnpi0p∗i=−2k∑i=1nilnnpi0ni=2k∑i=1OilnOiEi,Oi=ni=np∗i,Ei=npi0
根据 xlnxx0 的泰勒展开,可得:
−2lnΛ=2k∑i=1(Oi–Ei)+k∑i=1(Oi–Ei)2Ei+⋯=k∑i=1(Oi–Ei)2Ei+⋯
第一项确实与卡方统计量相同。
9、两个总体的比较
两独立总体比较
总体 | 均值 | 方差 | 样本 |
---|---|---|---|
X | μ1 | σ21 | X1,⋯,Xn |
Y | μ2 | σ22 | Y1,⋯,Yn |
可知:
E(¯X–¯Y)=μ1–μ2Var(¯X–¯Y)=σ21n+σ22m
- 若 X,Y 皆为正态分布,且 σ21=σ22=σ2,则:
(¯X–¯Y)–(μ1–μ2)σ√1n+1m∼N(0,1)(¯X–¯Y)–(μ1–μ2)S√1n+1m∼t(n+m–2),S2=(n–1)S21+(m–1)S22n+m–2 一般地:
(¯X–¯Y)–(μ1–μ2)√σ21n+σ22m近似∼N(0,1)(¯X–¯Y)–(μ1–μ2)√S21n+S22m近似∼N(0,1)
e.g.(比较成功率/失败率)
阿司匹林对于降低心脏病发病率的有效性(五年)。
样本信息:
心脏病发作 | 未发作 | 合计 | 发作率 | |
---|---|---|---|---|
安慰剂 | 239 | 10795 | 11034 | 0.0217 |
阿司匹林 | 139 | 10898 | 11037 | 0.0126 |
(P1–P2)–(p1–p2)se(P1–P2)近似∼N(0,1)
考虑:
E(P1–P2)=p1–p2,Var(P1–P2)=Var(P1)+Var(P2)=p1(1–p1)n1+p2(1–p2)n2
假设检验:H0: 无效(p1=p2),H1: 有效(p1>p2)。
H0 为真前提下,p 的极大似然估计为 p∗:=k1+k2n1+n2,因此:
p1=p2⇒Var(P1–P2)=p(1–p)(1n1+1n2)≈p∗(1–p∗)(1n1+1n2)≈0.001752
可得 P 值约为:
P(Z≥0.0091–00.00175≈5.20)≈10−7
因此拒绝 H0。
注:
- 随机分组。
- 单盲/双盲试验。
- n 足够大。
两相关总体比较
e.g. 某大型出租车公司,比较汽油 A 与 B 的行驶里程。
100 辆车分为两组:
样本容量 | 平均里程 | 标准差 | |
---|---|---|---|
汽油 A | 50 | 25 | 5.00 |
汽油 B | 50 | 26 | 4.00 |
假设检验:H0:μA=μB,H1:μA≠μB。
se(¯X–¯Y)≈√S21n1+S22n2=√25+1650=0.905
P 值约为:
PμA=μB(|Z|≥25–26–00.905≈1.1)≈0.1357×2≈0.27
因此不拒绝 H0,也就是有利于任何一种汽油的证据都是不充分的。
改进:
同一辆车(司机)不同日子分配不同的汽油,n=10。
车号 | 汽油 A | 汽油 B | 差异 |
---|---|---|---|
1 | 27.01 | 26.95 | 0.06 |
2 | 20.00 | 20.44 | −0.44 |
⋮ | ⋮ | ⋮ | ⋮ |
10 | 25.22 | 26.01 | −0.79 |
平均值 | 25.20 | 25.80 | −0.60 |
标准差 | 4.27 | 4.10 | 0.61 |
注:可发现差异列的标准差变小了,消除了汽车(司机)之间的差异性。
¯d=1nn∑i=1di=¯X–¯Y,E(¯d)=μa–μb=:μd
假设 d=X–Y 服从正态分布,则:
¯d–μdSd√n∼t(n–1)
假设检验 H0:μd=0(⇔μa=μb),H1:μd≠0。
可知 P 值约为 0.006×2=0.012,拒绝 H0(α=0.05)。
10、多个正态总体均值的比较
具体案例
H0:μ1=μ2=⋯=μk,H1: 至少存在一组 μi≠μj,1≤i<j≤n。
注:假设 k=3,则 H0 化为三个检验:
H(1)0:μ2=μ3,H(2)0:μ3=μ1,H(3)0:μ1=μ2
每个检验水平都设为 α=0.05,则 H0 的检验水平 >0.05。
令 E1 为 μ2=μ3 但拒绝 H(1)0,E2,E3 类似定义。
令 E 为 μ1=μ2=μ3 但拒绝 H0,P(Ei)=0.05。
而 E=E1+E2+E3,故:
P(E)=P(E1+E2+E3)>0.05
方差分析:ANOVA
Xij 表示第 i 组第 j 个观测,ni 为第 i 组样本容量,n=n1+⋯+nk。
¯Xi=1nini∑j=1Xij
为第 i 组的样本均值。
¯X=1n∑i,jXij=1nk∑i=1(ni¯Xi)
则:
∑ij(Xij–¯X)2=k∑i=1ni∑j=1(Xij–¯Xi)2+k∑i=1ni(¯Xi–¯X)2
左侧称为 SST,右侧分别为 SSW 和 SSB。
总离差平方和 = 组内离差平方和 + 组间离差平方和。
检验统计量:
F△=SSB/(k–1)SSW/(n–k)
F 值越大,说明组间差异相对于组内波动来说越明显,反对 H0。
F− 检验
当 H0:μ1=μ2=⋯=μk 成立时,统计量 F 服从自由度为 (k–1,n–k) 的 F 分布(由卡方分布生成),且 F≥Fα(k–1,n–k) 时拒绝 H0。
方差分析表
方差来源 | 平方和 | 自由度 | 均方 |
---|---|---|---|
组间 | SSB | k–1 | SSB/(k–1) |
组内 | SSW | n–k | SSW/(n–k) |
总计 | SST | n–1 |
最后得出:
F△=SSB/(k–1)SSW/(n–k)
理论框架
Xij=μ+αi+ξij
第一项为总平均水平,第二项为第 i 组的不同效应,第三项为随机误差(独立,服从 N(0,σ2))。(μi=μ+αi)
k∑i=1αi=0
为规范。
E(SSW)=σ2k∑i=1(ni–1)=σ2(n–k)
可得:
SSWσ2∼χ2(n–k)
而:
E(SSB)=σ2(k–1)+k∑i=1niα2i
如果 αi≡0,则:
SSBσ2∼χ2(k–1)
且相互独立。
若一些 αi≠0,则 SSB 就会膨胀。
重要假设:
- ξij 正态(⇒Xij 正态),类似 t 检验,对于来自适度的非正态大样本,F 检验是近似合理的。
- σ2 为常数(方差相同)。
- ξij 独立。
注:k=2,F=t2,F(1,n–2)=t2(n–2),F 检验与 t 检验一致。
11、显著性的思考
- 结果显著吗?
- 数据窥探。
- 结果是否重要?
- 检验不解释原因。
12、非参数检验
不依赖于总体分布的统计推断。
在可以使用参数检验时,一般使用参数检验。
参数检验问题
e.g. 服务满意度回访,管理层要求:平均满意度必须高于 4 分。
非常满意 | 满意 | 一般 | 不满意 | 非常不满意 | 合计 | |
---|---|---|---|---|---|---|
分数 | 5 | 4 | 3 | 2 | 1 | |
人数 | 11 | 12 | 3 | 0 | 2 | 28 |
尝试做法:H0:μ≤4,H1:μ>4。
¯x≈4.07,s2≈1.0862。
检验统计量的观测值为(t 检验):
¯x–μ0s√n≈4.07–41.086√28≈0.341
⇒P 值大约介于 0.35∼0.40,因此不拒绝 H0。
注:判决结果有失公允,t 检验不恰当:
- t 检验条件:近似正态(或至少表现为单峰且关于均值基本对称),方差未知,n 较小(一般小于 30)。
而数据明显严重左偏。
两个 1 分为离群值,中位数描述数据中心更恰当。
t 检验处理数值型数据,此处赋值合理性值得商榷。
因此综合来看,严重有偏,存在离群值,属性变量都是几个关键问题。
符号检验
e.g. 房地产股价已回落到 6 元水平?
编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
股价 | 13.03 | 3.94 | 7.24 | 2.89 | 5.95 | 4.65 | 6.34 | 5.86 | 5.96 | 3.93 |
St–6 | 7.03 | −2.06 | 1.24 | −3.11 | −0.05 | −1.35 | 0.34 | −0.14 | −0.04 | −2.07 |
符号 | + | − | + | − | − | − | + | − | − | − |
H0: 中位数 =6,H1: 中位数 ≠6。
⇔H0:+ 出现概率 p=0.5,H1:p≠0.5。
¯X=+ 出现的个数,H0 为真时,X∼B(10,0.5)。
P 值 =2P(X≤3)≈0.344>0.1=α⇒ 不拒绝 H0。
注:这是总体中位数的符号检验,但也同样可以检验其他分位数。
e.g.(配对比较)
若能证明一半以上客户都偏好新网站,则启用新网站。
客户 | 新 | 旧 | 评分之差(di) | 符号 | 秩 |
---|---|---|---|---|---|
1 | 7 | 5 | 2 | + | 3.5 |
2 | 8 | 4 | 4 | + | 6 |
3 | 5 | 6 | −1 | − | 1.5 |
4 | 8 | 5 | 3 | + | 5 |
5 | 6 | 6 | 0 | 剔除 | |
6 | 8 | 3 | 5 | + | 7 |
7 | 8 | 7 | 1 | + | 1.5 |
8 | 9 | 3 | 6 | + | 8 |
9 | 5 | 7 | −2 | − | 3.5 |
H0: 没有偏好新网站(+ 出现概率 p≤0.5),H1: 偏好新网站(p>0.5)。
X=+ 出现的次数,H0 为真时 X∼B(8,p),p≤0.5。
故 P 值 =supp≤0.5P(X≥6)≈Pp=0.5(X≥6)≈0.109+0.031+0.004>0.1=α(符号检验功效低,比较保守)⇒ 不拒绝 H0。
未考虑到评分差绝对值的影响。
符号秩和检验(Wilcoxon, 1945)
e.g. 上例续。
由画图表可知,其分布大致对称。
将 |di| 从小到大排序,Ti= 其序号称为秩,当 |di| 有重复时,Ti= 其平均序号。
T+——正秩和,T−——负秩和。(都是正数)
T++T−=1+2+⋯+n=n(n+1)2。
H0: 中位数 Md≤0,H1: 中位数 Md>0。
检验统计量 T=T−(越小越支持 H1)。
观测值 T−=5⇒T=5≤T0.05(8)=5。
注:
T={T−H1:Md>0T+H1:Md<0min(T+,T−)H1:Md≠0
n>20 时,H0 为真时,T近似∼N(μT,σ2T),μT=n(n+1)4,σ2T=n(n+1)(2n+1)24。
No Comments