
概率论与数理统计笔记(7)——假设检验
Chapter 6:假设检验
1、基本概念
实例
e.g. 一大批电子元件寿命 X,样本 X1,⋯,Xn iid。
问题 1:假设 X∼Exp(λ),那么 λ=?( 模型推断)
回答:参数估计。
问题 2:若合格标准为 E(X)≥5000,那么如何判定这一批是否合格。
回答:假设检验:样本多大程度上支持假设(E(X)≥5000)。
执行标准,¯X≥l1,问题是如何确定 l1。
定义
统计假设:对一个或多个总体的某种推断或猜测。
原假设:被检验的假设,即为 H0。
备择假设:拒绝 H0 后可供选择的假设,即为 H1,也称研究假设。
注:假设为参数形式时,H0:θ∈Θ0,H1∈Θ1,其中 Θ0∩Θ1=∅,Θ0∪Θ1=θ 的所有可能取值。
e.g. H0:λ≤15000,H1:λ>15000。
简单假设:只含一个总体。
e.g. 假设 X∼N(μ,σ2),σ2 已知,则 H0:μ=μ0 就是简单假设。
假设检验
依据样本的决策过程,也就是拒绝 H0 或者不拒绝 H0。
所有可能观测的集合 {(X1,⋯,Xn)}(n 固定),相当于对于落在其中一个集合 R 的样本,选择拒绝 H0,否则不拒绝。
R 称为临界域,或者拒绝域,e.g. {(X1,⋯,Xn)|¯X≤l1}。
形式上抽象为:
R={(X1,⋯,Xn)|T(X1,⋯,Xn)≥C}
C 称为临界值。
拒绝 H0:在假设 H0 为真的情况下,所观测的样本出现的概率是很小的(样本提供的证据拒绝了 H0)——概率的作用。
两种错误
I 类:弃真。
II 类:取伪。
对应的概率表示为 P(I),θ∈Θ0,P(II),θ∈Θ1。
注:
- 依据样本作决策错误不可避免。
- 同一次检验不可能同时犯两种错误。
- n 固定时,e.g.:
- 都不拒绝 H0,P(I)=0,则 P(II)=1,反之类似。
- H0: 合格,P(I) 变小,不容易拒绝(谨慎),不合格不易检出,P(II) 变大。
P(I)=P((X1,⋯,Xn)∈R),θ∈Θ0,记为 α(R)。
P(II)=P((X1,⋯,Xn)∈RC),θ∈Θ1。记为 β(R)。
功效函数
Pθ((X1,⋯,Xn)∈R)={α(R)θ∈Θ01–β(R)θ∈Θ1
是 θ 的函数。
Neyman-Pearson 范式
(n 固定)控制 P(I)≤α,∀θ∈Θ1(α>0,预先给定,称为检验水平,或显著水平),再在这个限制下使 P(II) 尽可能小。
注:α 固定时,使 P(II) 最小的检验称为水平 α 的一致最优检验(不一定存在,也一般不容易求)。
注:H0 与 H1 地位非对称。
- 通常原假设是受保护的,无充分证据不能拒绝。(疑罪从无)
- 备择假设可能才是真正感兴趣的。
2、临界值检验法
实例
e.g. X∼N(μ,σ2)。
- H0:μ=μ0,H1:μ≠μ0。
- H0:μ≥μ0,H1:μ<μ0。
- H0:μ≤μ0,H1:μ>μ0。
若 σ2 已知。
- α>0 给定,H0 为真时,假设 |¯X–μ0|≥C 时否定 H0。
Pμ0(|¯X–μ0|≥C)≤α¯X–μ0∼N(0,σ2n)P(I)=Pμ0(|¯X–μ0σ√n|≥Cσ√n)≤α⇒C=zα2⋅σ√n
检验:当 |¯X–μ0|≥zα2⋅σ√n 时否定 H0。 α>0 给定,H0 为真时,设 ¯X≤C 时拒绝 H0。
Pμ≥μ0(¯X≤C)≤α¯X–μσ√n∼N(0,1)P(I)=Pμ≥μ0(¯X–μσ√n≤C–μσ√n)=Pμ≥μ0(Z≤C–μσ√n)⇒Φ(C–μσ√n)≤α,μ≥μ0
取 C=μ0–zασ√n 即可。检验:当 ¯X≤μ0–zασ√n 时拒绝 H0。
注:也称 z 检验。
若 σ2 未知:
¯X–μS√n∼t(n–1)
可推出 t 检验。
步骤
- 提出 H0,H1;
- 给定 α>0;
- 确定检验统计量及其分布,确定拒绝域的形状;
- 建立检验,P(I)≤α→ 拒绝域;
- 收集样本信息,计算检验统计量的值;
- 决策。
并不一定需要完整执行。
3、临界值检验与置信区间的对偶关系
实例
e.g. X∼N(μ,σ2),σ2 已知,α∈(0,1) 给定,X1,⋯,Xn iid。
置信区间(双侧):
μ∈(¯X–zα2σ√n,¯X+zα2σ√n)
假设检验:H0:μ=μ0,H1:μ≠μ0(双边检验)
Pμ0(|¯X–μ0|≥C)≤α
⇒ 当 |¯X–μ0|≥zα2⋅σ√n 时拒绝 H0。
⇔ 接受域 {(X1,⋯,Xn)||¯X–μ0|≥zα2⋅σ√n}。
由此可见 μ0 属于置信区间 ⇔ 检验不拒绝 H0:μ=μ0。
注:区间估计信息更丰富。
4、P 值检验法
实例
e.g. X∼N(μ,σ2),σ2=25。
检验假设 H0:μ=10,H1:μ≠10。
样本容量 n=100,观测到均值 ¯x=10.935。
给定 α∈(0,1),|¯X–μ0|≥zα2⋅σ√n 时拒绝 H0。
⇒ 若取 α=0.05,则 |¯x–10|=0.935<1.96×12⇒ 不拒绝 H0。
⇒ 若取 α=0.1,则 |¯x–10|=0.935>1.65×12⇒ 拒绝 H0。
Pμ=10(|¯X–10|≥|¯x–10|)=Pμ=10(|¯X–10|σ√100≥|¯x–10|σ√100)≈P(|Z|≥1.87)≈0.0614
假设检验的 P 值
原假设为真时,观测值及更极端的观测出现的概率,称为 P 值。
当 P≤α 时,拒绝 H0(通常也称为观测值显著)。
注:
- 通常也称 P 值为观测到的显著水平 ⇔ 由检验统计量的样本观测值得出拒绝 H0 的最小检验水平。
- P 值不是 H0 为真的概率(i.e. P≠P(H0|观测值))。
- P 值大 → 不拒绝 H0,原因可能为 H0 为真或 H0 为假,但检验功效很低。
P 值检验法的步骤
- 提出 H0,H1;
- 给定 α>0;(不一定需要)
- 确定检验统计量及其分布,确定“极端”形式(由 H1 决定);
- 搜集样本信息,计算检验统计量的值;
- 计算 P 值;
- 决策 。
e.g.(选举问题)观测的支持比例为 6841200=0.57,n=1200。
考虑假设检验 H0:p=p0,H1:p>p0。
Pn–p0近似∼N(0,^se2)
^se2=p0(1–p0)n 或 Pn(1–Pn)n 称为标准误差的估计的平方。
P 值 =Pp=p0(Pn–p0≥pn–p0)。
故:
Pp=p0(Pn–p0≥pn–p0)=Pp=p0(Pn–p0^se≥pn–p0^se)=P(Z≥0.57–p0^se)
若 p0=0.55,则 P 值 =P(Z≥0.020.014)≈0.081。
若 p0=0.545,则 P 值 =P(Z≥0.0250.014)≈0.04。
考虑假设检验:H0:p≤p0,H1:p>p0。
Pp≤p0(Pn–p^se≥pn–p√pn(1–pn)n)=Pp≤p0(Pn–p√Pn(1–Pn)n≥pn–p0√pn(1–pn)n+p0–p√pn(1–pn)n)≤Pp≤p0(Pn–p√Pn(1–Pn)n≥pn–p0√pn(1–pn)n)=Pp≤p0(Z≥Z0),Z=Pn–p√Pn(1–Pn)n=Pp=p0(Pn–p0√Pn(1–Pn)n≥pn–p0√pn(1–pn)n)⇒P值=supp≤p0P(Pn–p√Pn(1–Pn)n≥pn–p√pn(1–pn)n)=Pp=p0(Pn–p0√Pn(1–Pn)n≥pn–p0√pn(1–pn)n)=P(Z≥Z0)
定理
若拒绝 H0⇔T(X1,⋯,Xn)≥Cα,则 P 值 =supθ∈Θ0Pθ(T(X1,⋯,Xn)≥T(x1,⋯,xn))。
5、Bayes 假设检验
实例
e.g. 硬币,掷 10 次,观测到正面向上 x 次。
H0:p=0.5,H1:p=0.7
P(H0|x)P(H1|x)=P(H0)P(H1)⋅P(x|H0)P(x|H1)<1
注:
- 也可以设为 P(H0|x)P(H1|x)<c,c≠1 拒绝 H0。
- H0:θ=θ0,H1:θ≠θ0,若 Θ 连续,则 P(Θ=θ0|x)=0,此时需技巧性处理,可参考陈先生书 5.2.8。
6、拟合优度检验
实例
e.g. 骰子点数为 1,2,3,4,5,6,观测得到的频数分别为 4,6,17,16,8,9,问色子是否均匀?
H0: 均匀(i.e. P1=⋯=P6=16),H1: 不均匀。
此时引入拟合优度检验。
Pearson χ2− 统计量
χ2△=k∑i=1(Oi–Ei)2Ei
Oi 观测频数,Ei 期望频数。
定理
H0:P(X=ai)=pi(i=1,⋯,k)。
若 H0 为真,则当 n→∞ 时,χ2 的分布 →χ2(k–1)。
e.g. 上例中观测值 χ20=14.2⇒P 值 =P(χ2≥χ20)≈0.014。
注:需 Ei≥5 时才比较好运用这个决策准则(定理),否则需要会合并相邻单元。
连续情形
e.g. 汽车电池寿命(n=40)。
数据 | 数据 | 数据 | 数据 | 数据 | 数据 | 数据 | 数据 |
---|---|---|---|---|---|---|---|
2.2 | 4.1 | 3.5 | 4.5 | 3.2 | 3.7 | 2.6 | 3.0 |
3.4 | 1.6 | 3.1 | 3.3 | 3.8 | 3.1 | 3.7 | 4.7 |
2.5 | 4.3 | 3.4 | 3.6 | 2.9 | 3.3 | 3.1 | 3.9 |
3.3 | 3.1 | 3.7 | 4.4 | 3.2 | 4.1 | 3.4 | 1.9 |
4.7 | 3.8 | 3.2 | 2.6 | 3.9 | 3.0 | 3.5 | 4.2 |
分组 → 相对频数分布 → 相对频数直方图 → 总体分布。
H0: 电池寿命的分布是正态的(X∼N(μ,σ2)),H1: 电池寿命不是正态的。
基本想法:
Pj(θ)=∫Ijf(x;θ)dxL(θ)∝k∏j=1Pj(θ)
可得到 θ 的极大似然估计 ˜θ∗——通常不易实现。
因此可得到 Pj(˜θ∗),并得到 Ej=nPj(˜θ∗)。
注:此时 χ2 的分布趋向于 χ2(k–1–s),其中 s 为参数 θ 的维数。
经过整理可得:
单元边界 | Oi | Ei=nPi |
---|---|---|
1.45∼1.95 | 2 | 0.5 |
1.95∼2.45 | 1 | 2.1 |
2.45∼2.95 | 4 | 5.9 |
2.95∼3.45 | 15 | 10.3 |
3.45∼3.95 | 10 | 10.7 |
3.95∼4.45 | 5 | 7.0 |
4.45∼4.95 | 3 | 3.5 |
可以将前三个单元合并,最后两个单元合并。
实践方法:
- 直接极大似然估计(不分组),μ∗=¯X≈3.5,(σ2)∗=m2≈0.72。
- Ei 的计算,这里也就是对应 cdf 相减。
- 计算 χ20,这里得到 χ20≈3.05<χ20.05(1)≈3.84⇒ 不拒绝 H0(α=0.05)。
注:
- 上述做法 χ2 统计量严格来说不是近似 χ2(k–1–s),但 P 值介于 χ2(k–1–s) 的 P 值和 χ2(k–1) 的 P 值之间。
- 不拒绝 H0 并不意味着数据是正态的。
注:独立的 χ2 统计量可以合并。
e.g. Mendel 的实验全部独立(不同的作物组),Fisher 计算其每个 χ2 的统计量并合并,得到 χ2 值略小于 42,自由度为 84。
检验是否造假:
H0: Mendel 数据是真实收集的。
H1: Mendel 数据时捏造的(处理过的)。(目的是使得记录的频数更接近于期望频数)
P 值 ≈4×10−5⇒ 拒绝 H0。
No Comments