Loading [MathJax]/jax/output/HTML-CSS/jax.js

概率论与数理统计笔记(7)——假设检验

概率论与数理统计笔记(7)——假设检验

Chapter 6:假设检验

1、基本概念

实例

e.g. 一大批电子元件寿命 X,样本 X1,,Xn iid。

问题 1:假设 XExp(λ),那么 λ=?( 模型推断)

回答:参数估计。

问题 2:若合格标准为 E(X)5000,那么如何判定这一批是否合格。

回答:假设检验:样本多大程度上支持假设(E(X)5000)。

执行标准,¯Xl1,问题是如何确定 l1

定义

统计假设:对一个或多个总体的某种推断或猜测。

原假设:被检验的假设,即为 H0

备择假设:拒绝 H0 后可供选择的假设,即为 H1,也称研究假设。

:假设为参数形式时,H0:θΘ0,H1Θ1,其中 Θ0Θ1=Θ0Θ1=θ 的所有可能取值。

e.g. H0:λ15000,H1:λ>15000

简单假设:只含一个总体。

e.g. 假设 XN(μ,σ2)σ2 已知,则 H0:μ=μ0 就是简单假设。

假设检验

依据样本的决策过程,也就是拒绝 H0 或者不拒绝 H0

所有可能观测的集合 {(X1,,Xn)}n 固定),相当于对于落在其中一个集合 R 的样本,选择拒绝 H0,否则不拒绝。

R 称为临界域,或者拒绝域,e.g. {(X1,,Xn)|¯Xl1}

形式上抽象为:
R={(X1,,Xn)|T(X1,,Xn)C}


C 称为临界值。

拒绝 H0:在假设 H0 为真的情况下,所观测的样本出现的概率是很小的(样本提供的证据拒绝了 H0)——概率的作用。

两种错误

I 类:弃真。

II 类:取伪。

对应的概率表示为 P(I),θΘ0P(II),θΘ1

  1. 依据样本作决策错误不可避免。
  2. 同一次检验不可能同时犯两种错误。
  3. n 固定时,e.g.
    1. 都不拒绝 H0P(I)=0,则 P(II)=1,反之类似。
    2. H0: 合格,P(I) 变小,不容易拒绝(谨慎),不合格不易检出,P(II) 变大。

P(I)=P((X1,,Xn)R),θΘ0,记为 α(R)

P(II)=P((X1,,Xn)RC),θΘ1。记为 β(R)

功效函数

Pθ((X1,,Xn)R)={α(R)θΘ01β(R)θΘ1

θ 的函数。

Neyman-Pearson 范式

n 固定)控制 P(I)α,θΘ1α>0,预先给定,称为检验水平,或显著水平),再在这个限制下使 P(II) 尽可能小。

α 固定时,使 P(II) 最小的检验称为水平 α 的一致最优检验(不一定存在,也一般不容易求)。

H0H1 地位非对称。

  1. 通常原假设是受保护的,无充分证据不能拒绝。(疑罪从无)
  2. 备择假设可能才是真正感兴趣的。

2、临界值检验法

实例

e.g. XN(μ,σ2)

  1. H0:μ=μ0,H1:μμ0
  2. H0:μμ0,H1:μ<μ0
  3. H0:μμ0,H1:μ>μ0

σ2 已知。

  1. α>0 给定,H0 为真时,假设 |¯Xμ0|C 时否定 H0
    Pμ0(|¯Xμ0|C)α¯Xμ0N(0,σ2n)P(I)=Pμ0(|¯Xμ0σn|Cσn)αC=zα2σn

    检验:当 |¯Xμ0|zα2σn 时否定 H0

  2. α>0 给定,H0 为真时,设 ¯XC 时拒绝 H0
    Pμμ0(¯XC)α¯XμσnN(0,1)P(I)=Pμμ0(¯XμσnCμσn)=Pμμ0(ZCμσn)Φ(Cμσn)α,μμ0


    C=μ0zασn 即可。

    检验:当 ¯Xμ0zασn 时拒绝 H0

    :也称 z 检验。

σ2 未知:
¯XμSnt(n1)


可推出 t 检验。

步骤

  1. 提出 H0,H1
  2. 给定 α>0
  3. 确定检验统计量及其分布,确定拒绝域的形状;
  4. 建立检验,P(I)α 拒绝域;
  5. 收集样本信息,计算检验统计量的值;
  6. 决策。

并不一定需要完整执行。

3、临界值检验与置信区间的对偶关系

实例

e.g. XN(μ,σ2)σ2 已知,α(0,1) 给定,X1,,Xn iid。

置信区间(双侧):
μ(¯Xzα2σn,¯X+zα2σn)


假设检验:H0:μ=μ0,H1:μμ0(双边检验)
Pμ0(|¯Xμ0|C)α

|¯Xμ0|zα2σn 时拒绝 H0

接受域 {(X1,,Xn)||¯Xμ0|zα2σn}

由此可见 μ0 属于置信区间 检验不拒绝 H0:μ=μ0

:区间估计信息更丰富。

4、P 值检验法

实例

e.g. XN(μ,σ2),σ2=25

检验假设 H0:μ=10,H1:μ10

样本容量 n=100,观测到均值 ¯x=10.935

给定 α(0,1)|¯Xμ0|zα2σn 时拒绝 H0

若取 α=0.05,则 |¯x10|=0.935<1.96×12 不拒绝 H0

若取 α=0.1,则 |¯x10|=0.935>1.65×12 拒绝 H0
Pμ=10(|¯X10||¯x10|)=Pμ=10(|¯X10|σ100|¯x10|σ100)P(|Z|1.87)0.0614

假设检验的 P

原假设为真时,观测值及更极端的观测出现的概率,称为 P 值。

Pα 时,拒绝 H0(通常也称为观测值显著)。

  1. 通常也称 P 值为观测到的显著水平 由检验统计量的样本观测值得出拒绝 H0 的最小检验水平。
  2. P 值不是 H0 为真的概率(i.e. PP(H0|))。
  3. P 值大 不拒绝 H0,原因可能为 H0 为真或 H0 为假,但检验功效很低。

P 值检验法的步骤

  1. 提出 H0,H1
  2. 给定 α>0;(不一定需要)
  3. 确定检验统计量及其分布,确定“极端”形式(由 H1 决定);
  4. 搜集样本信息,计算检验统计量的值;
  5. 计算 P 值;
  6. 决策 。

e.g.(选举问题)观测的支持比例为 6841200=0.57,n=1200

考虑假设检验 H0:p=p0,H1:p>p0
Pnp0N(0,^se2)


^se2=p0(1p0)nPn(1Pn)n 称为标准误差的估计的平方。

P=Pp=p0(Pnp0pnp0)

故:
Pp=p0(Pnp0pnp0)=Pp=p0(Pnp0^sepnp0^se)=P(Z0.57p0^se)


p0=0.55,则 P=P(Z0.020.014)0.081

p0=0.545,则 P=P(Z0.0250.014)0.04

考虑假设检验:H0:pp0,H1:p>p0
Ppp0(Pnp^sepnppn(1pn)n)=Ppp0(PnpPn(1Pn)npnp0pn(1pn)n+p0ppn(1pn)n)Ppp0(PnpPn(1Pn)npnp0pn(1pn)n)=Ppp0(ZZ0),Z=PnpPn(1Pn)n=Pp=p0(Pnp0Pn(1Pn)npnp0pn(1pn)n)P=suppp0P(PnpPn(1Pn)npnppn(1pn)n)=Pp=p0(Pnp0Pn(1Pn)npnp0pn(1pn)n)=P(ZZ0)

定理

若拒绝 H0T(X1,,Xn)Cα,则 P=supθΘ0Pθ(T(X1,,Xn)T(x1,,xn))

5、Bayes 假设检验

实例

e.g. 硬币,掷 10 次,观测到正面向上 x 次。

H0:p=0.5,H1:p=0.7
P(H0|x)P(H1|x)=P(H0)P(H1)P(x|H0)P(x|H1)<1

则拒绝 H0

  1. 也可以设为 P(H0|x)P(H1|x)<c,c1 拒绝 H0
  2. H0:θ=θ0,H1:θθ0,若 Θ 连续,则 P(Θ=θ0|x)=0,此时需技巧性处理,可参考陈先生书 5.2.8

6、拟合优度检验

实例

e.g. 骰子点数为 1,2,3,4,5,6,观测得到的频数分别为 4,6,17,16,8,9,问色子是否均匀?

H0: 均匀(i.e. P1==P6=16),H1: 不均匀。

此时引入拟合优度检验。

Pearson χ2 统计量

χ2=ki=1(OiEi)2Ei

Oi 观测频数,Ei 期望频数。

定理

H0:P(X=ai)=pi(i=1,,k)

H0 为真,则当 n 时,χ2 的分布 χ2(k1)

e.g. 上例中观测值 χ20=14.2P=P(χ2χ20)0.014

:需 Ei5 时才比较好运用这个决策准则(定理),否则需要会合并相邻单元。

连续情形

e.g. 汽车电池寿命(n=40)。

数据数据数据数据数据数据数据数据
2.24.13.54.53.23.72.63.0
3.41.63.13.33.83.13.74.7
2.54.33.43.62.93.33.13.9
3.33.13.74.43.24.13.41.9
4.73.83.22.63.93.03.54.2

分组 相对频数分布 相对频数直方图 总体分布。

H0: 电池寿命的分布是正态的(XN(μ,σ2)),H1: 电池寿命不是正态的。

基本想法:
Pj(θ)=Ijf(x;θ)dxL(θ)kj=1Pj(θ)


可得到 θ 的极大似然估计 ˜θ——通常不易实现。

因此可得到 Pj(˜θ),并得到 Ej=nPj(˜θ)

:此时 χ2 的分布趋向于 χ2(k1s),其中 s 为参数 θ 的维数。

经过整理可得:

单元边界OiEi=nPi
1.451.9520.5
1.952.4512.1
2.452.9545.9
2.953.451510.3
3.453.951010.7
3.954.4557.0
4.454.9533.5

可以将前三个单元合并,最后两个单元合并。

实践方法

  1. 直接极大似然估计(不分组),μ=¯X3.5,(σ2)=m20.72
  2. Ei 的计算,这里也就是对应 cdf 相减。
  3. 计算 χ20,这里得到 χ203.05<χ20.05(1)3.84 不拒绝 H0α=0.05)。

  1. 上述做法 χ2 统计量严格来说不是近似 χ2(k1s),但 P 值介于 χ2(k1s)P 值和 χ2(k1)P 值之间。
  2. 不拒绝 H0 并不意味着数据是正态的。

:独立的 χ2 统计量可以合并。

e.g. Mendel 的实验全部独立(不同的作物组),Fisher 计算其每个 χ2 的统计量并合并,得到 χ2 值略小于 42,自由度为 84

检验是否造假:

H0: Mendel 数据是真实收集的。

H1: Mendel 数据时捏造的(处理过的)。(目的是使得记录的频数更接近于期望频数)

P4×105 拒绝 H0

 

点赞 0

No Comments

Add your comment

关门,放狗!