
概率论与数理统计笔记(5)——参数估计
Chapter 5:参数估计
0、统计引言
数据处理 ⟶ 获得信息(不确定性的分解,Shannon)。
统计学
一门艺术。
数理统计学
- 数据收集(带有随机性)。
- 数据分析(依附统计模型)。
- 统计推断(样本到总体)。
总体
统计总体 = 一个概率分布。
注:
- 无限总体;
- 有限总体——离散分布——个体数量很多时近似称为无限总体;
- “虚拟总体”。
统计模型
一族概率分布。
- 参数模型,比如正态分布。
- 非参模型,不能用有限个参数来刻画。
样本
(X1,⋯,Xn)
其中每个 Xi 来自总体 X。(此处随机变量可能是高维的)
n 称为样本容量,其分布称为样本分布。
获取方式:
- 观测,分为完全和不完全;
- 试验。(e.g. 抽样调查)
简单随机样本
总体个数 N 有限,无放回。
任何容量相等的样本都具有相同的发生概率。
随机样本
X1,⋯,Xn iid。
e.g. 随机抽样(有放回,或近似有放回 n<<N)。
注:不当抽样。
e.g. 民意调查。
- 无响应。
- 有偏取样。
- 问题设置,语气,调查员。
统计量
T(X1,⋯,Xn)
完全由样本决定的量——数据简化方式。
e.g. ¯X=1nn∑i=1Xi,S2=1n–1n∑i=1(X–¯X)2。
统计推断
总体(因)决定了样本(果)的分布。
通过样本来看总体就是统计推断做的事。
- 经典方法(频率);
- Bayes 方法。
e.g. 元件寿命,假设 X∼Exp(λ),问 λ 的值。(参数估计)
注:
- 误差多少?
- 产生指定大小误差的机会有多大?
- 达到指定的置信度,n=?
(ε,α,n) 的关系。
假设合格标准为 E(X)≥L,而 E(X) 未知,检验标准 ¯X≥l?(假设检验)
e.g. Yi=aXi+εi(接收信号与发出信号有线性关系)。
模型推断:a=?(Xi,Yi)⟶a。
变量推断:a 已知,观测到 Yi,问 Xi 的值。
1、矩估计
X1,⋯,Xn iid。
样本矩
k 阶原点矩:
ak△=1nn∑i=1Xki
k 阶中心矩:
mk△=1nn∑i=1(Xi–¯X)k
e.g. Xiiid∼N(μ,σ2)。
μ=E(X)≈a1=¯Xσ2=Var(X)≈m2=1nn∑i=1(Xi–¯X)2
e.g. Xiiid∼Exp(λ)。
1λ=E(X)≈a1=¯X⇒λ≈1¯X1λ2=Var(X)≈m2⇒λ≈(1m2)12
基本原则:尽量用低阶矩。
问题:估计好不好?
经验分布
Fn(x)△=1n{X1,⋯,Xn 中 ≤x的个数}=1nn∑i=1I(Xi≤x)
(在每个数据点 Xi 上的概率为 1n 的 cdf)
其中:
I(Xi≤x)={1Xi≤x0Xi>x
则 FnP→F(F 为总体的 cdf)。
注:Fn 的矩即为 (X1,⋯,Xn) 的样本矩。
2、极大似然估计
似然函数
假设 X1,⋯,Xn 的联合分布为 f(x1.⋯,xn;θ)(pdf/pmf),θ 为参数(可以是标量也可以是向量)。
对于观测 (X1,⋯,Xn) 的似然(函数)定义为:
L(θ)△=f(x1,⋯,xn;θ)
注:
- 观测数据通常记为 x1,⋯,xn,视为随机变量 X1,⋯,Xn 的实现值。
- 若 X1,⋯,Xn iid,总体分布的 pdf/pmf 为 f(x;θ),则 f(X1,⋯,Xn;θ)=f(X1;θ)⋯f(Xn;θ)。
- 离散时,L(θ) 为出现观测 (X1,⋯,Xn) 的概率。
极大似然估计
θ∗△=argmaxθL(θ)
称为 θ 的极大似然估计。(X1,⋯,Xn 固定)
e.g. Xiiid∼N(μ,σ2),μ,σ2 未知。
L(μ,σ2)△=n∏i=1(1√2πe−(Xi–μ)22σ2){∂lnL∂μ=0∂lnL∂(σ2)=0⇒{μ∗=¯X(σ2)∗=m2=1nn∑i=1(Xi–¯X)2
(左侧方程称为似然方程组)
容易验证 (μ∗,(σ2)∗) 为 lnL ,进而为 L 的最大值点。
注:
- g(θ) 的极大似然估计为 g(θ∗)(极大似然估计的不变性)。
- 上例结果与矩估计结果一致,仅是个案。
e.g. Xiiid∼U(0,θ),θ 未知。
L(θ)={1θnXi∈(0,θ),∀i0otherwise⇒θ∗=max{X1,⋯,Xn}
显然 L(θ∗)≥L(θ),∀θ>0,则 θ 为所求的极大似然估计。
e.g.
f(x;θ)=1π[1+(x–θ)2],x∈R
(Cauchy 分布)
- 无矩 → 无矩估计。
似然方程:
n∑i=1Xi–θ1+(Xi–θ)2=0
根多不易求——极大似然估计方法不够理想。θ 为中位数,θ≈ 样本中位数。
注:正态总体 N(μ,σ2) 中 μ 既是 E(X),也是中位数。
估计不唯一,优劣是相对的(相对于一定标准)。
- 即使是极大似然估计也不一定唯一。
- 矩估计不需要分布的参数形式。
3、Bayes 估计
先验与后验
在搜集任何数据之前,对参数 θ 有先验知识,可用一个概率分布来表示(先验分布,Θ——随机变量),则 θ 即为 Θ 的实现值。
fΘ(θ) 为先验分布,X 为试验、观测,fX(x|θ) 为样本分布(fX(x;θ))。
fΘ(θ|x) 为后验分布:
fΘ(θ|x)=f(x,θ)fX(x)=fΘ(θ)fX(x|θ)fX(x)
实例
e.g. 硬币正面向上的概率为 θ(未知),抛了 n 次,出现了 x 次正面向上,对 θ 的初始认知状态:
fΘ(θ)=1,θ∈(0,1)
这种方法称为 Bayes 原则(准则)。
给定 θ,X∼B(n,θ):
fX(x|θ)=(nx)θx(1–θ)n–x,x=0,1,⋯,n
(x,θ) 的联合分布:
f(x,θ)=fX(x|θ)fΘ(θ)=(nx)θx(1–θ)n–x,x=0,1,⋯,n,θ∈(0,1)⇒fX(x)=∫10f(x,θ)dθ=1n+1⇒fΘ(θ|x)=Γ(n+2)Γ(x+1)Γ(n–x+1)θx(1–θ)n–x
因此后验分布即为参数为 x+1 和 n–x+1 的 β 分布。
注:可用后验均值 E(Θ|x) 或后验众数(使得 fΘ(θ|x) 取最大值的点)等来估计 θ。
ˆθ=E(Θ|x)=x+1n+2,θ∗=xn。
U(0,1)=β(1,1),若先验为 β(a,b),则后验为 β(a+x,n+b–x),ˆθ=a+xn+a+b=a+bn+a+b⋅aa+b+nn+a+b⋅xn。
4、无偏性
偏差(bias)
令:
ˆθ=ˆθ(X1,⋯,Xn)
为估计的方法。
定义偏差:
Bias(ˆθ)=Eθ(ˆθ)–θ
其中期望是对于 X1,⋯,Xn 的期望。
无偏性
若 E(ˆθ)=θ,∀ 可能的 θ,则称 ˆθ 为 θ 的一个无偏估计。
注:一般地,ˆg(X1,⋯,Xn) 为 g(θ) 的无偏估计 ⇔E(ˆg)=g(θ)。
- 无偏性 = 无系统误差。
- 若无偏,则由大数定律,1NN∑m=1ˆg(X(m)1,⋯,X(m)n)P→E(ˆg)=g(θ)。
- 无偏性实际价值视情形不同。(e.g. 买东西,质量控制)
e.g. E(X)=μ,Var(X)=σ2,E(¯X)=1nnμ=μ,E(m2)=n–1nσ2。
⇒S2=nn–1m2 为无偏估计。
e.g. Xiiid∼U(0,θ),θ∗=max{X1,⋯,Xn},E(θ∗)=nn+1θ。
注:
- 极大似然估计也不一定无偏。
- 上例中 n+1nθ∗ 无偏,2¯X 无偏。
5、均方误差准则
均方误差(MSE)
n 固定时,定义均方误差:
E[(ˆθ–θ)2]=Var(ˆθ)+E2(ˆθ–θ)=Var(ˆθ)+Bias2(ˆθ)
其中第二项为准确度,也就是算法能力的刻画。
第一项为精度,数据扰动造成的影响。
定义(准则)
假设 ˆθ1,ˆθ2 均为 θ 的无偏估计,若 Var(ˆθ1)≤Var(ˆθ2),∀θ,且存在一个 θ 值使得 < 成立,则称在均方误差意义下 ˆθ1 优于 ˆθ2。
e.g. μ=E(¯X)=E(X1)=E(X1+Xn2)。
Var(¯X)=1nσ2,Var(X1)=σ2,Var(X1+Xn2)=σ22
因此第一种估计最优。
最小方差无偏估计
ˆθ0 为 θ 的无偏估计,且 Var(ˆθ0)≤Var(ˆθ),∀ 无偏估计 ˆθ,∀θ,则称 ˆθ0 为 θ 的最小方差无偏估计(MVU 估计)。
注:称为有效性。
实例
e.g. X∼N(μ,σ2)。
E(m2)=n–1nσ2,E(S2)=σ2E[(m2–σ2)2]<E[(s2−σ2)2]
也就是低偏移换方差。
标准误差
估计 ˆθ 的标准误差定义为:
se=se(ˆθ)=√Var(ˆθ)
其估计为:
^se=^se(ˆθ)
No Comments