Loading [MathJax]/jax/output/HTML-CSS/jax.js

概率论与数理统计笔记(5)——参数估计

概率论与数理统计笔记(5)——参数估计

Chapter 5:参数估计

0、统计引言

数据处理 获得信息(不确定性的分解,Shannon)。

统计学

一门艺术。

数理统计学

  1. 数据收集(带有随机性)。
  2. 数据分析(依附统计模型)。
  3. 统计推断(样本到总体)。

总体

统计总体 = 一个概率分布。

  1. 无限总体;
  2. 有限总体——离散分布——个体数量很多时近似称为无限总体;
  3. “虚拟总体”。

统计模型

一族概率分布。

  1. 参数模型,比如正态分布。
  2. 非参模型,不能用有限个参数来刻画。

样本

(X1,,Xn)

其中每个 Xi 来自总体 X。(此处随机变量可能是高维的)

n 称为样本容量,其分布称为样本分布。

获取方式

  1. 观测,分为完全和不完全;
  2. 试验。(e.g. 抽样调查)

简单随机样本

总体个数 N 有限,无放回

任何容量相等的样本都具有相同的发生概率。

随机样本

X1,,Xn iid

e.g. 随机抽样(有放回,或近似有放回 n<<N)。

:不当抽样。

e.g. 民意调查。

  1. 无响应。
  2. 有偏取样。
  3. 问题设置,语气,调查员。

统计量

T(X1,,Xn)

完全由样本决定的量——数据简化方式。

e.g. ¯X=1nni=1Xi,S2=1n1ni=1(X¯X)2

统计推断

总体(因)决定了样本(果)的分布。

通过样本来看总体就是统计推断做的事。

  1. 经典方法(频率);
  2. Bayes 方法。

e.g. 元件寿命,假设 XExp(λ),问 λ 的值。(参数估计)

  1. 误差多少?
  2. 产生指定大小误差的机会有多大?
  3. 达到指定的置信度,n=

    (ε,α,n) 的关系。

假设合格标准为 E(X)L,而 E(X) 未知,检验标准 ¯Xl?(假设检验)

e.g. Yi=aXi+εi(接收信号与发出信号有线性关系)。

模型推断:a=(Xi,Yi)a

变量推断:a 已知,观测到 Yi,问 Xi 的值。

1、矩估计

X1,,Xn iid

样本矩

k 阶原点矩:
ak=1nni=1Xki


k 阶中心矩:
mk=1nni=1(Xi¯X)k

e.g. XiiidN(μ,σ2)
μ=E(X)a1=¯Xσ2=Var(X)m2=1nni=1(Xi¯X)2

e.g. XiiidExp(λ)
1λ=E(X)a1=¯Xλ1¯X1λ2=Var(X)m2λ(1m2)12

基本原则:尽量用低阶矩。

问题:估计好不好?

经验分布

Fn(x)=1n{X1,,Xn 中 x}=1nni=1I(Xix)

(在每个数据点 Xi 上的概率为 1n 的 cdf)

其中:
I(Xix)={1Xix0Xi>x


FnPFF 为总体的 cdf)。

Fn 的矩即为 (X1,,Xn) 的样本矩。

2、极大似然估计

似然函数

假设 X1,,Xn 的联合分布为 f(x1.,xn;θ)(pdf/pmf),θ 为参数(可以是标量也可以是向量)。

对于观测 (X1,,Xn) 的似然(函数)定义为:
L(θ)=f(x1,,xn;θ)

  1. 观测数据通常记为 x1,,xn,视为随机变量 X1,,Xn 的实现值。
  2. X1,,Xn iid,总体分布的 pdf/pmf 为 f(x;θ),则 f(X1,,Xn;θ)=f(X1;θ)f(Xn;θ)
  3. 离散时,L(θ) 为出现观测 (X1,,Xn) 的概率。

极大似然估计

θ=argmaxθL(θ)

称为 θ 的极大似然估计。(X1,,Xn 固定)

e.g. XiiidN(μ,σ2)μ,σ2 未知。
L(μ,σ2)=ni=1(12πe(Xiμ)22σ2){lnLμ=0lnL(σ2)=0{μ=¯X(σ2)=m2=1nni=1(Xi¯X)2


(左侧方程称为似然方程组)

容易验证 (μ,(σ2))lnL ,进而为 L 的最大值点。

  1. g(θ) 的极大似然估计为 g(θ)(极大似然估计的不变性)。
  2. 上例结果与矩估计结果一致,仅是个案。

e.g. XiiidU(0,θ)θ 未知。
L(θ)={1θnXi(0,θ),i0otherwiseθ=max{X1,,Xn}


显然 L(θ)L(θ),θ>0,则 θ 为所求的极大似然估计。

e.g.
f(x;θ)=1π[1+(xθ)2],xR


(Cauchy 分布)

  1. 无矩 无矩估计。

  2. 似然方程:
    ni=1Xiθ1+(Xiθ)2=0


    根多不易求——极大似然估计方法不够理想。

  3. θ 为中位数,θ 样本中位数。

:正态总体 N(μ,σ2)μ 既是 E(X),也是中位数。

估计不唯一,优劣是相对的(相对于一定标准)。

  1. 即使是极大似然估计也不一定唯一。
  2. 矩估计不需要分布的参数形式。

3、Bayes 估计

先验与后验

在搜集任何数据之前,对参数 θ 有先验知识,可用一个概率分布来表示(先验分布,Θ——随机变量),则 θ 即为 Θ 的实现值。

fΘ(θ) 为先验分布,X 为试验、观测,fX(x|θ) 为样本分布(fX(x;θ))。

fΘ(θ|x) 为后验分布:
fΘ(θ|x)=f(x,θ)fX(x)=fΘ(θ)fX(x|θ)fX(x)

实例

e.g. 硬币正面向上的概率为 θ(未知),抛了 n 次,出现了 x 次正面向上,对 θ 的初始认知状态:
fΘ(θ)=1,θ(0,1)


这种方法称为 Bayes 原则(准则)

给定 θXB(n,θ)
fX(x|θ)=(nx)θx(1θ)nx,x=0,1,,n


(x,θ) 的联合分布:
f(x,θ)=fX(x|θ)fΘ(θ)=(nx)θx(1θ)nx,x=0,1,,n,θ(0,1)fX(x)=10f(x,θ)dθ=1n+1fΘ(θ|x)=Γ(n+2)Γ(x+1)Γ(nx+1)θx(1θ)nx

因此后验分布即为参数为 x+1nx+1β 分布。

:可用后验均值 E(Θ|x) 或后验众数(使得 fΘ(θ|x) 取最大值的点)等来估计 θ

ˆθ=E(Θ|x)=x+1n+2,θ=xn

U(0,1)=β(1,1),若先验为 β(a,b),则后验为 β(a+x,n+bx)ˆθ=a+xn+a+b=a+bn+a+baa+b+nn+a+bxn

4、无偏性

偏差(bias)

令:
ˆθ=ˆθ(X1,,Xn)

为估计的方法。

定义偏差:
Bias(ˆθ)=Eθ(ˆθ)θ


其中期望是对于 X1,,Xn 的期望。

无偏性

E(ˆθ)=θ, 可能的 θ,则称 ˆθθ 的一个无偏估计。

:一般地,ˆg(X1,,Xn)g(θ) 的无偏估计 E(ˆg)=g(θ)

  1. 无偏性 = 无系统误差。
  2. 若无偏,则由大数定律,1NNm=1ˆg(X(m)1,,X(m)n)PE(ˆg)=g(θ)
  3. 无偏性实际价值视情形不同。(e.g. 买东西,质量控制)

e.g. E(X)=μ,Var(X)=σ2,E(¯X)=1nnμ=μ,E(m2)=n1nσ2

S2=nn1m2 为无偏估计。

e.g. XiiidU(0,θ)θ=max{X1,,Xn}E(θ)=nn+1θ

  1. 极大似然估计也不一定无偏。
  2. 上例中 n+1nθ 无偏,2¯X 无偏。

5、均方误差准则

均方误差(MSE)

n 固定时,定义均方误差:
E[(ˆθθ)2]=Var(ˆθ)+E2(ˆθθ)=Var(ˆθ)+Bias2(ˆθ)


其中第二项为准确度,也就是算法能力的刻画。

第一项为精度,数据扰动造成的影响。

定义(准则)

假设 ˆθ1,ˆθ2 均为 θ 的无偏估计,若 Var(ˆθ1)Var(ˆθ2),θ,且存在一个 θ 值使得 < 成立,则称在均方误差意义下 ˆθ1 优于 ˆθ2

e.g. μ=E(¯X)=E(X1)=E(X1+Xn2)
Var(¯X)=1nσ2,Var(X1)=σ2,Var(X1+Xn2)=σ22


因此第一种估计最优。

最小方差无偏估计

ˆθ0θ 的无偏估计,且 Var(ˆθ0)Var(ˆθ) 无偏估计 ˆθθ,则称 ˆθ0θ最小方差无偏估计(MVU 估计)

:称为有效性。

实例

e.g. XN(μ,σ2)
E(m2)=n1nσ2,E(S2)=σ2E[(m2σ2)2]<E[(s2σ2)2]

也就是低偏移换方差。

标准误差

估计 ˆθ 的标准误差定义为:
se=se(ˆθ)=Var(ˆθ)


其估计为:
^se=^se(ˆθ)

 

点赞 0

No Comments

Add your comment

生如夏花之绚烂,死如秋叶之静美。