
概率论与数理统计笔记(4)——随机变量的数字特征
Chapter 4:随机变量的数字特征
1、期望
定义
E(X)={∑x∈Rxf(x)(pmf)∫∞−∞xf(x)dx(pdf)
存在 ⇔ 绝对收敛。
注:
- F 或 f 可以得出 E(X),但反过来不行。
- 期望一般比分布更容易确定。
性质
- E(g(X1,⋯,Xn))={∑(x1,⋯,xn)∈Rng(x1,⋯,xn)f(x1,⋯,xn)∫Rng(x1,⋯,xn)f(x1,⋯,xn)dx1⋅⋯⋅dxn
E(c1X1+⋯+cnXn)=c1E(X1)+⋯cnE(Xn),其中 c1,⋯,cn 为常数。
若 X1,⋯,Xn 相互独立,则 E(X1⋅⋯⋅Xn)=E(X1)⋅⋯⋅E(Xn)。
2、分位数
定义
∀α∈(0,1),若 P(X≤a)≥α,P(X≥a)≥1–α,则称 a 为X 的下(或下侧)α− 分位数。
注:
- 连续时 F(a)=α。
- α=0.5↔ 中位数。
- 不一定唯一。
- 分位数、期望都是位置参数。
- 期望 ↔ 质心,中位数 ↔ 质量。
3、方差
定义
Var(X)△=E[(X–E(X))2]=E(X2)–E2(X)
标准差:
SD(X)△=√Var(X)
性质
- Var(c)=0。
- Var(X+c)=Var(X)。
- Var(cX)=c2Var(X),c 为常数。
- 若 X1,⋯,Xn 相互独立,则 Var(X1+⋯+Xn)=Var(X1)+⋯+Var(Xn)。
4、矩
定义
E[(X–c)k]
称为 X 关于 c 点的 k 阶矩。
c=0↔ 原点矩。
c=E(X)↔ 中心矩。
注:
- 期望——一阶原点矩。
- 方差——二阶中心矩。
- 偏度系数 E[(X–μσ)3],μ=E(X),σ2=Var(X),小于零代表左偏(负偏)。
- 峰度系数 E[(X–μσ)4] 与正态相比集中程度(注:正态峰度系数为 3)。
- 高于 4 阶的极少应用。
5、协方差与相关系数
协方差定义
E(X)=μ1,E(Y)=μ2,Var(X)=σ21,Var(Y)=σ22
协方差:
Cov(X,Y)△=E[(X–μ1)(Y–μ2)]
协方差性质
- Cov(X,X)=Var(X)。
- Cov(X,Y)=Cov(Y,X)。
- Cov(X,Y)=E(XY)–E(X)E(Y)。
- Cov(aX1+bX2+c,Y)=aCov(X1,Y)+bCov(X2,Y),a,b,c 为常数。
- Cov(∑iXi,∑jYj)=∑i,jCov(Xi,Yj)。
相关系数定义
Corr(X,Y)△=Cov(X,Y)√Var(X)Var(Y)=E(X–μ1σ1Y–μ2σ2)=ρ
定理
- X,Y 独立 ⇒Corr(X,Y)≡0(称为 X,Y 不相关)。
|Corr(X,Y)|≤1 且等号成立当且仅当存在常数 a,b 使得 P(Y=aX+b)=1。
证明:
引理:E2(UV)≤E(U2)E(V2) 且等号成立当且仅当 ∃t0,s.t.P(V=t0U)=1。(施瓦茨不等式)
取 U=X–μ1σ1,V=Y–μ2σ2 即可完成。
注:
- ρ=±1 时,a=±σ2σ1。
- 不相关不能推出独立,比如 X∼N(0,1),Y=X2。
- 此定义实际上为线性相关系数。
协方差矩阵
Σ=(Cov(Xi,Xj))n×n
6、条件期望
定义
E(Y|X∈A)△={∑iyiP(Y=yi|X∈A)∫∞−∞yfY(y|X∈A)dy
一般会固定 X:
E(Y|x)=E(Y|X=x)△={∑iyiP(Y=yi|X=x)∫∞−∞yfY(y|x)dy
为 x 的函数。
可以发现 E(Y|X) 是一个新的随机变量(Y 对 X 的回归函数)。
实例
e.g. (X,Y)∼N(μ1,μ2,σ21,σ22,ρ):
E(Y|X)=μ2+ρσ2σ1(X–μ1)
e.g. 甲乙两种同类产品,平均实用寿命分比为 10 年,15 年,市场占有率分别为 60% 和 40%,随机买一个的期望寿命为:
12=10×60%+15×40%
可以令随机变量:
X={1甲0.62乙0.4,Y=寿命
则:
E(Y)=12=E(Y|X=1)P(X=1)+E(Y|X=2)P(X=2)=E(E(Y|X))
全数学期望公式
E(Y)=E(E(Y|X))
证明:对于连续型:(X,Y) 的 pdf 为 f(x,y):
E(Y|x)=∫∞−∞yfY(y|x)dy=∫∞−∞yf(x,y)fX(x)dyE(Y)=∫∞−∞yfY(y)dy=∫∞−∞y∫∞−∞f(x,y)dxdy=∫∞−∞fX(x)∫∞−∞f(x,y)fX(x)ydydx=∫∞−∞fX(x)E(Y|x)dx=E(E(Y|X))
注:一般地,E(g(X,Y))=E(E(g(X,Y)|X))。
多维可推广。
定理
E[(Y–g(X))2]≥E[(Y–E(Y|X))2]
简单证明:
E((Y–g(X))2|X)≥E((Y–E(Y|X))2|X)
两边对 X 求期望即得。
注:E(Y|X) 依赖 X,Y 的联合分布信息(通常应用中不易得到),转而求最优线性预测(i.e.mina,bE[(Y–(aX+b))2],a,b 结果只与 X,Y 的期望,方差,相关系数有关)。
7、大数定律
样本均值
X1,X2,⋯,Xn 独立同分布(iid),E(Xi)=μ,Var(Xi)=σ2:
¯X=1nn∑i=1Xi
称为样本均值。
则可得其期望、方差:
E(¯X)=μ,Var(¯X)=σ2n
则 Var(¯X)→0(n→∞),即直观上 ¯X 的分布大部分与 μ 特别接近。
定理:弱大数定律(辛钦)
条件如上,则对于 ∀ε>0 有:
limn→∞P(|¯X–μ|≥ε)=0⇔limn→∞P(|¯X–μ|<ε)=1
也称 ¯X 依概率收敛至 μ,记为 ¯XP→μ。注:
- 方差条件可以没有。
∀ε>0,∀α>0,∃Ns.t. 当 n≥N 时有:
P(|¯X–μ|≥ε)≤α
其中 ε 为精度,α 为置信水平。μ(未知)≈¯X。
若 Xi 为 Bernoulli 随机变量,此定律即为 Bernoulli 大数定律(最早的大数定律)。
引理:
- (Markov 不等式)Y≥0,则 ∀a>0 有:
P(Y≥a)≤E(Y)a
证明:令:
I={1Y≥a0otherwise
则 I≤Ya,因此:
E(I)=P(Y≥a)≤E(Ya)=E(Y)a (Chebyshev 不等式)若 Var(Y) 存在,则对于 ∀a>0 有:
P(|Y–E(Y)|≥a)≤Var(Y)a2
证明:
P(|Y–E(Y)|≥a)=P((Y–E(Y))2≥a2)≤E((Y–E(Y))2)a2=Var(Y)a2
证明:
P(|¯X–μ|≥ε)≤Var(¯X)ε2=σ2nε2→0(n→∞)
注:
- Var(X)=0⇒P(X=E(X))=1。
可推广:
- 两两不相关,Var(Xi) 一致有界,则定理依然成立。
- Var(¯X)→0(Markov 大数定律)。
- 强大数定律(Kolmogorov):X1,X2,⋯,Xn iid,E(Xi)=μ,则:
P(limn→∞¯X=μ)=1⇔∀ε>0,P(limn→∞|¯X–μ|<ε)=1 即 ¯X 依概率 1 收敛至 μ(almost surely a.s.)。 依概率收敛是区间大偏差上看,而依概率 1 收敛是逐点看。
8、中心极限定理
定理
X1,X2,⋯,Xn iid,E(Xi)=μ,Var(Xi)=σ2,则:
limn→∞P((X1+X2+⋯+Xn)–nμ√nσ≤x)=Φ(x),∀x∈R
(标准正态分布的 cdf)
也就是依分布收敛于 N(0,1)。
注:
- 此为 Lindeberg-Levy 中心极限定理,可以推广至独立非同分布情形。
可以将定理改写为 ¯X 的标准化,也就是说定理可以推出 ¯X近似∼N(μ,σ2n)。
若 Xi∼B(p),则:
n∑i=1Xi∼B(n,p)
可用正态分布来近似(此为 De Moivre-Laplace 中心极限定理)。则:
P(ti≤n∑i=1Xi≤t2)≈Φ(y2)–Φ(y1)其中:
{y2=t2–np+12√np(1–p)y1=t1–np–12√np(1–p)
其中 12 为连续性修正。
e.g.(选举问题)P 为选民支持比例(未知),随机调查 n 人,支持比例:
Pn=1nn∑i=1Xi=¯X,Xi∼B(p)
(注:近似有放回)
问:精度 ε=0.01,置信度为 1–α=95%,n 取多少较为合适?
P(|Pn–P|≥ε)≤α
利用 Chebyshev 不等式得到的 n 大约为 50000。
但利用中心极限定理:
P(|Pn–P|≥ε)≈2(1–Φ(√nε√p(1–p)))≤α⇔Φ(√nε√p(1–p))≥1–α2⇐Φ(√nε√p(1–p))≥Φ(√nε12)≥1–α2
而 Φ(1.96)≈0.975⇒n≥1.9624ε2≈9604。
通常 α=0.05,ε=0.03,则 n≥1068。
No Comments