概率论与随机过程教程
这份笔记面向已经学过高等数学、线性代数基础的人。目标不是只背公式,而是理解概率模型为什么这样定义、常见公式怎样推导、随机过程如何从“一个随机变量”扩展到“一族随时间变化的随机变量”。
0. 学习路线
概率论可以看成三层:
- 事件层:样本空间、事件、概率、条件概率、独立性。
- 随机变量层:随机变量、分布函数、密度/质量函数、期望、方差、矩母函数、特征函数、多维分布。
- 极限与过程层:大数定律、中心极限定理、马尔可夫链、泊松过程、布朗运动、平稳过程。
随机过程的核心是:
随机过程不是一个随机数,而是一族随机变量 {Xt:t∈T}。每个固定的 t 给出一个随机变量;每个固定的样本点 ω 给出一条样本路径 t↦Xt(ω)。
1. 概率空间
1.1 样本空间与事件
随机试验所有可能结果构成样本空间 Ω。事件是 Ω 的子集,例如掷骰子时:
Ω={1,2,3,4,5,6},A={2,4,6}
A 表示“点数为偶数”。
为了避免无限样本空间中的集合悖论,严格概率论使用三元组:
(Ω,F,P)
其中:
- Ω:样本空间。
- F:事件集合族,也叫 σ-代数。
- P:概率测度。
σ-代数满足:
- Ω∈F。
- 若 A∈F,则 Ac∈F。
- 若 A1,A2,⋯∈F,则 ⋃n=1∞An∈F。
这保证事件可以进行补集、可数并、可数交等操作。
1.2 概率公理
概率函数 P 满足 Kolmogorov 三公理:
- 非负性:P(A)≥0。
- 规范性:P(Ω)=1。
- 可列可加性:如果 Ai 两两互斥,则
P(i=1⋃∞Ai)=i=1∑∞P(Ai)
1.3 常用概率公式推导
补事件公式
因为 A 与 Ac 互斥,且 A∪Ac=Ω,所以
1=P(Ω)=P(A∪Ac)=P(A)+P(Ac)
因此
P(Ac)=1−P(A)
加法公式
对任意事件 A,B,把 A∪B 拆成互斥部分:
A∪B=A∪(B∖A)
所以
P(A∪B)=P(A)+P(B∖A)
又因为
B=(B∖A)∪(A∩B)
且二者互斥,所以
P(B)=P(B∖A)+P(A∩B)
于是
P(B∖A)=P(B)−P(A∩B)
代回得到
P(A∪B)=P(A)+P(B)−P(A∩B)
这个公式的直觉是:P(A)+P(B) 把交集 A∩B 算了两次,所以要减掉一次。
2. 条件概率、全概率公式与 Bayes 公式
2.1 条件概率
在 P(B)>0 时,事件 A 在事件 B 已发生条件下的概率定义为:
P(A∣B)=P(B)P(A∩B)
推导视角:已知 B 发生以后,样本空间从 Ω 缩小为 B。在新的样本空间里,A 发生等价于 A∩B 发生,因此要用 P(A∩B) 除以 P(B) 做归一化。
由定义立刻得到乘法公式:
P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A)
2.2 全概率公式
设 B1,B2,…,Bn 构成样本空间的一个划分:
Bi∩Bj=∅ (i=j),i=1⋃nBi=Ω,P(Bi)>0
则任意事件 A 可以拆成互斥并:
A=(A∩B1)∪(A∩B2)∪⋯∪(A∩Bn)
由可加性:
P(A)=i=1∑nP(A∩Bi)
再用乘法公式:
P(A∩Bi)=P(A∣Bi)P(Bi)
得到全概率公式:
P(A)=i=1∑nP(A∣Bi)P(Bi)
2.3 Bayes 公式
Bayes 公式回答“看到结果以后,反推原因”的问题。
由条件概率定义:
P(Bj∣A)=P(A)P(A∩Bj)
分子用乘法公式:
P(A∩Bj)=P(A∣Bj)P(Bj)
分母用全概率公式:
P(A)=i∑P(A∣Bi)P(Bi)
所以:
P(Bj∣A)=∑iP(A∣Bi)P(Bi)P(A∣Bj)P(Bj)
解释:
- P(Bj) 是先验概率。
- P(A∣Bj) 是似然。
- P(Bj∣A) 是后验概率。
- 分母负责归一化,使所有后验概率相加为 1。
2.4 独立性
事件 A,B 独立定义为:
P(A∩B)=P(A)P(B)
若 P(B)>0,这等价于:
P(A∣B)=P(A)
也就是说,知道 B 是否发生,不改变我们对 A 的概率判断。
注意:互斥与独立通常不是一回事。若 A,B 互斥且 P(A),P(B)>0,则 P(A∩B)=0,但 P(A)P(B)>0,所以它们不独立。
3. 随机变量与分布
3.1 随机变量
随机变量是从样本空间到实数的函数:
X:Ω→R
它把随机试验结果数值化。例如掷两枚硬币,令 X 表示正面个数,则 X∈{0,1,2}。
3.2 分布函数
随机变量 X 的分布函数定义为:
FX(x)=P(X≤x)
分布函数有三个基本性质:
- 单调不减。
- 右连续。
- limx→−∞FX(x)=0,limx→∞FX(x)=1。
3.3 离散型随机变量
若 X 只取可数个值 x1,x2,…,则概率质量函数为:
pX(xi)=P(X=xi)
并且
i∑pX(xi)=1
期望:
E[X]=i∑xipX(xi)
方差:
Var(X)=E[(X−E[X])2]
常用等价形式推导:
令 μ=E[X],则
Var(X)=E[(X−μ)2]
展开:
E[(X−μ)2]=E[X2−2μX+μ2]
利用期望线性性:
=E[X2]−2μE[X]+μ2
因为 E[X]=μ,所以
Var(X)=E[X2]−μ2=E[X2]−(E[X])2
3.4 连续型随机变量
若存在非负函数 fX(x),使得
FX(x)=∫−∞xfX(t)dt
则 X 是连续型随机变量,fX 是概率密度函数。
密度满足:
fX(x)≥0,∫−∞∞fX(x)dx=1
区间概率:
P(a<X≤b)=FX(b)−FX(a)=∫abfX(x)dx
连续型随机变量满足 P(X=a)=0,但这不代表 X=a 不可能发生;它表示单点概率质量为零。
期望:
E[X]=∫−∞∞xfX(x)dx
方差:
Var(X)=∫−∞∞(x−E[X])2fX(x)dx
4. 常见分布与关键推导
4.1 Bernoulli 分布
一次成功/失败试验:
X∼Bernoulli(p),P(X=1)=p,P(X=0)=1−p
期望:
E[X]=1⋅p+0⋅(1−p)=p
二阶矩:
E[X2]=12⋅p+02⋅(1−p)=p
方差:
Var(X)=E[X2]−(E[X])2=p−p2=p(1−p)
4.2 二项分布
n 次独立 Bernoulli 试验中成功次数:
X∼Binomial(n,p)
概率质量函数:
P(X=k)=(kn)pk(1−p)n−k,k=0,1,…,n
推导:恰有 k 次成功时,某一个固定顺序的概率为
pk(1−p)n−k
而成功位置可以从 n 个位置中选 k 个,共 (kn) 种,所以乘上组合数。
期望推导:令 Xi 表示第 i 次试验是否成功,则
X=X1+X2+⋯+Xn
其中 Xi∼Bernoulli(p)。由期望线性性:
E[X]=i=1∑nE[Xi]=np
若试验相互独立,则方差可加:
Var(X)=i=1∑nVar(Xi)=np(1−p)
4.3 几何分布
若 X 表示第一次成功所需试验次数,则
P(X=k)=(1−p)k−1p,k=1,2,…
归一化验证:
k=1∑∞(1−p)k−1p=pj=0∑∞(1−p)j=p⋅p1=1
期望推导:
E[X]=k=1∑∞k(1−p)k−1p
利用幂级数
k=1∑∞krk−1=(1−r)21,∣r∣<1
令 r=1−p,得
E[X]=p⋅p21=p1
几何分布具有无记忆性:
P(X>s+t∣X>s)=P(X>t)
推导:
P(X>s+t∣X>s)=P(X>s)P(X>s+t)
而 P(X>m)=(1−p)m,所以
(1−p)s(1−p)s+t=(1−p)t=P(X>t)
4.4 Poisson 分布
Poisson 分布常用于单位时间/空间内稀有事件次数:
X∼Poisson(λ),P(X=k)=e−λk!λk,k=0,1,2,…
归一化验证:
k=0∑∞e−λk!λk=e−λk=0∑∞k!λk=e−λeλ=1
期望推导:
E[X]=k=0∑∞ke−λk!λk
k=0 项为 0,从 k=1 开始:
E[X]=e−λk=1∑∞kk!λk=e−λk=1∑∞(k−1)!λk
提出一个 λ,令 j=k−1:
E[X]=λe−λj=0∑∞j!λj=λ
方差可用二阶阶乘矩推导。先算:
E[X(X−1)]=k=0∑∞k(k−1)e−λk!λk
从 k=2 开始:
E[X(X−1)]=e−λk=2∑∞(k−2)!λk=λ2e−λj=0∑∞j!λj=λ2
又因为
X2=X(X−1)+X
所以
E[X2]=λ2+λ
方差为:
Var(X)=E[X2]−(E[X])2=λ
4.5 指数分布
指数分布常描述等待时间:
X∼Exp(λ),f(x)=λe−λx,x≥0
归一化:
∫0∞λe−λxdx=[−e−λx]0∞=1
分布函数:
F(x)=P(X≤x)=∫0xλe−λtdt=1−e−λx
尾概率:
P(X>x)=e−λx
无记忆性推导:
P(X>s+t∣X>s)=P(X>s)P(X>s+t)=e−λse−λ(s+t)=e−λt=P(X>t)
期望推导,使用分部积分:
E[X]=∫0∞xλe−λxdx
令 u=x,dv=λe−λxdx,则 du=dx,v=−e−λx:
E[X]=[−xe−λx]0∞+∫0∞e−λxdx=λ1
4.6 正态分布
正态分布:
X∼N(μ,σ2),f(x)=2πσ1exp(−2σ2(x−μ)2)
标准化:
Z=σX−μ∼N(0,1)
标准正态密度:
φ(z)=2π1e−z2/2
标准正态归一化推导的关键是高斯积分:
I=∫−∞∞e−x2/2dx
平方后转成二维积分:
I2=∫−∞∞∫−∞∞e−(x2+y2)/2dxdy
用极坐标 x=rcosθ,y=rsinθ,Jacobian 为 r:
I2=∫02π∫0∞e−r2/2rdrdθ
内层令 u=r2/2,du=rdr:
I2=2π∫0∞e−udu=2π
所以
I=2π
因此 φ(z) 前面的系数必须是 1/2π。
5. 多维随机变量
5.1 联合分布
二维随机变量 (X,Y) 的联合分布函数:
FX,Y(x,y)=P(X≤x,Y≤y)
离散情形联合质量函数:
pX,Y(x,y)=P(X=x,Y=y)
连续情形联合密度:
P((X,Y)∈A)=∬AfX,Y(x,y)dxdy
5.2 边缘分布
离散情形:
pX(x)=y∑pX,Y(x,y),pY(y)=x∑pX,Y(x,y)
连续情形:
fX(x)=∫−∞∞fX,Y(x,y)dy
fY(y)=∫−∞∞fX,Y(x,y)dx
边缘化的本质是“把不关心的变量积分或求和掉”。
5.3 条件分布
离散情形:
P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)
连续情形的条件密度:
fX∣Y(x∣y)=fY(y)fX,Y(x,y),fY(y)>0
5.4 独立随机变量
X,Y 独立等价于:
FX,Y(x,y)=FX(x)FY(y)
若有密度,也等价于:
fX,Y(x,y)=fX(x)fY(y)
独立时,函数也独立:若 X,Y 独立,则 g(X) 与 h(Y) 独立。
5.5 协方差与相关系数
协方差定义:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
展开推导:
令 μX=E[X],μY=E[Y]:
Cov(X,Y)=E[XY−XμY−YμX+μXμY]
利用期望线性性:
=E[XY]−μYE[X]−μXE[Y]+μXμY
代入 E[X]=μX,E[Y]=μY:
Cov(X,Y)=E[XY]−E[X]E[Y]
相关系数:
ρX,Y=Var(X)Var(Y)Cov(X,Y)
若 X,Y 独立,则 E[XY]=E[X]E[Y],所以 Cov(X,Y)=0。反过来不一定成立;零相关只表示线性关系为零,不表示独立。
5.6 方差和公式
对两个随机变量:
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
推导:
Var(X+Y)=E[((X−μX)+(Y−μY))2]
展开:
=E[(X−μX)2]+E[(Y−μY)2]+2E[(X−μX)(Y−μY)]
所以得到公式。若 X,Y 独立,则协方差为零,方差可加。
6. 随机变量变换
6.1 一维连续变换
若 Y=g(X),且 g 严格单调可微,反函数 x=g−1(y) 存在,则
fY(y)=fX(g−1(y))dydg−1(y)
推导以单调递增为例:
FY(y)=P(Y≤y)=P(g(X)≤y)=P(X≤g−1(y))=FX(g−1(y))
两边对 y 求导:
fY(y)=fX(g−1(y))dydg−1(y)
若单调递减,导数为负,需要取绝对值保证密度非负。
6.2 多维变换与 Jacobian
若 (U,V)=g(X,Y) 是一一可微变换,反变换为 (X,Y)=h(U,V),则
fU,V(u,v)=fX,Y(x(u,v),y(u,v))∂(u,v)∂(x,y)
其中
∂(u,v)∂(x,y)=∂u∂x∂u∂y∂v∂x∂v∂y
Jacobian 的作用是面积缩放因子:变量变换后,小区域面积会被拉伸或压缩。
7. 条件期望
7.1 条件期望定义
离散情形:
E[X∣Y=y]=x∑xP(X=x∣Y=y)
连续情形:
E[X∣Y=y]=∫−∞∞xfX∣Y(x∣y)dx
E[X∣Y] 本身是 Y 的函数,也是一个随机变量。
7.2 全期望公式
离散情形推导:
E[E[X∣Y]]=y∑E[X∣Y=y]P(Y=y)
代入条件期望:
=y∑(x∑xP(X=x∣Y=y))P(Y=y)
交换求和:
=x∑xy∑P(X=x∣Y=y)P(Y=y)
由全概率公式:
y∑P(X=x∣Y=y)P(Y=y)=P(X=x)
所以
E[E[X∣Y]]=x∑xP(X=x)=E[X]
这就是全期望公式:
E[X]=E[E[X∣Y]]
7.3 全方差公式
全方差公式:
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
推导设 m(Y)=E[X∣Y]。把 X−E[X] 分解为:
X−E[X]=(X−m(Y))+(m(Y)−E[X])
平方取期望:
Var(X)=E[(X−m(Y))2]+E[(m(Y)−E[X])2]+2E[(X−m(Y))(m(Y)−E[X])]
第一项是:
E[Var(X∣Y)]
第二项是:
Var(E[X∣Y])
交叉项为零,因为
E[X−m(Y)∣Y]=E[X∣Y]−m(Y)=0
所以全方差公式成立。
直觉:总体不确定性 = 条件内部平均不确定性 + 条件均值之间的不确定性。
8. 矩母函数与特征函数
8.1 矩母函数
矩母函数定义:
MX(t)=E[etX]
若在 t=0 附近存在,则可以生成各阶矩:
MX(n)(0)=E[Xn]
推导:
dtndnetX=XnetX
在适当条件下可交换求导与期望:
MX(n)(t)=E[XnetX]
令 t=0,得到
MX(n)(0)=E[Xn]
8.2 特征函数
特征函数定义:
ϕX(t)=E[eitX]
特征函数总是存在,因为 ∣eitX∣=1。它能唯一决定分布,是证明中心极限定理的重要工具。
若 X,Y 独立,则 X+Y 的特征函数为:
ϕX+Y(t)=E[eit(X+Y)]=E[eitXeitY]
独立性给出乘积期望分解:
ϕX+Y(t)=E[eitX]E[eitY]=ϕX(t)ϕY(t)
9. 大数定律与中心极限定理
9.1 Markov 不等式
若 X≥0,则对 a>0:
P(X≥a)≤aE[X]
推导:
因为当 X≥a 时有 X≥a1{X≥a},当 X<a 时右边为 0,也有 X≥0,所以总体上:
X≥a1{X≥a}
取期望:
E[X]≥aP(X≥a)
移项得到结论。
9.2 Chebyshev 不等式
对任意随机变量 X,若方差存在,则
P(∣X−E[X]∣≥ε)≤ε2Var(X)
推导:令 Y=(X−E[X])2≥0,用 Markov 不等式:
P(Y≥ε2)≤ε2E[Y]=ε2Var(X)
而 Y≥ε2 等价于 ∣X−E[X]∣≥ε。
9.3 弱大数定律
设 X1,X2,… 独立同分布,E[Xi]=μ,Var(Xi)=σ2<∞。样本均值
Xˉn=n1i=1∑nXi
则对任意 ε>0:
P(∣Xˉn−μ∣≥ε)→0
推导:
E[Xˉn]=μ
由于独立,方差可加:
Var(Xˉn)=Var(n1i=1∑nXi)=n21i=1∑nσ2=nσ2
用 Chebyshev 不等式:
P(∣Xˉn−μ∣≥ε)≤nε2σ2→0
这说明:大量独立重复观测的平均值会稳定到真实均值。
9.4 中心极限定理
设 X1,X2,… 独立同分布,均值 μ、方差 σ2 有限且 σ>0,则
σn∑i=1nXi−nμdN(0,1)
等价地:
σ/nXˉn−μdN(0,1)
直觉:很多小的、独立的随机扰动相加,标准化后趋向正态分布。
用特征函数看推导骨架
令
Yi=σXi−μ
则 E[Yi]=0,Var(Yi)=1。要研究
Sn=n1i=1∑nYi
设 Yi 的特征函数为 ϕ(t)。由于 E[Yi]=0,E[Yi2]=1,在 0 附近有 Taylor 展开:
ϕ(t)=E[eitY]=1−2t2+o(t2)
Sn 的特征函数为:
ϕSn(t)=E[eitn1∑Yi]
独立性使其分解为:
ϕSn(t)=i=1∏nE[ei(t/n)Yi]=[ϕ(nt)]n
用展开:
ϕ(nt)=1−2nt2+o(n1)
于是
[1−2nt2+o(n1)]n→e−t2/2
而 e−t2/2 是标准正态分布 N(0,1) 的特征函数,因此 Sn 依分布收敛到标准正态。
10. 随机过程基础
10.1 定义
随机过程是一族随机变量:
{Xt:t∈T}
T 是指标集合,通常表示时间。
- 若 T={0,1,2,…},称为离散时间随机过程。
- 若 T=[0,∞),称为连续时间随机过程。
- 若 Xt 取值有限或可数,称为离散状态过程。
- 若 Xt 取值连续,称为连续状态过程。
两个重要视角:
- 固定 t:Xt 是随机变量。
- 固定 ω:Xt(ω) 是一条随时间变化的样本路径。
10.2 有限维分布
随机过程的概率结构由任意有限个时间点的联合分布描述:
P(Xt1≤x1,…,Xtn≤xn)
这些称为有限维分布。理论上,所有有限维分布加上相容性条件可以刻画一个随机过程。
10.3 均值函数与协方差函数
均值函数:
mX(t)=E[Xt]
自协方差函数:
RX(s,t)=Cov(Xs,Xt)=E[(Xs−mX(s))(Xt−mX(t))]
自相关函数有时定义为:
CX(s,t)=E[XsXt]
注意有些教材把 RX 用作自相关函数,需要看上下文。
10.4 平稳性
严平稳
若对任意 n、任意时间点 t1,…,tn 和任意平移 h,有
(Xt1,…,Xtn)=d(Xt1+h,…,Xtn+h)
则称过程严平稳。
严平稳要求所有有限维分布在时间平移下不变。
宽平稳
若满足:
- E[Xt]=μ 是常数。
- Cov(Xs,Xt) 只依赖时间差 t−s。
则称过程宽平稳或二阶平稳。
宽平稳只关心一阶矩和二阶矩,比严平稳弱。若过程是高斯过程,则宽平稳通常足以推出严平稳,因为高斯过程由均值和协方差完全决定。
11. 离散时间马尔可夫链
11.1 Markov 性
离散时间随机过程 {Xn:n=0,1,2,…} 若满足:
P(Xn+1=j∣Xn=i,Xn−1=in−1,…,X0=i0)=P(Xn+1=j∣Xn=i)
则称为马尔可夫链。
直觉:给定现在,未来与过去无关。
若转移概率不随时间变化:
P(Xn+1=j∣Xn=i)=pij
则称为齐次马尔可夫链。
11.2 转移矩阵
把 pij 组成矩阵:
P=p11p21⋮p12p22⋮⋯⋯⋱
每行和为 1:
j∑pij=1
若初始分布为行向量 π(0),则一步后的分布为:
π(1)=π(0)P
n 步后:
π(n)=π(0)Pn
11.3 Chapman-Kolmogorov 方程推导
n+m 步从 i 到 j,可以按中间状态 k 分解:
pij(n+m)=P(Xn+m=j∣X0=i)
插入第 n 步状态:
pij(n+m)=k∑P(Xn+m=j,Xn=k∣X0=i)
用条件概率:
=k∑P(Xn+m=j∣Xn=k,X0=i)P(Xn=k∣X0=i)
由 Markov 性和齐次性:
P(Xn+m=j∣Xn=k,X0=i)=P(Xm=j∣X0=k)=pkj(m)
所以
pij(n+m)=k∑pik(n)pkj(m)
矩阵形式:
Pn+m=PnPm
11.4 平稳分布
分布 π 若满足:
π=πP,i∑πi=1,πi≥0
则称为平稳分布。
含义:如果 X0∼π,则
P(X1=j)=i∑P(X0=i)pij=i∑πipij=πj
所以 X1∼π。进一步地,所有时刻分布都保持为 π。
11.5 二状态马尔可夫链例子
设状态为 0,1,转移矩阵:
P=(1−aba1−b)
平稳分布 π=(π0,π1) 满足:
π0=π0(1−a)+π1b
π1=π0a+π1(1−b)
加上 π0+π1=1。由第一式:
π0a=π1b
所以
π0π1=ba
结合归一化:
π0=a+bb,π1=a+ba
12. Poisson 过程
12.1 定义
计数过程 {N(t):t≥0} 若满足:
- N(0)=0。
- 独立增量:不相交时间区间内事件数相互独立。
- 平稳增量:N(t+s)−N(s) 的分布只依赖 t。
- 小时间内一次事件概率约为 λh,多次事件概率为 o(h):
P(N(h)=1)=λh+o(h),P(N(h)≥2)=o(h)
则称 N(t) 是强度为 λ 的 Poisson 过程。
12.2 推导 N(t)∼Poisson(λt)
记
pk(t)=P(N(t)=k)
考虑 t 到 t+h 的变化。由独立平稳增量:
p0(t+h)=p0(t)P(N(h)=0)+o(h)
因为
P(N(h)=0)=1−λh+o(h)
所以
p0(t+h)=p0(t)(1−λh+o(h))
整理:
hp0(t+h)−p0(t)=−λp0(t)+o(1)
令 h→0:
p0′(t)=−λp0(t),p0(0)=1
解得:
p0(t)=e−λt
对 k≥1,在 t+h 时有 k 个事件,主要来自两种互斥情况:
- t 时已有 k 个,(t,t+h] 中没有新事件。
- t 时已有 k−1 个,(t,t+h] 中有一个新事件。
多于一个新事件是 o(h)。所以:
pk(t+h)=pk(t)(1−λh)+pk−1(t)λh+o(h)
整理得微分方程:
pk′(t)=−λpk(t)+λpk−1(t)
可以递推解出:
pk(t)=e−λtk!(λt)k
因此:
N(t)∼Poisson(λt)
12.3 到达间隔服从指数分布
令 T1 为第一次事件到达时间。则:
P(T1>t)=P(N(t)=0)=e−λt
因此:
FT1(t)=1−e−λt
所以
T1∼Exp(λ)
类似地,Poisson 过程的相邻到达间隔 S1,S2,… 独立同分布,均为 Exp(λ)。这来自独立增量和无记忆性。
12.4 到达时间分布
第 n 次到达时间:
Tn=S1+S2+⋯+Sn
其中 Si∼iidExp(λ)。所以 Tn 服从 Erlang/Gamma 分布:
fTn(t)=(n−1)!λntn−1e−λt,t≥0
也可由事件计数推导:
P(Tn≤t)=P(N(t)≥n)
因此
P(Tn>t)=P(N(t)≤n−1)=k=0∑n−1e−λtk!(λt)k
对 t 求导即可得到密度。
13. 连续时间马尔可夫链
连续时间马尔可夫链 {X(t):t≥0} 满足连续时间版本的 Markov 性:
P(X(t+s)=j∣X(s)=i,过去历史)=P(X(t+s)=j∣X(s)=i)
它由生成矩阵 Q=(qij) 描述,其中:
- qij≥0,i=j。
- qii=−∑j=iqij。
- 每行和为 0。
小时间转移近似:
P(X(t+h)=j∣X(t)=i)=qijh+o(h),i=j
P(X(t+h)=i∣X(t)=i)=1+qiih+o(h)
转移矩阵函数 P(t) 满足 Kolmogorov 前向方程:
P′(t)=P(t)Q
若初始分布为 π(0),则
π′(t)=π(t)Q
平稳分布满足:
πQ=0,i∑πi=1
这与离散时间的 π=πP 对应:连续时间中,平稳表示分布不再随时间变化,所以导数为零。
14. 更新过程
Poisson 过程可以看作指数间隔的更新过程。更一般地,若事件间隔
S1,S2,…
独立同分布且非负,定义到达时间
Tn=S1+⋯+Sn
计数过程
N(t)=max{n:Tn≤t}
称为更新过程。
若 E[S1]=μ,长期平均到达率为:
tN(t)→μ1
直觉:每次更新平均花 μ 时间,所以单位时间约发生 1/μ 次。
Poisson 过程是特殊情况,因为 Si∼Exp(λ),于是 μ=1/λ,长期速率为 λ。
15. Brownian Motion 布朗运动
15.1 定义
标准布朗运动 {B(t):t≥0} 满足:
- B(0)=0。
- 独立增量:不相交区间上的增量相互独立。
- 平稳正态增量:
B(t)−B(s)∼N(0,t−s),0≤s<t
- 样本路径连续。
15.2 均值与方差
因为 B(t)−B(0)∼N(0,t),且 B(0)=0,所以
B(t)∼N(0,t)
于是
E[B(t)]=0,Var(B(t))=t
15.3 协方差函数推导
对 0≤s≤t,有
B(t)=B(s)+(B(t)−B(s))
其中 B(s) 与 B(t)−B(s) 独立,且均值为零。于是
E[B(s)B(t)]=E[B(s)(B(s)+B(t)−B(s))]
展开:
=E[B(s)2]+E[B(s)(B(t)−B(s))]
独立且均值为零给出第二项为零:
E[B(s)(B(t)−B(s))]=E[B(s)]E[B(t)−B(s)]=0
所以
E[B(s)B(t)]=E[B(s)2]=Var(B(s))=s
因此
Cov(B(s),B(t))=min(s,t)
15.4 布朗运动不是平稳过程
B(t)∼N(0,t),方差随 t 增大,因此 B(t) 的分布依赖时间,不是严平稳,也不是宽平稳。
但布朗运动的增量是平稳的,因为
B(t+h)−B(t)∼N(0,h)
只依赖区间长度 h。
15.5 二次变差
把 [0,t] 分成 n 份:
0=t0<t1<⋯<tn=t
考虑平方增量和:
i=1∑n(B(ti)−B(ti−1))2
当划分越来越细时,它收敛到 t。这叫布朗运动的二次变差:
[B]t=t
这说明布朗运动路径虽然连续,但非常粗糙,通常处处不可导。普通微积分不能直接套用,因此需要 Itô 积分和随机微积分。
16. 高斯过程
随机过程 {Xt:t∈T} 若任意有限维向量
(Xt1,…,Xtn)
都服从多元正态分布,则称为高斯过程。
高斯过程完全由均值函数和协方差函数决定:
m(t)=E[Xt]
K(s,t)=Cov(Xs,Xt)
布朗运动是高斯过程,因为任意有限个时间点的联合分布是多元正态。
常见协方差核:
- 线性核:K(s,t)=st。
- 平方指数核:K(s,t)=σ2exp(−2ℓ2(s−t)2)。
- Ornstein-Uhlenbeck 核:K(s,t)=2θσ2e−θ∣t−s∣。
协方差核必须半正定:对任意 t1,…,tn 和任意实数 a1,…,an,
i=1∑nj=1∑naiajK(ti,tj)≥0
原因是:
i,j∑aiajK(ti,tj)=Var(i∑aiXti)≥0
17. 随机微积分入门
这一节只给核心直觉与最常用公式。
17.1 Itô 过程
常见随机微分方程写作:
dXt=a(t,Xt)dt+b(t,Xt)dBt
其中:
- a(t,Xt) 是漂移项,描述确定性趋势。
- b(t,Xt) 是扩散项,描述随机扰动强度。
- dBt 是布朗运动增量。
积分形式是:
Xt=X0+∫0ta(s,Xs)ds+∫0tb(s,Xs)dBs
第二个积分是 Itô 积分。
17.2 Itô 公式
若
dXt=atdt+btdBt
且 f(t,x) 足够光滑,则
df(t,Xt)=(∂t∂f+at∂x∂f+21bt2∂x2∂2f)dt+bt∂x∂fdBt
为什么多出二阶项?因为布朗运动的二次变差满足:
(dBt)2≈dt
普通微积分中二阶小量会忽略,但随机微积分中 (dBt)2 是一阶量级的 dt。
17.3 几何布朗运动
金融中常见模型:
dSt=μStdt+σStdBt
求解时令 Yt=lnSt。用 Itô 公式,f(x)=lnx,有
f′(x)=x1,f′′(x)=−x21
代入:
dlnSt=St1dSt+21(−St21)(σ2St2)dt
因为 dSt=μStdt+σStdBt,所以
dlnSt=μdt+σdBt−21σ2dt
即
dlnSt=(μ−21σ2)dt+σdBt
积分得到:
lnSt=lnS0+(μ−21σ2)t+σBt
因此
St=S0exp[(μ−21σ2)t+σBt]
18. 常见题型与解题模板
18.1 求概率
常用步骤:
- 明确样本空间与事件。
- 判断是否能用条件概率、全概率或 Bayes。
- 若涉及多个随机变量,写联合分布,再边缘化或条件化。
- 若连续型,画积分区域,再积分。
18.2 求期望
常用方法:
- 直接按定义求和或积分。
- 利用期望线性性。
- 用指示变量分解。
- 用全期望公式。
- 对非负变量使用尾和公式:
离散非负整数变量:
E[X]=k=1∑∞P(X≥k)
连续非负变量:
E[X]=∫0∞P(X>t)dt
连续版本推导:
E[X]=∫0∞xf(x)dx
注意
x=∫0xdt
所以
E[X]=∫0∞∫0xf(x)dtdx
交换积分次序:
=∫0∞∫t∞f(x)dxdt
内层就是 P(X>t),因此
E[X]=∫0∞P(X>t)dt
18.3 求随机过程分布
常用步骤:
- 固定时间 t,先求 Xt 的边缘分布。
- 若要研究多个时间点,写联合分布或增量分解。
- 检查是否有独立增量、平稳增量、Markov 性。
- 对计数过程优先考虑 Poisson 过程。
- 对连续正态扰动优先考虑 Brownian motion 或高斯过程。
18.4 判断平稳性
步骤:
- 看 E[Xt] 是否与 t 无关。
- 看 Var(Xt) 是否与 t 无关。
- 看 Cov(Xs,Xt) 是否只依赖 t−s。
- 若过程是高斯过程,二阶结构通常足以判断严平稳。
- 若不是高斯过程,需要检查所有有限维分布。
19. 一页速查
概率公式
P(A∪B)=P(A)+P(B)−P(A∩B)
P(A∣B)=P(B)P(A∩B)
P(A)=i∑P(A∣Bi)P(Bi)
P(Bj∣A)=∑iP(A∣Bi)P(Bi)P(A∣Bj)P(Bj)
期望与方差
Var(X)=E[X2]−(E[X])2
Cov(X,Y)=E[XY]−E[X]E[Y]
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
E[X]=E[E[X∣Y]]
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
常见分布
Bernoulli(p):E[X]=p,Var(X)=p(1−p)
Binomial(n,p):E[X]=np,Var(X)=np(1−p)
Poisson(λ):P(X=k)=e−λk!λk,E[X]=Var(X)=λ
Exp(λ):f(x)=λe−λx,E[X]=λ1,Var(X)=λ21
N(μ,σ2):f(x)=2πσ1exp(−2σ2(x−μ)2)
随机过程
mX(t)=E[Xt]
RX(s,t)=Cov(Xs,Xt)
马尔可夫链:
P(Xn+1=j∣Xn=i,past)=P(Xn+1=j∣Xn=i)
平稳分布:
π=πP
Poisson 过程:
N(t)∼Poisson(λt)
布朗运动:
B(t)−B(s)∼N(0,t−s)
Cov(B(s),B(t))=min(s,t)
20. 推荐练习顺序
- 用条件概率和 Bayes 公式做疾病检测、抽球、通信误码题。
- 用指示变量求组合计数期望,例如生日问题、随机图边数。
- 手推二项、Poisson、指数、正态的期望和方差。
- 练习二维密度积分区域,尤其是变量变换和 Jacobian。
- 用 Chebyshev 不等式证明弱大数定律。
- 用特征函数理解中心极限定理。
- 给定转移矩阵,求马尔可夫链的 n 步转移概率和平稳分布。
- 从 Poisson 过程定义推导 N(t) 分布和到达间隔分布。
- 推导布朗运动的协方差函数,判断它是否平稳。
- 用 Itô 公式解几何布朗运动。
21. 学习建议
概率论最容易卡住的地方不是公式多,而是“条件”与“随机对象”层级容易混。建议每做一道题都问三件事:
- 当前的随机对象是什么?事件、随机变量,还是随机过程?
- 已知条件改变了哪个样本空间或哪个条件分布?
- 独立性是否真的成立?如果成立,是事件独立、随机变量独立,还是增量独立?
随机过程部分尤其要区分:
- Xt 的边缘分布。
- (Xt1,…,Xtn) 的联合分布。
- 一条样本路径的性质。
- 增量 Xt−Xs 的性质。
把这四件事分清,马尔可夫链、Poisson 过程和布朗运动会清楚很多。