概率论与随机过程教程

这份笔记面向已经学过高等数学、线性代数基础的人。目标不是只背公式,而是理解概率模型为什么这样定义、常见公式怎样推导、随机过程如何从“一个随机变量”扩展到“一族随时间变化的随机变量”。

0. 学习路线

概率论可以看成三层:

  1. 事件层:样本空间、事件、概率、条件概率、独立性。
  2. 随机变量层:随机变量、分布函数、密度/质量函数、期望、方差、矩母函数、特征函数、多维分布。
  3. 极限与过程层:大数定律、中心极限定理、马尔可夫链、泊松过程、布朗运动、平稳过程。

随机过程的核心是:

随机过程不是一个随机数,而是一族随机变量 。每个固定的 给出一个随机变量;每个固定的样本点 给出一条样本路径


1. 概率空间

1.1 样本空间与事件

随机试验所有可能结果构成样本空间 。事件是 的子集,例如掷骰子时:

表示“点数为偶数”。

为了避免无限样本空间中的集合悖论,严格概率论使用三元组:

其中:

  • :样本空间。
  • :事件集合族,也叫 -代数。
  • :概率测度。

-代数满足:

  1. ,则
  2. ,则

这保证事件可以进行补集、可数并、可数交等操作。

1.2 概率公理

概率函数 满足 Kolmogorov 三公理:

  1. 非负性:
  2. 规范性:
  3. 可列可加性:如果 两两互斥,则

1.3 常用概率公式推导

补事件公式

因为 互斥,且 ,所以

因此

加法公式

对任意事件 ,把 拆成互斥部分:

所以

又因为

且二者互斥,所以

于是

代回得到

这个公式的直觉是: 把交集 算了两次,所以要减掉一次。


2. 条件概率、全概率公式与 Bayes 公式

2.1 条件概率

时,事件 在事件 已发生条件下的概率定义为:

推导视角:已知 发生以后,样本空间从 缩小为 。在新的样本空间里, 发生等价于 发生,因此要用 除以 做归一化。

由定义立刻得到乘法公式:

2.2 全概率公式

构成样本空间的一个划分:

则任意事件 可以拆成互斥并:

由可加性:

再用乘法公式:

得到全概率公式:

2.3 Bayes 公式

Bayes 公式回答“看到结果以后,反推原因”的问题。

由条件概率定义:

分子用乘法公式:

分母用全概率公式:

所以:

解释:

  • 是先验概率。
  • 是似然。
  • 是后验概率。
  • 分母负责归一化,使所有后验概率相加为

2.4 独立性

事件 独立定义为:

,这等价于:

也就是说,知道 是否发生,不改变我们对 的概率判断。

注意:互斥与独立通常不是一回事。若 互斥且 ,则 ,但 ,所以它们不独立。


3. 随机变量与分布

3.1 随机变量

随机变量是从样本空间到实数的函数:

它把随机试验结果数值化。例如掷两枚硬币,令 表示正面个数,则

3.2 分布函数

随机变量 的分布函数定义为:

分布函数有三个基本性质:

  1. 单调不减。
  2. 右连续。

3.3 离散型随机变量

只取可数个值 ,则概率质量函数为:

并且

期望:

方差:

常用等价形式推导:

,则

展开:

利用期望线性性:

因为 ,所以

3.4 连续型随机变量

若存在非负函数 ,使得

是连续型随机变量, 是概率密度函数。

密度满足:

区间概率:

连续型随机变量满足 ,但这不代表 不可能发生;它表示单点概率质量为零。

期望:

方差:


4. 常见分布与关键推导

4.1 Bernoulli 分布

一次成功/失败试验:

期望:

二阶矩:

方差:

4.2 二项分布

次独立 Bernoulli 试验中成功次数:

概率质量函数:

推导:恰有 次成功时,某一个固定顺序的概率为

而成功位置可以从 个位置中选 个,共 种,所以乘上组合数。

期望推导:令 表示第 次试验是否成功,则

其中 。由期望线性性:

若试验相互独立,则方差可加:

4.3 几何分布

表示第一次成功所需试验次数,则

归一化验证:

期望推导:

利用幂级数

,得

几何分布具有无记忆性:

推导:

,所以

4.4 Poisson 分布

Poisson 分布常用于单位时间/空间内稀有事件次数:

归一化验证:

期望推导:

项为 ,从 开始:

提出一个 ,令

方差可用二阶阶乘矩推导。先算:

开始:

又因为

所以

方差为:

4.5 指数分布

指数分布常描述等待时间:

归一化:

分布函数:

尾概率:

无记忆性推导:

期望推导,使用分部积分:

,则

4.6 正态分布

正态分布:

标准化:

标准正态密度:

标准正态归一化推导的关键是高斯积分:

平方后转成二维积分:

用极坐标 ,Jacobian 为

内层令

所以

因此 前面的系数必须是


5. 多维随机变量

5.1 联合分布

二维随机变量 的联合分布函数:

离散情形联合质量函数:

连续情形联合密度:

5.2 边缘分布

离散情形:

连续情形:

边缘化的本质是“把不关心的变量积分或求和掉”。

5.3 条件分布

离散情形:

连续情形的条件密度:

5.4 独立随机变量

独立等价于:

若有密度,也等价于:

独立时,函数也独立:若 独立,则 独立。

5.5 协方差与相关系数

协方差定义:

展开推导:

利用期望线性性:

代入

相关系数:

独立,则 ,所以 。反过来不一定成立;零相关只表示线性关系为零,不表示独立。

5.6 方差和公式

对两个随机变量:

推导:

展开:

所以得到公式。若 独立,则协方差为零,方差可加。


6. 随机变量变换

6.1 一维连续变换

,且 严格单调可微,反函数 存在,则

推导以单调递增为例:

两边对 求导:

若单调递减,导数为负,需要取绝对值保证密度非负。

6.2 多维变换与 Jacobian

是一一可微变换,反变换为 ,则

其中

Jacobian 的作用是面积缩放因子:变量变换后,小区域面积会被拉伸或压缩。


7. 条件期望

7.1 条件期望定义

离散情形:

连续情形:

本身是 的函数,也是一个随机变量。

7.2 全期望公式

离散情形推导:

代入条件期望:

交换求和:

由全概率公式:

所以

这就是全期望公式:

7.3 全方差公式

全方差公式:

推导设 。把 分解为:

平方取期望:

第一项是:

第二项是:

交叉项为零,因为

所以全方差公式成立。

直觉:总体不确定性 = 条件内部平均不确定性 + 条件均值之间的不确定性。


8. 矩母函数与特征函数

8.1 矩母函数

矩母函数定义:

若在 附近存在,则可以生成各阶矩:

推导:

在适当条件下可交换求导与期望:

,得到

8.2 特征函数

特征函数定义:

特征函数总是存在,因为 。它能唯一决定分布,是证明中心极限定理的重要工具。

独立,则 的特征函数为:

独立性给出乘积期望分解:


9. 大数定律与中心极限定理

9.1 Markov 不等式

,则对

推导:

因为当 时有 ,当 时右边为 ,也有 ,所以总体上:

取期望:

移项得到结论。

9.2 Chebyshev 不等式

对任意随机变量 ,若方差存在,则

推导:令 ,用 Markov 不等式:

等价于

9.3 弱大数定律

独立同分布,。样本均值

则对任意

推导:

由于独立,方差可加:

用 Chebyshev 不等式:

这说明:大量独立重复观测的平均值会稳定到真实均值。

9.4 中心极限定理

独立同分布,均值 、方差 有限且 ,则

等价地:

直觉:很多小的、独立的随机扰动相加,标准化后趋向正态分布。

用特征函数看推导骨架

。要研究

的特征函数为 。由于 ,在 附近有 Taylor 展开:

的特征函数为:

独立性使其分解为:

用展开:

于是

是标准正态分布 的特征函数,因此 依分布收敛到标准正态。


10. 随机过程基础

10.1 定义

随机过程是一族随机变量:

是指标集合,通常表示时间。

  • ,称为离散时间随机过程。
  • ,称为连续时间随机过程。
  • 取值有限或可数,称为离散状态过程。
  • 取值连续,称为连续状态过程。

两个重要视角:

  1. 固定 是随机变量。
  2. 固定 是一条随时间变化的样本路径。

10.2 有限维分布

随机过程的概率结构由任意有限个时间点的联合分布描述:

这些称为有限维分布。理论上,所有有限维分布加上相容性条件可以刻画一个随机过程。

10.3 均值函数与协方差函数

均值函数:

自协方差函数:

自相关函数有时定义为:

注意有些教材把 用作自相关函数,需要看上下文。

10.4 平稳性

严平稳

若对任意 、任意时间点 和任意平移 ,有

则称过程严平稳。

严平稳要求所有有限维分布在时间平移下不变。

宽平稳

若满足:

  1. 是常数。
  2. 只依赖时间差

则称过程宽平稳或二阶平稳。

宽平稳只关心一阶矩和二阶矩,比严平稳弱。若过程是高斯过程,则宽平稳通常足以推出严平稳,因为高斯过程由均值和协方差完全决定。


11. 离散时间马尔可夫链

11.1 Markov 性

离散时间随机过程 若满足:

则称为马尔可夫链。

直觉:给定现在,未来与过去无关。

若转移概率不随时间变化:

则称为齐次马尔可夫链。

11.2 转移矩阵

组成矩阵:

每行和为

若初始分布为行向量 ,则一步后的分布为:

步后:

11.3 Chapman-Kolmogorov 方程推导

步从 ,可以按中间状态 分解:

插入第 步状态:

用条件概率:

由 Markov 性和齐次性:

所以

矩阵形式:

11.4 平稳分布

分布 若满足:

则称为平稳分布。

含义:如果 ,则

所以 。进一步地,所有时刻分布都保持为

11.5 二状态马尔可夫链例子

设状态为 ,转移矩阵:

平稳分布 满足:

加上 。由第一式:

所以

结合归一化:


12. Poisson 过程

12.1 定义

计数过程 若满足:

  1. 独立增量:不相交时间区间内事件数相互独立。
  2. 平稳增量: 的分布只依赖
  3. 小时间内一次事件概率约为 ,多次事件概率为

则称 是强度为 的 Poisson 过程。

12.2 推导

考虑 的变化。由独立平稳增量:

因为

所以

整理:

解得:

,在 时有 个事件,主要来自两种互斥情况:

  • 时已有 个, 中没有新事件。
  • 时已有 个, 中有一个新事件。

多于一个新事件是 。所以:

整理得微分方程:

可以递推解出:

因此:

12.3 到达间隔服从指数分布

为第一次事件到达时间。则:

因此:

所以

类似地,Poisson 过程的相邻到达间隔 独立同分布,均为 。这来自独立增量和无记忆性。

12.4 到达时间分布

次到达时间:

其中 。所以 服从 Erlang/Gamma 分布:

也可由事件计数推导:

因此

求导即可得到密度。


13. 连续时间马尔可夫链

连续时间马尔可夫链 满足连续时间版本的 Markov 性:

它由生成矩阵 描述,其中:

  • 每行和为

小时间转移近似:

转移矩阵函数 满足 Kolmogorov 前向方程:

若初始分布为 ,则

平稳分布满足:

这与离散时间的 对应:连续时间中,平稳表示分布不再随时间变化,所以导数为零。


14. 更新过程

Poisson 过程可以看作指数间隔的更新过程。更一般地,若事件间隔

独立同分布且非负,定义到达时间

计数过程

称为更新过程。

,长期平均到达率为:

直觉:每次更新平均花 时间,所以单位时间约发生 次。

Poisson 过程是特殊情况,因为 ,于是 ,长期速率为


15. Brownian Motion 布朗运动

15.1 定义

标准布朗运动 满足:

  1. 独立增量:不相交区间上的增量相互独立。
  2. 平稳正态增量:
  1. 样本路径连续。

15.2 均值与方差

因为 ,且 ,所以

于是

15.3 协方差函数推导

,有

其中 独立,且均值为零。于是

展开:

独立且均值为零给出第二项为零:

所以

因此

15.4 布朗运动不是平稳过程

,方差随 增大,因此 的分布依赖时间,不是严平稳,也不是宽平稳。

但布朗运动的增量是平稳的,因为

只依赖区间长度

15.5 二次变差

分成 份:

考虑平方增量和:

当划分越来越细时,它收敛到 。这叫布朗运动的二次变差:

这说明布朗运动路径虽然连续,但非常粗糙,通常处处不可导。普通微积分不能直接套用,因此需要 Itô 积分和随机微积分。


16. 高斯过程

随机过程 若任意有限维向量

都服从多元正态分布,则称为高斯过程。

高斯过程完全由均值函数和协方差函数决定:

布朗运动是高斯过程,因为任意有限个时间点的联合分布是多元正态。

常见协方差核:

  1. 线性核:
  2. 平方指数核:
  3. Ornstein-Uhlenbeck 核:

协方差核必须半正定:对任意 和任意实数

原因是:


17. 随机微积分入门

这一节只给核心直觉与最常用公式。

17.1 Itô 过程

常见随机微分方程写作:

其中:

  • 是漂移项,描述确定性趋势。
  • 是扩散项,描述随机扰动强度。
  • 是布朗运动增量。

积分形式是:

第二个积分是 Itô 积分。

17.2 Itô 公式

足够光滑,则

为什么多出二阶项?因为布朗运动的二次变差满足:

普通微积分中二阶小量会忽略,但随机微积分中 是一阶量级的

17.3 几何布朗运动

金融中常见模型:

求解时令 。用 Itô 公式,,有

代入:

因为 ,所以

积分得到:

因此


18. 常见题型与解题模板

18.1 求概率

常用步骤:

  1. 明确样本空间与事件。
  2. 判断是否能用条件概率、全概率或 Bayes。
  3. 若涉及多个随机变量,写联合分布,再边缘化或条件化。
  4. 若连续型,画积分区域,再积分。

18.2 求期望

常用方法:

  1. 直接按定义求和或积分。
  2. 利用期望线性性。
  3. 用指示变量分解。
  4. 用全期望公式。
  5. 对非负变量使用尾和公式:

离散非负整数变量:

连续非负变量:

连续版本推导:

注意

所以

交换积分次序:

内层就是 ,因此

18.3 求随机过程分布

常用步骤:

  1. 固定时间 ,先求 的边缘分布。
  2. 若要研究多个时间点,写联合分布或增量分解。
  3. 检查是否有独立增量、平稳增量、Markov 性。
  4. 对计数过程优先考虑 Poisson 过程。
  5. 对连续正态扰动优先考虑 Brownian motion 或高斯过程。

18.4 判断平稳性

步骤:

  1. 是否与 无关。
  2. 是否与 无关。
  3. 是否只依赖
  4. 若过程是高斯过程,二阶结构通常足以判断严平稳。
  5. 若不是高斯过程,需要检查所有有限维分布。

19. 一页速查

概率公式

期望与方差

常见分布

随机过程

马尔可夫链:

平稳分布:

Poisson 过程:

布朗运动:


20. 推荐练习顺序

  1. 用条件概率和 Bayes 公式做疾病检测、抽球、通信误码题。
  2. 用指示变量求组合计数期望,例如生日问题、随机图边数。
  3. 手推二项、Poisson、指数、正态的期望和方差。
  4. 练习二维密度积分区域,尤其是变量变换和 Jacobian。
  5. 用 Chebyshev 不等式证明弱大数定律。
  6. 用特征函数理解中心极限定理。
  7. 给定转移矩阵,求马尔可夫链的 步转移概率和平稳分布。
  8. 从 Poisson 过程定义推导 分布和到达间隔分布。
  9. 推导布朗运动的协方差函数,判断它是否平稳。
  10. 用 Itô 公式解几何布朗运动。

21. 学习建议

概率论最容易卡住的地方不是公式多,而是“条件”与“随机对象”层级容易混。建议每做一道题都问三件事:

  1. 当前的随机对象是什么?事件、随机变量,还是随机过程?
  2. 已知条件改变了哪个样本空间或哪个条件分布?
  3. 独立性是否真的成立?如果成立,是事件独立、随机变量独立,还是增量独立?

随机过程部分尤其要区分:

  • 的边缘分布。
  • 的联合分布。
  • 一条样本路径的性质。
  • 增量 的性质。

把这四件事分清,马尔可夫链、Poisson 过程和布朗运动会清楚很多。