概率论与随机过程教程

这份笔记面向已经学过高等数学、线性代数基础的人。目标不是只背公式，而是理解概率模型为什么这样定义、常见公式怎样推导、随机过程如何从“一个随机变量”扩展到“一族随时间变化的随机变量”。

0. 学习路线

概率论可以看成三层：

事件层：样本空间、事件、概率、条件概率、独立性。
随机变量层：随机变量、分布函数、密度/质量函数、期望、方差、矩母函数、特征函数、多维分布。
极限与过程层：大数定律、中心极限定理、马尔可夫链、泊松过程、布朗运动、平稳过程。

随机过程的核心是：

随机过程不是一个随机数，而是一族随机变量 ${X_{t} : t \in T}$ 。每个固定的 $t$ 给出一个随机变量；每个固定的样本点 $ω$ 给出一条样本路径 $t \mapsto X_{t} (ω)$ 。

1. 概率空间

1.1 样本空间与事件

随机试验所有可能结果构成样本空间 $Ω$ 。事件是 $Ω$ 的子集，例如掷骰子时：

Ω = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}

$A$ 表示“点数为偶数”。

为了避免无限样本空间中的集合悖论，严格概率论使用三元组：

(Ω, F, P)

其中：

$Ω$ ：样本空间。
$F$ ：事件集合族，也叫 $σ$ -代数。
$P$ ：概率测度。

$σ$ -代数满足：

$Ω \in F$ 。
若 $A \in F$ ，则 $A^{c} \in F$ 。
若 $A_{1}, A_{2}, \dots \in F$ ，则 $⋃_{n = 1}^{\infty} A_{n} \in F$ 。

这保证事件可以进行补集、可数并、可数交等操作。

1.2 概率公理

概率函数 $P$ 满足 Kolmogorov 三公理：

非负性： $P (A) \geq 0$ 。
规范性： $P (Ω) = 1$ 。
可列可加性：如果 $A_{i}$ 两两互斥，则

P (i = 1 ⋃ \infty A_{i}) = i = 1 \sum \infty P (A_{i})

1.3 常用概率公式推导

补事件公式

因为 $A$ 与 $A^{c}$ 互斥，且 $A \cup A^{c} = Ω$ ，所以

1 = P (Ω) = P (A \cup A^{c}) = P (A) + P (A^{c})

因此

P (A^{c}) = 1 - P (A)

加法公式

对任意事件 $A, B$ ，把 $A \cup B$ 拆成互斥部分：

A \cup B = A \cup (B ∖ A)

所以

P (A \cup B) = P (A) + P (B ∖ A)

又因为

B = (B ∖ A) \cup (A \cap B)

且二者互斥，所以

P (B) = P (B ∖ A) + P (A \cap B)

于是

P (B ∖ A) = P (B) - P (A \cap B)

代回得到

P (A \cup B) = P (A) + P (B) - P (A \cap B)

这个公式的直觉是： $P (A) + P (B)$ 把交集 $A \cap B$ 算了两次，所以要减掉一次。

2. 条件概率、全概率公式与 Bayes 公式

2.1 条件概率

在 $P (B) > 0$ 时，事件 $A$ 在事件 $B$ 已发生条件下的概率定义为：

P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}

推导视角：已知 $B$ 发生以后，样本空间从 $Ω$ 缩小为 $B$ 。在新的样本空间里， $A$ 发生等价于 $A \cap B$ 发生，因此要用 $P (A \cap B)$ 除以 $P (B)$ 做归一化。

由定义立刻得到乘法公式：

P (A \cap B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)

2.2 全概率公式

设 $B_{1}, B_{2}, \dots, B_{n}$ 构成样本空间的一个划分：

B_{i} \cap B_{j} = \emptyset (i \neq = j), i = 1 ⋃ n B_{i} = Ω, P (B_{i}) > 0

则任意事件 $A$ 可以拆成互斥并：

A = (A \cap B_{1}) \cup (A \cap B_{2}) \cup \dots \cup (A \cap B_{n})

由可加性：

P (A) = i = 1 \sum n P (A \cap B_{i})

再用乘法公式：

P (A \cap B_{i}) = P (A ∣ B_{i}) P (B_{i})

得到全概率公式：

P (A) = i = 1 \sum n P (A ∣ B_{i}) P (B_{i})

2.3 Bayes 公式

Bayes 公式回答“看到结果以后，反推原因”的问题。

由条件概率定义：

P (B_{j} ∣ A) = \frac{P ( A \cap B _{j} )}{P ( A )}

分子用乘法公式：

P (A \cap B_{j}) = P (A ∣ B_{j}) P (B_{j})

分母用全概率公式：

P (A) = i \sum P (A ∣ B_{i}) P (B_{i})

所以：

P (B_{j} ∣ A) = \frac{P ( A ∣ B _{j} ) P ( B _{j} )}{\sum _{i} P ( A ∣ B _{i} ) P ( B _{i} )}

解释：

$P (B_{j})$ 是先验概率。
$P (A ∣ B_{j})$ 是似然。
$P (B_{j} ∣ A)$ 是后验概率。
分母负责归一化，使所有后验概率相加为 $1$ 。

2.4 独立性

事件 $A, B$ 独立定义为：

P (A \cap B) = P (A) P (B)

若 $P (B) > 0$ ，这等价于：

P (A ∣ B) = P (A)

也就是说，知道 $B$ 是否发生，不改变我们对 $A$ 的概率判断。

注意：互斥与独立通常不是一回事。若 $A, B$ 互斥且 $P (A), P (B) > 0$ ，则 $P (A \cap B) = 0$ ，但 $P (A) P (B) > 0$ ，所以它们不独立。

3. 随机变量与分布

3.1 随机变量

随机变量是从样本空间到实数的函数：

X : Ω \to R

它把随机试验结果数值化。例如掷两枚硬币，令 $X$ 表示正面个数，则 $X \in {0, 1, 2}$ 。

3.2 分布函数

随机变量 $X$ 的分布函数定义为：

F_{X} (x) = P (X \leq x)

分布函数有三个基本性质：

单调不减。
右连续。
$lim_{x \to - \infty} F_{X} (x) = 0$ ， $lim_{x \to \infty} F_{X} (x) = 1$ 。

3.3 离散型随机变量

若 $X$ 只取可数个值 $x_{1}, x_{2}, \dots$ ，则概率质量函数为：

p_{X} (x_{i}) = P (X = x_{i})

并且

i \sum p_{X} (x_{i}) = 1

期望：

E [X] = i \sum x_{i} p_{X} (x_{i})

方差：

Var (X) = E [(X - E [X])^{2}]

常用等价形式推导：

令 $μ = E [X]$ ，则

Var (X) = E [(X - μ)^{2}]

展开：

E [(X - μ)^{2}] = E [X^{2} - 2 μ X + μ^{2}]

利用期望线性性：

= E [X^{2}] - 2 μ E [X] + μ^{2}

因为 $E [X] = μ$ ，所以

Var (X) = E [X^{2}] - μ^{2} = E [X^{2}] - (E [X])^{2}

3.4 连续型随机变量

若存在非负函数 $f_{X} (x)$ ，使得

F_{X} (x) = \int_{- \infty}^{x} f_{X} (t) d t

则 $X$ 是连续型随机变量， $f_{X}$ 是概率密度函数。

密度满足：

f_{X} (x) \geq 0, \int_{- \infty}^{\infty} f_{X} (x) d x = 1

区间概率：

P (a < X \leq b) = F_{X} (b) - F_{X} (a) = \int_{a}^{b} f_{X} (x) d x

连续型随机变量满足 $P (X = a) = 0$ ，但这不代表 $X = a$ 不可能发生；它表示单点概率质量为零。

期望：

E [X] = \int_{- \infty}^{\infty} x f_{X} (x) d x

方差：

Var (X) = \int_{- \infty}^{\infty} (x - E [X])^{2} f_{X} (x) d x

4. 常见分布与关键推导

4.1 Bernoulli 分布

一次成功/失败试验：

X \sim Bernoulli (p), P (X = 1) = p, P (X = 0) = 1 - p

期望：

E [X] = 1 \cdot p + 0 \cdot (1 - p) = p

二阶矩：

E [X^{2}] = 1^{2} \cdot p + 0^{2} \cdot (1 - p) = p

方差：

Var (X) = E [X^{2}] - (E [X])^{2} = p - p^{2} = p (1 - p)

4.2 二项分布

$n$ 次独立 Bernoulli 试验中成功次数：

X \sim Binomial (n, p)

概率质量函数：

P (X = k) = (k n) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n

推导：恰有 $k$ 次成功时，某一个固定顺序的概率为

p^{k} (1 - p)^{n - k}

而成功位置可以从 $n$ 个位置中选 $k$ 个，共 $(k n)$ 种，所以乘上组合数。

期望推导：令 $X_{i}$ 表示第 $i$ 次试验是否成功，则

X = X_{1} + X_{2} + \dots + X_{n}

其中 $X_{i} \sim Bernoulli (p)$ 。由期望线性性：

E [X] = i = 1 \sum n E [X_{i}] = n p

若试验相互独立，则方差可加：

Var (X) = i = 1 \sum n Var (X_{i}) = n p (1 - p)

4.3 几何分布

若 $X$ 表示第一次成功所需试验次数，则

$P (X = k) = (1 - p)^{k - 1} p, k = 1, 2, \dots$

归一化验证：

k = 1 \sum \infty (1 - p)^{k - 1} p = p j = 0 \sum \infty (1 - p)^{j} = p \cdot \frac{1}{p} = 1

期望推导：

E [X] = k = 1 \sum \infty k (1 - p)^{k - 1} p

利用幂级数

k = 1 \sum \infty k r^{k - 1} = \frac{1}{( 1 - r ) ^{2}}, ∣ r ∣ < 1

令 $r = 1 - p$ ，得

E [X] = p \cdot \frac{1}{p ^{2}} = \frac{1}{p}

几何分布具有无记忆性：

P (X > s + t ∣ X > s) = P (X > t)

推导：

P (X > s + t ∣ X > s) = \frac{P ( X > s + t )}{P ( X > s )}

而 $P (X > m) = (1 - p)^{m}$ ，所以

\frac{( 1 - p ) ^{s + t}}{( 1 - p ) ^{s}} = (1 - p)^{t} = P (X > t)

4.4 Poisson 分布

Poisson 分布常用于单位时间/空间内稀有事件次数：

X \sim Poisson (λ), P (X = k) = e^{- λ} \frac{λ ^{k}}{k !}, k = 0, 1, 2, \dots

归一化验证：

k = 0 \sum \infty e^{- λ} \frac{λ ^{k}}{k !} = e^{- λ} k = 0 \sum \infty \frac{λ ^{k}}{k !} = e^{- λ} e^{λ} = 1

期望推导：

E [X] = k = 0 \sum \infty k e^{- λ} \frac{λ ^{k}}{k !}

$k = 0$ 项为 $0$ ，从 $k = 1$ 开始：

E [X] = e^{- λ} k = 1 \sum \infty k \frac{λ ^{k}}{k !} = e^{- λ} k = 1 \sum \infty \frac{λ ^{k}}{( k - 1 )!}

提出一个 $λ$ ，令 $j = k - 1$ ：

E [X] = λ e^{- λ} j = 0 \sum \infty \frac{λ ^{j}}{j !} = λ

方差可用二阶阶乘矩推导。先算：

E [X (X - 1)] = k = 0 \sum \infty k (k - 1) e^{- λ} \frac{λ ^{k}}{k !}

从 $k = 2$ 开始：

E [X (X - 1)] = e^{- λ} k = 2 \sum \infty \frac{λ ^{k}}{( k - 2 )!} = λ^{2} e^{- λ} j = 0 \sum \infty \frac{λ ^{j}}{j !} = λ^{2}

又因为

X^{2} = X (X - 1) + X

所以

E [X^{2}] = λ^{2} + λ

方差为：

Var (X) = E [X^{2}] - (E [X])^{2} = λ

4.5 指数分布

指数分布常描述等待时间：

X \sim Exp (λ), f (x) = λ e^{- λ x}, x \geq 0

归一化：

\int_{0}^{\infty} λ e^{- λ x} d x = [- e^{- λ x}]_{0}^{\infty} = 1

分布函数：

F (x) = P (X \leq x) = \int_{0}^{x} λ e^{- λ t} d t = 1 - e^{- λ x}

尾概率：

P (X > x) = e^{- λ x}

无记忆性推导：

P (X > s + t ∣ X > s) = \frac{P ( X > s + t )}{P ( X > s )} = \frac{e ^{- λ (s + t)}}{e ^{- λ s}} = e^{- λ t} = P (X > t)

期望推导，使用分部积分：

E [X] = \int_{0}^{\infty} x λ e^{- λ x} d x

令 $u = x$ ， $d v = λ e^{- λ x} d x$ ，则 $d u = d x$ ， $v = - e^{- λ x}$ ：

E [X] = [- x e^{- λ x}]_{0}^{\infty} + \int_{0}^{\infty} e^{- λ x} d x = \frac{1}{λ}

4.6 正态分布

正态分布：

X \sim N (μ, σ^{2}), f (x) = \frac{1}{2 π σ} exp (- \frac{( x - μ ) ^{2}}{2 σ ^{2}})

标准化：

Z = \frac{X - μ}{σ} \sim N (0, 1)

标准正态密度：

φ (z) = \frac{1}{2 π} e^{- z^{2} /2}

标准正态归一化推导的关键是高斯积分：

I = \int_{- \infty}^{\infty} e^{- x^{2} /2} d x

平方后转成二维积分：

I^{2} = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} e^{- (x^{2} + y^{2}) /2} d x d y

用极坐标 $x = r cos θ, y = r sin θ$ ，Jacobian 为 $r$ ：

I^{2} = \int_{0}^{2 π} \int_{0}^{\infty} e^{- r^{2} /2} r d r d θ

内层令 $u = r^{2} /2$ ， $d u = r d r$ ：

I^{2} = 2 π \int_{0}^{\infty} e^{- u} d u = 2 π

所以

I = 2 π

因此 $φ (z)$ 前面的系数必须是 $1/ 2 π$ 。

5. 多维随机变量

5.1 联合分布

二维随机变量 $(X, Y)$ 的联合分布函数：

F_{X, Y} (x, y) = P (X \leq x, Y \leq y)

离散情形联合质量函数：

p_{X, Y} (x, y) = P (X = x, Y = y)

连续情形联合密度：

P ((X, Y) \in A) = \iint_{A} f_{X, Y} (x, y) d x d y

5.2 边缘分布

离散情形：

p_{X} (x) = y \sum p_{X, Y} (x, y), p_{Y} (y) = x \sum p_{X, Y} (x, y)

连续情形：

f_{X} (x) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y

f_{Y} (y) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x

边缘化的本质是“把不关心的变量积分或求和掉”。

5.3 条件分布

离散情形：

P (X = x ∣ Y = y) = \frac{P ( X = x , Y = y )}{P ( Y = y )}

连续情形的条件密度：

f_{X ∣ Y} (x ∣ y) = \frac{f _{X, Y} ( x , y )}{f _{Y} ( y )}, f_{Y} (y) > 0

5.4 独立随机变量

$X, Y$ 独立等价于：

F_{X, Y} (x, y) = F_{X} (x) F_{Y} (y)

若有密度，也等价于：

f_{X, Y} (x, y) = f_{X} (x) f_{Y} (y)

独立时，函数也独立：若 $X, Y$ 独立，则 $g (X)$ 与 $h (Y)$ 独立。

5.5 协方差与相关系数

协方差定义：

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

展开推导：

令 $μ_{X} = E [X]$ ， $μ_{Y} = E [Y]$ ：

Cov (X, Y) = E [X Y - X μ_{Y} - Y μ_{X} + μ_{X} μ_{Y}]

利用期望线性性：

= E [X Y] - μ_{Y} E [X] - μ_{X} E [Y] + μ_{X} μ_{Y}

代入 $E [X] = μ_{X}, E [Y] = μ_{Y}$ ：

Cov (X, Y) = E [X Y] - E [X] E [Y]

5.6 方差和公式

对两个随机变量：

Var (X + Y) = Var (X) + Var (Y) + 2 Cov (X, Y)

推导：

Var (X + Y) = E [((X - μ_{X}) + (Y - μ_{Y}))^{2}]

展开：

= E [(X - μ_{X})^{2}] + E [(Y - μ_{Y})^{2}] + 2 E [(X - μ_{X}) (Y - μ_{Y})]

所以得到公式。若 $X, Y$ 独立，则协方差为零，方差可加。

6. 随机变量变换

6.1 一维连续变换

若 $Y = g (X)$ ，且 $g$ 严格单调可微，反函数 $x = g^{- 1} (y)$ 存在，则

f_{Y} (y) = f_{X} (g^{- 1} (y)) \frac{d}{d y} g^{- 1} (y)

推导以单调递增为例：

F_{Y} (y) = P (Y \leq y) = P (g (X) \leq y) = P (X \leq g^{- 1} (y)) = F_{X} (g^{- 1} (y))

两边对 $y$ 求导：

f_{Y} (y) = f_{X} (g^{- 1} (y)) \frac{d}{d y} g^{- 1} (y)

若单调递减，导数为负，需要取绝对值保证密度非负。

6.2 多维变换与 Jacobian

若 $(U, V) = g (X, Y)$ 是一一可微变换，反变换为 $(X, Y) = h (U, V)$ ，则

f_{U, V} (u, v) = f_{X, Y} (x (u, v), y (u, v)) \frac{\partial ( x , y )}{\partial ( u , v )}

其中

\frac{\partial ( x , y )}{\partial ( u , v )} = \frac{\partial x}{\partial u} \frac{\partial y}{\partial u} \frac{\partial x}{\partial v} \frac{\partial y}{\partial v}

Jacobian 的作用是面积缩放因子：变量变换后，小区域面积会被拉伸或压缩。

7. 条件期望

7.1 条件期望定义

离散情形：

E [X ∣ Y = y] = x \sum x P (X = x ∣ Y = y)

连续情形：

E [X ∣ Y = y] = \int_{- \infty}^{\infty} x f_{X ∣ Y} (x ∣ y) d x

$E [X ∣ Y]$ 本身是 $Y$ 的函数，也是一个随机变量。

7.2 全期望公式

离散情形推导：

E [E [X ∣ Y]] = y \sum E [X ∣ Y = y] P (Y = y)

代入条件期望：

= y \sum (x \sum x P (X = x ∣ Y = y)) P (Y = y)

交换求和：

= x \sum x y \sum P (X = x ∣ Y = y) P (Y = y)

由全概率公式：

y \sum P (X = x ∣ Y = y) P (Y = y) = P (X = x)

所以

E [E [X ∣ Y]] = x \sum x P (X = x) = E [X]

这就是全期望公式：

E [X] = E [E [X ∣ Y]]

7.3 全方差公式

全方差公式：

Var (X) = E [Var (X ∣ Y)] + Var (E [X ∣ Y])

推导设 $m (Y) = E [X ∣ Y]$ 。把 $X - E [X]$ 分解为：

X - E [X] = (X - m (Y)) + (m (Y) - E [X])

平方取期望：

Var (X) = E [(X - m (Y))^{2}] + E [(m (Y) - E [X])^{2}] + 2 E [(X - m (Y)) (m (Y) - E [X])]

第一项是：

E [Var (X ∣ Y)]

第二项是：

Var (E [X ∣ Y])

交叉项为零，因为

E [X - m (Y) ∣ Y] = E [X ∣ Y] - m (Y) = 0

所以全方差公式成立。

直觉：总体不确定性 = 条件内部平均不确定性 + 条件均值之间的不确定性。

8. 矩母函数与特征函数

8.1 矩母函数

矩母函数定义：

M_{X} (t) = E [e^{tX}]

若在 $t = 0$ 附近存在，则可以生成各阶矩：

M_{X}^{(n)} (0) = E [X^{n}]

推导：

\frac{d ^{n}}{d t ^{n}} e^{tX} = X^{n} e^{tX}

在适当条件下可交换求导与期望：

M_{X}^{(n)} (t) = E [X^{n} e^{tX}]

令 $t = 0$ ，得到

M_{X}^{(n)} (0) = E [X^{n}]

8.2 特征函数

特征函数定义：

ϕ_{X} (t) = E [e^{i tX}]

特征函数总是存在，因为 $∣ e^{i tX} ∣ = 1$ 。它能唯一决定分布，是证明中心极限定理的重要工具。

若 $X, Y$ 独立，则 $X + Y$ 的特征函数为：

ϕ_{X + Y} (t) = E [e^{i t (X + Y)}] = E [e^{i tX} e^{i t Y}]

独立性给出乘积期望分解：

ϕ_{X + Y} (t) = E [e^{i tX}] E [e^{i t Y}] = ϕ_{X} (t) ϕ_{Y} (t)

9. 大数定律与中心极限定理

9.1 Markov 不等式

若 $X \geq 0$ ，则对 $a > 0$ ：

P (X \geq a) \leq \frac{E [ X ]}{a}

推导：

因为当 $X \geq a$ 时有 $X \geq a 1_{{X \geq a}}$ ，当 $X < a$ 时右边为 $0$ ，也有 $X \geq 0$ ，所以总体上：

X \geq a 1_{{X \geq a}}

取期望：

E [X] \geq a P (X \geq a)

移项得到结论。

9.2 Chebyshev 不等式

对任意随机变量 $X$ ，若方差存在，则

P (∣ X - E [X] ∣ \geq ε) \leq \frac{Var ( X )}{ε ^{2}}

推导：令 $Y = (X - E [X])^{2} \geq 0$ ，用 Markov 不等式：

P (Y \geq ε^{2}) \leq \frac{E [ Y ]}{ε ^{2}} = \frac{Var ( X )}{ε ^{2}}

而 $Y \geq ε^{2}$ 等价于 $∣ X - E [X] ∣ \geq ε$ 。

9.3 弱大数定律

设 $X_{1}, X_{2}, \dots$ 独立同分布， $E [X_{i}] = μ$ ， $Var (X_{i}) = σ^{2} < \infty$ 。样本均值

\overset{ˉ}{X}_{n} = \frac{1}{n} i = 1 \sum n X_{i}

则对任意 $ε > 0$ ：

P (∣ \overset{ˉ}{X}_{n} - μ ∣ \geq ε) \to 0

推导：

E [\overset{ˉ}{X}_{n}] = μ

由于独立，方差可加：

Var (\overset{ˉ}{X}_{n}) = Var (\frac{1}{n} i = 1 \sum n X_{i}) = \frac{1}{n ^{2}} i = 1 \sum n σ^{2} = \frac{σ ^{2}}{n}

用 Chebyshev 不等式：

P (∣ \overset{ˉ}{X}_{n} - μ ∣ \geq ε) \leq \frac{σ ^{2}}{n ε ^{2}} \to 0

这说明：大量独立重复观测的平均值会稳定到真实均值。

9.4 中心极限定理

设 $X_{1}, X_{2}, \dots$ 独立同分布，均值 $μ$ 、方差 $σ^{2}$ 有限且 $σ > 0$ ，则

\frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n} d N (0, 1)

等价地：

\frac{X ˉ _{n} - μ}{σ / n} d N (0, 1)

直觉：很多小的、独立的随机扰动相加，标准化后趋向正态分布。

用特征函数看推导骨架

令

Y_{i} = \frac{X _{i} - μ}{σ}

则 $E [Y_{i}] = 0$ ， $Var (Y_{i}) = 1$ 。要研究

S_{n} = \frac{1}{n} i = 1 \sum n Y_{i}

设 $Y_{i}$ 的特征函数为 $ϕ (t)$ 。由于 $E [Y_{i}] = 0, E [Y_{i}^{2}] = 1$ ，在 $0$ 附近有 Taylor 展开：

ϕ (t) = E [e^{i t Y}] = 1 - \frac{t ^{2}}{2} + o (t^{2})

$S_{n}$ 的特征函数为：

ϕ_{S_{n}} (t) = E [e^{i t \frac{1}{n} \sum Y_{i}}]

独立性使其分解为：

ϕ_{S_{n}} (t) = i = 1 \prod n E [e^{i (t / n) Y_{i}}] = [ϕ (\frac{t}{n})]^{n}

用展开：

ϕ (\frac{t}{n}) = 1 - \frac{t ^{2}}{2 n} + o (\frac{1}{n})

于是

[1 - \frac{t ^{2}}{2 n} + o (\frac{1}{n})]^{n} \to e^{- t^{2} /2}

而 $e^{- t^{2} /2}$ 是标准正态分布 $N (0, 1)$ 的特征函数，因此 $S_{n}$ 依分布收敛到标准正态。

10. 随机过程基础

10.1 定义

随机过程是一族随机变量：

{X_{t} : t \in T}

$T$ 是指标集合，通常表示时间。

若 $T = {0, 1, 2, \dots}$ ，称为离散时间随机过程。
若 $T = [0, \infty)$ ，称为连续时间随机过程。
若 $X_{t}$ 取值有限或可数，称为离散状态过程。
若 $X_{t}$ 取值连续，称为连续状态过程。

两个重要视角：

固定 $t$ ： $X_{t}$ 是随机变量。
固定 $ω$ ： $X_{t} (ω)$ 是一条随时间变化的样本路径。

10.2 有限维分布

随机过程的概率结构由任意有限个时间点的联合分布描述：

P (X_{t_{1}} \leq x_{1}, \dots, X_{t_{n}} \leq x_{n})

这些称为有限维分布。理论上，所有有限维分布加上相容性条件可以刻画一个随机过程。

10.3 均值函数与协方差函数

均值函数：

m_{X} (t) = E [X_{t}]

自协方差函数：

R_{X} (s, t) = Cov (X_{s}, X_{t}) = E [(X_{s} - m_{X} (s)) (X_{t} - m_{X} (t))]

自相关函数有时定义为：

C_{X} (s, t) = E [X_{s} X_{t}]

注意有些教材把 $R_{X}$ 用作自相关函数，需要看上下文。

10.4 平稳性

严平稳

若对任意 $n$ 、任意时间点 $t_{1}, \dots, t_{n}$ 和任意平移 $h$ ，有

(X_{t_{1}}, \dots, X_{t_{n}}) = d (X_{t_{1} + h}, \dots, X_{t_{n} + h})

则称过程严平稳。

严平稳要求所有有限维分布在时间平移下不变。

宽平稳

若满足：

$E [X_{t}] = μ$ 是常数。
$Cov (X_{s}, X_{t})$ 只依赖时间差 $t - s$ 。

则称过程宽平稳或二阶平稳。

宽平稳只关心一阶矩和二阶矩，比严平稳弱。若过程是高斯过程，则宽平稳通常足以推出严平稳，因为高斯过程由均值和协方差完全决定。

11. 离散时间马尔可夫链

11.1 Markov 性

离散时间随机过程 ${X_{n} : n = 0, 1, 2, \dots}$ 若满足：

P (X_{n + 1} = j ∣ X_{n} = i, X_{n - 1} = i_{n - 1}, \dots, X_{0} = i_{0}) = P (X_{n + 1} = j ∣ X_{n} = i)

则称为马尔可夫链。

直觉：给定现在，未来与过去无关。

若转移概率不随时间变化：

P (X_{n + 1} = j ∣ X_{n} = i) = p_{ij}

则称为齐次马尔可夫链。

11.2 转移矩阵

把 $p_{ij}$ 组成矩阵：

P = p_{11} p_{21} ⋮ p_{12} p_{22} ⋮ \dots \dots ⋱

每行和为 $1$ ：

j \sum p_{ij} = 1

若初始分布为行向量 $π^{(0)}$ ，则一步后的分布为：

π^{(1)} = π^{(0)} P

$n$ 步后：

π^{(n)} = π^{(0)} P^{n}

11.3 Chapman-Kolmogorov 方程推导

$n + m$ 步从 $i$ 到 $j$ ，可以按中间状态 $k$ 分解：

p_{ij}^{(n + m)} = P (X_{n + m} = j ∣ X_{0} = i)

插入第 $n$ 步状态：

p_{ij}^{(n + m)} = k \sum P (X_{n + m} = j, X_{n} = k ∣ X_{0} = i)

用条件概率：

= k \sum P (X_{n + m} = j ∣ X_{n} = k, X_{0} = i) P (X_{n} = k ∣ X_{0} = i)

由 Markov 性和齐次性：

P (X_{n + m} = j ∣ X_{n} = k, X_{0} = i) = P (X_{m} = j ∣ X_{0} = k) = p_{k j}^{(m)}

所以

p_{ij}^{(n + m)} = k \sum p_{ik}^{(n)} p_{k j}^{(m)}

矩阵形式：

P^{n + m} = P^{n} P^{m}

11.4 平稳分布

分布 $π$ 若满足：

π = π P, i \sum π_{i} = 1, π_{i} \geq 0

则称为平稳分布。

含义：如果 $X_{0} \sim π$ ，则

P (X_{1} = j) = i \sum P (X_{0} = i) p_{ij} = i \sum π_{i} p_{ij} = π_{j}

所以 $X_{1} \sim π$ 。进一步地，所有时刻分布都保持为 $π$ 。

11.5 二状态马尔可夫链例子

设状态为 $0, 1$ ，转移矩阵：

P = (1 - a b a 1 - b)

平稳分布 $π = (π_{0}, π_{1})$ 满足：

π_{0} = π_{0} (1 - a) + π_{1} b

π_{1} = π_{0} a + π_{1} (1 - b)

加上 $π_{0} + π_{1} = 1$ 。由第一式：

π_{0} a = π_{1} b

所以

\frac{π _{1}}{π _{0}} = \frac{a}{b}

结合归一化：

π_{0} = \frac{b}{a + b}, π_{1} = \frac{a}{a + b}

12. Poisson 过程

12.1 定义

计数过程 ${N (t) : t \geq 0}$ 若满足：

$N (0) = 0$ 。
独立增量：不相交时间区间内事件数相互独立。
平稳增量： $N (t + s) - N (s)$ 的分布只依赖 $t$ 。
小时间内一次事件概率约为 $λh$ ，多次事件概率为 $o (h)$ ：

P (N (h) = 1) = λh + o (h), P (N (h) \geq 2) = o (h)

则称 $N (t)$ 是强度为 $λ$ 的 Poisson 过程。

12.2 推导 $N (t) \sim Poisson (λ t)$

记

p_{k} (t) = P (N (t) = k)

考虑 $t$ 到 $t + h$ 的变化。由独立平稳增量：

p_{0} (t + h) = p_{0} (t) P (N (h) = 0) + o (h)

因为

P (N (h) = 0) = 1 - λh + o (h)

所以

p_{0} (t + h) = p_{0} (t) (1 - λh + o (h))

整理：

\frac{p _{0} ( t + h ) - p _{0} ( t )}{h} = - λ p_{0} (t) + o (1)

令 $h \to 0$ ：

p_{0}^{'} (t) = - λ p_{0} (t), p_{0} (0) = 1

解得：

p_{0} (t) = e^{- λ t}

对 $k \geq 1$ ，在 $t + h$ 时有 $k$ 个事件，主要来自两种互斥情况：

$t$ 时已有 $k$ 个， $(t, t + h]$ 中没有新事件。
$t$ 时已有 $k - 1$ 个， $(t, t + h]$ 中有一个新事件。

多于一个新事件是 $o (h)$ 。所以：

p_{k} (t + h) = p_{k} (t) (1 - λh) + p_{k - 1} (t) λh + o (h)

整理得微分方程：

p_{k}^{'} (t) = - λ p_{k} (t) + λ p_{k - 1} (t)

可以递推解出：

p_{k} (t) = e^{- λ t} \frac{( λ t ) ^{k}}{k !}

因此：

N (t) \sim Poisson (λ t)

12.3 到达间隔服从指数分布

令 $T_{1}$ 为第一次事件到达时间。则：

P (T_{1} > t) = P (N (t) = 0) = e^{- λ t}

因此：

F_{T_{1}} (t) = 1 - e^{- λ t}

所以

T_{1} \sim Exp (λ)

类似地，Poisson 过程的相邻到达间隔 $S_{1}, S_{2}, \dots$ 独立同分布，均为 $Exp (λ)$ 。这来自独立增量和无记忆性。

12.4 到达时间分布

第 $n$ 次到达时间：

T_{n} = S_{1} + S_{2} + \dots + S_{n}

其中 $S_{i} \sim ii d Exp (λ)$ 。所以 $T_{n}$ 服从 Erlang/Gamma 分布：

f_{T_{n}} (t) = \frac{λ ^{n} t ^{n - 1} e ^{- λ t}}{( n - 1 )!}, t \geq 0

也可由事件计数推导：

P (T_{n} \leq t) = P (N (t) \geq n)

因此

P (T_{n} > t) = P (N (t) \leq n - 1) = k = 0 \sum n - 1 e^{- λ t} \frac{( λ t ) ^{k}}{k !}

对 $t$ 求导即可得到密度。

13. 连续时间马尔可夫链

连续时间马尔可夫链 ${X (t) : t \geq 0}$ 满足连续时间版本的 Markov 性：

P (X (t + s) = j ∣ X (s) = i, 过去历史) = P (X (t + s) = j ∣ X (s) = i)

它由生成矩阵 $Q = (q_{ij})$ 描述，其中：

$q_{ij} \geq 0$ ， $i \neq = j$ 。
$q_{ii} = - \sum_{j \neq = i} q_{ij}$ 。
每行和为 $0$ 。

小时间转移近似：

P (X (t + h) = j ∣ X (t) = i) = q_{ij} h + o (h), i \neq = j

P (X (t + h) = i ∣ X (t) = i) = 1 + q_{ii} h + o (h)

转移矩阵函数 $P (t)$ 满足 Kolmogorov 前向方程：

P^{'} (t) = P (t) Q

若初始分布为 $π (0)$ ，则

π^{'} (t) = π (t) Q

平稳分布满足：

π Q = 0, i \sum π_{i} = 1

这与离散时间的 $π = π P$ 对应：连续时间中，平稳表示分布不再随时间变化，所以导数为零。

14. 更新过程

Poisson 过程可以看作指数间隔的更新过程。更一般地，若事件间隔

S_{1}, S_{2}, \dots

独立同分布且非负，定义到达时间

T_{n} = S_{1} + \dots + S_{n}

计数过程

N (t) = max {n : T_{n} \leq t}

称为更新过程。

若 $E [S_{1}] = μ$ ，长期平均到达率为：

\frac{N ( t )}{t} \to \frac{1}{μ}

直觉：每次更新平均花 $μ$ 时间，所以单位时间约发生 $1/ μ$ 次。

Poisson 过程是特殊情况，因为 $S_{i} \sim Exp (λ)$ ，于是 $μ = 1/ λ$ ，长期速率为 $λ$ 。

15. Brownian Motion 布朗运动

15.1 定义

标准布朗运动 ${B (t) : t \geq 0}$ 满足：

$B (0) = 0$ 。
独立增量：不相交区间上的增量相互独立。
平稳正态增量：

B (t) - B (s) \sim N (0, t - s), 0 \leq s < t

样本路径连续。

15.2 均值与方差

因为 $B (t) - B (0) \sim N (0, t)$ ，且 $B (0) = 0$ ，所以

B (t) \sim N (0, t)

于是

E [B (t)] = 0, Var (B (t)) = t

15.3 协方差函数推导

对 $0 \leq s \leq t$ ，有

B (t) = B (s) + (B (t) - B (s))

其中 $B (s)$ 与 $B (t) - B (s)$ 独立，且均值为零。于是

E [B (s) B (t)] = E [B (s) (B (s) + B (t) - B (s))]

展开：

= E [B (s)^{2}] + E [B (s) (B (t) - B (s))]

独立且均值为零给出第二项为零：

E [B (s) (B (t) - B (s))] = E [B (s)] E [B (t) - B (s)] = 0

所以

E [B (s) B (t)] = E [B (s)^{2}] = Var (B (s)) = s

因此

Cov (B (s), B (t)) = min (s, t)

15.4 布朗运动不是平稳过程

$B (t) \sim N (0, t)$ ，方差随 $t$ 增大，因此 $B (t)$ 的分布依赖时间，不是严平稳，也不是宽平稳。

但布朗运动的增量是平稳的，因为

B (t + h) - B (t) \sim N (0, h)

只依赖区间长度 $h$ 。

15.5 二次变差

把 $[0, t]$ 分成 $n$ 份：

0 = t_{0} < t_{1} < \dots < t_{n} = t

考虑平方增量和：

i = 1 \sum n (B (t_{i}) - B (t_{i - 1}))^{2}

当划分越来越细时，它收敛到 $t$ 。这叫布朗运动的二次变差：

[B]_{t} = t

这说明布朗运动路径虽然连续，但非常粗糙，通常处处不可导。普通微积分不能直接套用，因此需要 Itô 积分和随机微积分。

16. 高斯过程

随机过程 ${X_{t} : t \in T}$ 若任意有限维向量

(X_{t_{1}}, \dots, X_{t_{n}})

都服从多元正态分布，则称为高斯过程。

高斯过程完全由均值函数和协方差函数决定：

m (t) = E [X_{t}]

K (s, t) = Cov (X_{s}, X_{t})

布朗运动是高斯过程，因为任意有限个时间点的联合分布是多元正态。

常见协方差核：

线性核： $K (s, t) = s t$ 。
平方指数核： $K (s, t) = σ^{2} exp (- \frac{( s - t ) ^{2}}{2 ℓ ^{2}})$ 。
Ornstein-Uhlenbeck 核： $K (s, t) = \frac{σ ^{2}}{2 θ} e^{- θ ∣ t - s ∣}$ 。

协方差核必须半正定：对任意 $t_{1}, \dots, t_{n}$ 和任意实数 $a_{1}, \dots, a_{n}$ ，

i = 1 \sum n j = 1 \sum n a_{i} a_{j} K (t_{i}, t_{j}) \geq 0

原因是：

i, j \sum a_{i} a_{j} K (t_{i}, t_{j}) = Var (i \sum a_{i} X_{t_{i}}) \geq 0

17. 随机微积分入门

这一节只给核心直觉与最常用公式。

17.1 Itô 过程

常见随机微分方程写作：

d X_{t} = a (t, X_{t}) d t + b (t, X_{t}) d B_{t}

其中：

$a (t, X_{t})$ 是漂移项，描述确定性趋势。
$b (t, X_{t})$ 是扩散项，描述随机扰动强度。
$d B_{t}$ 是布朗运动增量。

积分形式是：

X_{t} = X_{0} + \int_{0}^{t} a (s, X_{s}) d s + \int_{0}^{t} b (s, X_{s}) d B_{s}

第二个积分是 Itô 积分。

17.2 Itô 公式

若

d X_{t} = a_{t} d t + b_{t} d B_{t}

且 $f (t, x)$ 足够光滑，则

df (t, X_{t}) = (\frac{\partial f}{\partial t} + a_{t} \frac{\partial f}{\partial x} + \frac{1}{2} b_{t}^{2} \frac{\partial ^{2} f}{\partial x ^{2}}) d t + b_{t} \frac{\partial f}{\partial x} d B_{t}

为什么多出二阶项？因为布朗运动的二次变差满足：

(d B_{t})^{2} \approx d t

普通微积分中二阶小量会忽略，但随机微积分中 $(d B_{t})^{2}$ 是一阶量级的 $d t$ 。

17.3 几何布朗运动

金融中常见模型：

d S_{t} = μ S_{t} d t + σ S_{t} d B_{t}

求解时令 $Y_{t} = ln S_{t}$ 。用 Itô 公式， $f (x) = ln x$ ，有

f^{'} (x) = \frac{1}{x}, f^{''} (x) = - \frac{1}{x ^{2}}

代入：

d ln S_{t} = \frac{1}{S _{t}} d S_{t} + \frac{1}{2} (- \frac{1}{S _{t}^{2}}) (σ^{2} S_{t}^{2}) d t

因为 $d S_{t} = μ S_{t} d t + σ S_{t} d B_{t}$ ，所以

d ln S_{t} = μ d t + σ d B_{t} - \frac{1}{2} σ^{2} d t

即

d ln S_{t} = (μ - \frac{1}{2} σ^{2}) d t + σ d B_{t}

积分得到：

ln S_{t} = ln S_{0} + (μ - \frac{1}{2} σ^{2}) t + σ B_{t}

因此

S_{t} = S_{0} exp [(μ - \frac{1}{2} σ^{2}) t + σ B_{t}]

18. 常见题型与解题模板

18.1 求概率

常用步骤：

明确样本空间与事件。
判断是否能用条件概率、全概率或 Bayes。
若涉及多个随机变量，写联合分布，再边缘化或条件化。
若连续型，画积分区域，再积分。

18.2 求期望

常用方法：

直接按定义求和或积分。
利用期望线性性。
用指示变量分解。
用全期望公式。
对非负变量使用尾和公式：

离散非负整数变量：

E [X] = k = 1 \sum \infty P (X \geq k)

连续非负变量：

E [X] = \int_{0}^{\infty} P (X > t) d t

连续版本推导：

E [X] = \int_{0}^{\infty} x f (x) d x

注意

x = \int_{0}^{x} d t

所以

E [X] = \int_{0}^{\infty} \int_{0}^{x} f (x) d t d x

交换积分次序：

= \int_{0}^{\infty} \int_{t}^{\infty} f (x) d x d t

内层就是 $P (X > t)$ ，因此

E [X] = \int_{0}^{\infty} P (X > t) d t

18.3 求随机过程分布

常用步骤：

固定时间 $t$ ，先求 $X_{t}$ 的边缘分布。
若要研究多个时间点，写联合分布或增量分解。
检查是否有独立增量、平稳增量、Markov 性。
对计数过程优先考虑 Poisson 过程。
对连续正态扰动优先考虑 Brownian motion 或高斯过程。

18.4 判断平稳性

步骤：

看 $E [X_{t}]$ 是否与 $t$ 无关。
看 $Var (X_{t})$ 是否与 $t$ 无关。
看 $Cov (X_{s}, X_{t})$ 是否只依赖 $t - s$ 。
若过程是高斯过程，二阶结构通常足以判断严平稳。
若不是高斯过程，需要检查所有有限维分布。

19. 一页速查

概率公式

P (A \cup B) = P (A) + P (B) - P (A \cap B)

P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}

P (A) = i \sum P (A ∣ B_{i}) P (B_{i})

P (B_{j} ∣ A) = \frac{P ( A ∣ B _{j} ) P ( B _{j} )}{\sum _{i} P ( A ∣ B _{i} ) P ( B _{i} )}

期望与方差

Var (X) = E [X^{2}] - (E [X])^{2}

Cov (X, Y) = E [X Y] - E [X] E [Y]

Var (X + Y) = Var (X) + Var (Y) + 2 Cov (X, Y)

E [X] = E [E [X ∣ Y]]

Var (X) = E [Var (X ∣ Y)] + Var (E [X ∣ Y])

常见分布

Bernoulli (p) : E [X] = p, Var (X) = p (1 - p)

Binomial (n, p) : E [X] = n p, Var (X) = n p (1 - p)

Poisson (λ) : P (X = k) = e^{- λ} \frac{λ ^{k}}{k !}, E [X] = Var (X) = λ

Exp (λ) : f (x) = λ e^{- λ x}, E [X] = \frac{1}{λ}, Var (X) = \frac{1}{λ ^{2}}

N (μ, σ^{2}) : f (x) = \frac{1}{2 π σ} exp (- \frac{( x - μ ) ^{2}}{2 σ ^{2}})

随机过程

m_{X} (t) = E [X_{t}]

R_{X} (s, t) = Cov (X_{s}, X_{t})

马尔可夫链：

P (X_{n + 1} = j ∣ X_{n} = i, past) = P (X_{n + 1} = j ∣ X_{n} = i)

平稳分布：

π = π P

Poisson 过程：

N (t) \sim Poisson (λ t)

布朗运动：

B (t) - B (s) \sim N (0, t - s)

Cov (B (s), B (t)) = min (s, t)

20. 推荐练习顺序

用条件概率和 Bayes 公式做疾病检测、抽球、通信误码题。
用指示变量求组合计数期望，例如生日问题、随机图边数。
手推二项、Poisson、指数、正态的期望和方差。
练习二维密度积分区域，尤其是变量变换和 Jacobian。
用 Chebyshev 不等式证明弱大数定律。
用特征函数理解中心极限定理。
给定转移矩阵，求马尔可夫链的 $n$ 步转移概率和平稳分布。
从 Poisson 过程定义推导 $N (t)$ 分布和到达间隔分布。
推导布朗运动的协方差函数，判断它是否平稳。
用 Itô 公式解几何布朗运动。

21. 学习建议

概率论最容易卡住的地方不是公式多，而是“条件”与“随机对象”层级容易混。建议每做一道题都问三件事：

当前的随机对象是什么？事件、随机变量，还是随机过程？
已知条件改变了哪个样本空间或哪个条件分布？
独立性是否真的成立？如果成立，是事件独立、随机变量独立，还是增量独立？

随机过程部分尤其要区分：

$X_{t}$ 的边缘分布。
$(X_{t_{1}}, \dots, X_{t_{n}})$ 的联合分布。
一条样本路径的性质。
增量 $X_{t} - X_{s}$ 的性质。

把这四件事分清，马尔可夫链、Poisson 过程和布朗运动会清楚很多。

Blog1

探索

概率论与随机过程教程

概率论与随机过程教程

0. 学习路线

1. 概率空间

1.1 样本空间与事件

1.2 概率公理

1.3 常用概率公式推导

补事件公式

加法公式

2. 条件概率、全概率公式与 Bayes 公式

2.1 条件概率

2.2 全概率公式

2.3 Bayes 公式

2.4 独立性

3. 随机变量与分布

3.1 随机变量

3.2 分布函数

3.3 离散型随机变量

3.4 连续型随机变量

4. 常见分布与关键推导

4.1 Bernoulli 分布

4.2 二项分布

4.3 几何分布

4.4 Poisson 分布

4.5 指数分布

4.6 正态分布

5. 多维随机变量

5.1 联合分布

5.2 边缘分布

5.3 条件分布

5.4 独立随机变量

5.5 协方差与相关系数

5.6 方差和公式

6. 随机变量变换

6.1 一维连续变换

6.2 多维变换与 Jacobian

7. 条件期望

7.1 条件期望定义

7.2 全期望公式

7.3 全方差公式

8. 矩母函数与特征函数

8.1 矩母函数

8.2 特征函数

9. 大数定律与中心极限定理

9.1 Markov 不等式

9.2 Chebyshev 不等式

9.3 弱大数定律

9.4 中心极限定理

用特征函数看推导骨架

10. 随机过程基础

10.1 定义

10.2 有限维分布

10.3 均值函数与协方差函数

10.4 平稳性

严平稳

宽平稳

11. 离散时间马尔可夫链

11.1 Markov 性

11.2 转移矩阵

11.3 Chapman-Kolmogorov 方程推导

11.4 平稳分布

11.5 二状态马尔可夫链例子

12. Poisson 过程

12.1 定义

12.2 推导 N(t)∼Poisson(λt)

12.3 到达间隔服从指数分布

12.4 到达时间分布

13. 连续时间马尔可夫链

14. 更新过程

15. Brownian Motion 布朗运动

15.1 定义

15.2 均值与方差

15.3 协方差函数推导

15.4 布朗运动不是平稳过程

15.5 二次变差

16. 高斯过程

17. 随机微积分入门

17.1 Itô 过程

12.2 推导 $N (t) \sim Poisson (λ t)$