You Only Look Once: Unified, Real-Time Object Detection

一句话总结：YOLO（You Only Look Once）首次将目标检测建模为单一的回归问题——从整张图像到边界框坐标和类别概率的端到端预测，以 45 FPS 的实时速度（Fast YOLO 达到 155 FPS）开创了单阶段目标检测范式，在速度上大幅超越了以 R-CNN 为代表的传统两阶段方法。

Intro

Motivation

在 YOLO 之前，目标检测的主流范式是将检测问题拆分为多个阶段：

R-CNN 系列：区域提议 → 特征提取 → 分类 → 边界框回归
DPM（Deformable Part Models）：滑窗 + 分类器

这些方法的共同问题是：

慢：多个组件各自独立优化，无法端到端，推理速度难以实时
复杂：需要手工设计的组件（如 Selective Search、非极大值抑制 NMS）
不够全局：分类器只看局部区域，缺少对整张图像的上下文理解

核心主张

YOLO 的根本创新在于：将目标检测重新定义为一个回归问题——直接从图像像素预测边界框和类别概率。

这带来了几个革命性的变化：

端到端可微：整个 pipeline 是一个神经网络，可以直接在检测性能上优化
极快：单次前向传播即可完成检测
全局推理：预测时网络”看到”整张图像，而不是局部候选区域，背景误检率极低

贡献

提出 YOLO，第一个统一且实时的单阶段目标检测器
将检测建模为回归问题，消除手工设计的 pipeline 组件
45 FPS（base）/ 155 FPS（Fast YOLO）
泛化能力强：在艺术品检测（Picasso Dataset、People-Art Dataset）上大幅超越 DPM 和 R-CNN

Method 核心方法

Figure 1: YOLO 统一检测框架——将整张图像划分为 S×S 网格，每个网格预测 B 个边界框和 C 个类别概率，最终输出 S×S×(B5+C) 维张量。整张图像经过单次 CNN 前向传播即可得到所有检测结果，实现了端到端可微的实时目标检测。*

1. 统一检测框架

YOLO 的核心思想极其简洁：

将输入图像划分为 S × S 的网格（grid），如 7×7
每个网格负责预测 B 个边界框（bounding box）和对应的置信度
每个网格同时预测 C 个类别的条件概率
最终输出是一个 S × S × (B*5 + C) 维的张量

每个边界框的预测：5 个值 (x, y, w, h, confidence)

(x, y)：边界框中心相对于网格单元的坐标
(w, h)：边界框的宽度和高度，相对于整张图像
confidence：Pr(Object) × IoU（是否包含物体 × 预测框与真实框的 IoU）

每个网格的类别预测：C 个条件概率 Pr(Class_i | Object)

训练时的目标分配：网格中物体的中心落在哪个网格，该网格就负责预测这个物体。

2. 网络架构

YOLO 的架构受 GoogLeNet（Inception）启发：

24 个卷积层 + 2 个全连接层
使用 1×1 卷积进行降维，3×3 卷积提取特征
Fast YOLO：9 个卷积层，更少的 filter，追求极致速度

Figure 2: YOLO 检测结果示例——在 PASCAL VOC 数据集上的定性检测结果。YOLO 能够检测出图像中的多种物体（人、车、动物等），但由于 7×7 粗粒度网格的限制，小物体和密集物体的定位精度相对较差。

3. 损失函数：多部分加权 Sum-Squared Error

YOLO 优化的核心挑战：大多数网格不含物体（背景）→如果对所有网格等权，背景的置信度损失会主导训练。

损失函数五部分：

部分	权重	范围	说明
坐标 (x, y)	λ_coord=5	仅含物体的网格	定位精度至关重要——高权重
尺寸 (w, h)	λ_coord=5	仅含物体的网格	但对大框惩罚相同于小框→对小物体不公
含物体的置信度	1	仅含物体的网格	Pr(Object)×IoU 应→1
不含物体的置信度	λ_noobj=0.5	仅不含物体的网格	降低权重防主导训练
类别	1	仅含物体的网格	条件概率 Pr(Class

关键设计：

对 w, h 取平方根后再计算 SSE——部分缓解大框/小框偏差不一致问题（大框的 w 误差 10px vs 小框的 w 误差 10px）
NMS 后处理尽管声称”端到端”，但推理时仍需 NMS 去重——这是 YOLO 相比现代端到端检测器（如 DETR）的主要局限

4. 训练细节

配置	值
预训练	ImageNet 1000 类（前 20 卷积层 + AvgPool + FC），224²
检测训练	分辨率提升至 448²（double resolution for fine details）
优化器	SGD，momentum 0.9，weight decay 5e-4
学习率	初始 1e-3 → 逐步衰减
数据增强	随机缩放/平移（达原图 20%）+ HSV 色彩空间扰动
正则化	Dropout（0.5，第一个 FC 后）

5. 设计局限分析

问题	根因	后续改进
空间约束过强	每个网格最多预测 B=2 个框→密集小物体场景受限	YOLOv2+ 使用 anchor boxes
定位误差大	全连接层直接预测坐标，无锚框精调	后续版本引入 anchor-based
小物体召回低	7×7 粗网格+全图特征（无 FPN 多尺度）	YOLOv3 引入 FPN 式多尺度

4. 推理

单次前向传播输出所有预测
NMS（非极大值抑制）用于去除重叠的重复检测框（虽然是”端到端”，但仍需 NMS 后处理）

实验/评估/结果

PASCAL VOC 2007 检测

模型	mAP	FPS
Fast R-CNN	70.0%	0.5
Faster R-CNN VGG-16	73.2%	7
YOLO	63.4%	45
Fast YOLO	52.7%	155
YOLO + Fast R-CNN 后处理	75.0%	~10

YOLO 在速度上遥遥领先，但 mAP 低于两阶段方法。

PASCAL VOC 2012

模型	mAP
Fast R-CNN	68.4%
YOLO	57.9%

泛化实验

Picasso Dataset（艺术画中的人物检测）：

YOLO 的 AP 远高于 R-CNN 和 DPM
原因：YOLO 学到了更一般的”物体性”表征，而不是局部纹理特征

People-Art Dataset：

同样的跨域泛化优势

错误分析

相比 Fast R-CNN，YOLO 的错误分布有鲜明特征：

定位错误（localization error）：YOLO 更多——因为网格划分粗糙，对小物体和密集物体的边界框预测不够精确
背景误检（false positive on background）：YOLO 少得多（约一半）——因为”看到”了整张图，能利用全局上下文区分前景和背景

结论

YOLO 开创了单阶段实时目标检测的范式——将检测简化为回归问题，以极致的速度和简洁性为代价换取了一定的精度损失（主要是定位精度）。其对视觉特征的泛化能力（跨域从真实照片到艺术品）暗示了回归式检测具有优良的语义学习特性。YOLO 引发了庞大的后续工作系列（YOLOv2 到 YOLOv10），成为工业部署中最广泛使用的目标检测框架之一。

思考

优点

开创性范式：YOLO 是单阶段目标检测的开山之作。将检测视为回归这一思路看似简单，但在 2015 年是极具颠覆性的。它直接挑战了”区域提议是必需的”这一当时的主流认知。
工程价值巨大：45-155 FPS 的实时检测能力使 YOLO 成为第一个真正可部署的 AI 检测系统，深刻影响了自动驾驶、视频监控、AR 等应用。
全局推理的优势：YOLO 利用整张图像进行预测，对背景的错误分类远少于基于局部候选区域的 R-CNN。这个洞察至今适用：全局上下文是检测质量的关键。
泛化能力：在艺术品检测上的优异表现不是偶然——回归式学习可能比分类式学习提取了更本质的视觉表征。

缺点与局限

定位精度差：7×7 的粗粒度网格 + 每个网格 2 个框的设计导致对小物体和密集物体的定位很差。后续 YOLOv2/v3 通过引入 anchor boxes 和多尺度预测解决了这个问题。
小物体检测困难：每个网格最多检测 B 个物体，当多个小物体落在一个网格中时必然漏检。
不自然的空间约束：每个网格预测的边界框受限于网格位置（中心必须在网格内），这对横跨多个网格的大物体是一种不合理约束。
mAP 不如两阶段方法：在精度上无法与 Faster R-CNN 竞争。后续的 YOLOv4-v10 通过大量改进（CSPNet、PANet、Mish、数据增强等）才逐步缩小并最终反超。

与已有 Wiki 的连接

关联概念：目标检测、单阶段检测器、边界框回归、非极大值抑制、端到端学习
关联实体：R-CNN、Fast R-CNN、Faster R-CNN、YOLO 系列
关联论文：DINO DETR
关联比较：单阶段 vs 两阶段目标检测器

Blog1

探索