YOLO 目标检测

核心结论

Joseph Redmon 等提出 YOLO（You Only Look Once），将目标检测重新定义为回归问题：单个神经网络直接从全图一次性预测 bounding box 和类别概率。YOLO 是第一个实现实时目标检测的统一框架，Base 版本 45 FPS，Fast 版本 155 FPS（当时其他方法的两倍 mAP），且对艺术品的泛化能力远超 DPM 和 R-CNN。

关键事实

作者：Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi，2015
核心思路：将检测视为回归——输入整张图，输出 S×S 网格上每个格子的 B 个 bounding box + C 个类别概率
架构：24 卷积层 + 2 全连接层（受 GoogleNet 启发）
速度：45 FPS（Base）、155 FPS（Fast YOLO，更小网络）
泛化能力：在 Picasso 和 People-Art 数据集上大幅超越其他检测器

方法或论证路径

网格划分：图像分为 S×S 网格，每个格子负责检测中心落在其中的物体
联合损失：位置损失、置信度损失、分类损失的加权组合
局限性：定位误差较大（尤其是小物体），但假阳性（false positive）极少
对比：与 R-CNN 的二阶段检测（proposal + 分类）形成”一阶段 vs 二阶段”的方法论对立

与现有 Wiki 的关系

关联：目标检测基础
补充：YOLO 是一阶段检测的开创者，后续 YOLOv2~v10 持续演进至今仍是实时检测主流方案

可能的矛盾或待核实点

YOLO 的”小物体检测差”被后续版本逐步修复（特征金字塔、多尺度训练等）
论文声称的定位误差劣势在多大程度上是方法固有的 vs 被后续迭代解决的

后续问题

YOLO 与 DETR 类模型在 2024+ 年最新版本上的性能对比
YOLO 在非 RGB 模态（热成像、红外）中的适用性

Blog1

探索

You Only Look Once: Unified, Real-Time Object Detection

YOLO 目标检测

核心结论

关键事实

方法或论证路径

与现有 Wiki 的关系

可能的矛盾或待核实点

后续问题

关系图谱

目录

反向链接