目标检测基础
概述
目标检测是计算机视觉的核心任务,旨在同时定位和识别图像中的物体。该领域存在两条主要技术路线:一阶段检测(YOLO 系列)和二阶段检测 / 基于 Transformer 的端到端检测(DETR 系列)。
两大范式
一阶段检测:YOLO
- 核心思想:将检测定义为回归问题——单次前向传播直接从图像预测 bounding box 和类别
- 优势:极快(实时,45-155 FPS),适合实时场景
- 劣势:早期版本小物体定位误差大
- 代表:YOLO (2015) → YOLOv2~v10 → YOLOv11(持续演进至今)
- 来源:YOLO 目标检测
二阶段 / Transformer 端到端检测:DETR 家族
- DETR (2020):首次将 Transformer 引入检测,端到端摒弃 NMS
- Deformable DETR:引入可变形注意力加速收敛
- DN-DETR:去噪训练加速收敛
- DINO (2022):三项创新(对比式去噪训练 + 混合查询选择 + 双层前视),大幅提升性能(ResNet-50 COCO 51.3 AP)
- 来源:DINO DETR 目标检测
两条路线的对比
| 维度 | YOLO 系列 | DETR/DINO 系列 |
|---|---|---|
| 范式 | 一阶段回归 | Transformer 端到端 |
| 速度 | 极快(45-155 FPS) | 较慢(需多轮 decoder) |
| 精度 | 中高(持续提升) | 高(63.2 AP SwinL) |
| NMS | 早期版本需要 | 无需(端到端集合预测) |
| 小物体 | 早期版本差(后续改进) | 较好 |
| 扩展性 | CNN backbone | ViT/Swin backbone |
| 部署 | 轻量友好 | 需优化(可压缩) |
技术演进的关键分叉
- Anchor-based → Anchor-free:从预设 anchor 到直接预测,YOLO 早期 grid-based,DETR 用 learned queries
- NMS → End-to-End:DETR 的 Hungarian matching 消除了手工后处理
- CNN → Transformer:DETR 证明了 Transformer 在检测中的有效性
- 实时性追赶:RT-DETR 等后续工作试图让 DETR 类模型达到实时
开放问题
- DETR 类模型在边缘设备上的部署效率是否能赶上 YOLO?
- 统一的检测架构(一套模型同时覆盖 two-stage 的精度和 one-stage 的速度)是否可能?