目标检测基础

概述

目标检测是计算机视觉的核心任务,旨在同时定位和识别图像中的物体。该领域存在两条主要技术路线:一阶段检测(YOLO 系列)和二阶段检测 / 基于 Transformer 的端到端检测(DETR 系列)。

两大范式

一阶段检测:YOLO

  • 核心思想:将检测定义为回归问题——单次前向传播直接从图像预测 bounding box 和类别
  • 优势:极快(实时,45-155 FPS),适合实时场景
  • 劣势:早期版本小物体定位误差大
  • 代表:YOLO (2015) → YOLOv2~v10 → YOLOv11(持续演进至今)
  • 来源:YOLO 目标检测

二阶段 / Transformer 端到端检测:DETR 家族

  • DETR (2020):首次将 Transformer 引入检测,端到端摒弃 NMS
  • Deformable DETR:引入可变形注意力加速收敛
  • DN-DETR:去噪训练加速收敛
  • DINO (2022):三项创新(对比式去噪训练 + 混合查询选择 + 双层前视),大幅提升性能(ResNet-50 COCO 51.3 AP)
  • 来源:DINO DETR 目标检测

两条路线的对比

维度YOLO 系列DETR/DINO 系列
范式一阶段回归Transformer 端到端
速度极快(45-155 FPS)较慢(需多轮 decoder)
精度中高(持续提升)高(63.2 AP SwinL)
NMS早期版本需要无需(端到端集合预测)
小物体早期版本差(后续改进)较好
扩展性CNN backboneViT/Swin backbone
部署轻量友好需优化(可压缩)

技术演进的关键分叉

  1. Anchor-based → Anchor-free:从预设 anchor 到直接预测,YOLO 早期 grid-based,DETR 用 learned queries
  2. NMS → End-to-End:DETR 的 Hungarian matching 消除了手工后处理
  3. CNN → Transformer:DETR 证明了 Transformer 在检测中的有效性
  4. 实时性追赶:RT-DETR 等后续工作试图让 DETR 类模型达到实时

开放问题

  • DETR 类模型在边缘设备上的部署效率是否能赶上 YOLO?
  • 统一的检测架构(一套模型同时覆盖 two-stage 的精度和 one-stage 的速度)是否可能?

来源