目标检测基础

概述

目标检测是计算机视觉的核心任务，旨在同时定位和识别图像中的物体。该领域存在两条主要技术路线：一阶段检测（YOLO 系列）和二阶段检测 / 基于 Transformer 的端到端检测（DETR 系列）。

两大范式

一阶段检测：YOLO

核心思想：将检测定义为回归问题——单次前向传播直接从图像预测 bounding box 和类别
优势：极快（实时，45-155 FPS），适合实时场景
劣势：早期版本小物体定位误差大
代表：YOLO (2015) → YOLOv2~v10 → YOLOv11（持续演进至今）
来源：YOLO 目标检测

二阶段 / Transformer 端到端检测：DETR 家族

DETR (2020)：首次将 Transformer 引入检测，端到端摒弃 NMS
Deformable DETR：引入可变形注意力加速收敛
DN-DETR：去噪训练加速收敛
DINO (2022)：三项创新（对比式去噪训练 + 混合查询选择 + 双层前视），大幅提升性能（ResNet-50 COCO 51.3 AP）
来源：DINO DETR 目标检测

两条路线的对比

维度	YOLO 系列	DETR/DINO 系列
范式	一阶段回归	Transformer 端到端
速度	极快（45-155 FPS）	较慢（需多轮 decoder）
精度	中高（持续提升）	高（63.2 AP SwinL）
NMS	早期版本需要	无需（端到端集合预测）
小物体	早期版本差（后续改进）	较好
扩展性	CNN backbone	ViT/Swin backbone
部署	轻量友好	需优化（可压缩）

技术演进的关键分叉

Anchor-based → Anchor-free：从预设 anchor 到直接预测，YOLO 早期 grid-based，DETR 用 learned queries
NMS → End-to-End：DETR 的 Hungarian matching 消除了手工后处理
CNN → Transformer：DETR 证明了 Transformer 在检测中的有效性
实时性追赶：RT-DETR 等后续工作试图让 DETR 类模型达到实时

开放问题

DETR 类模型在边缘设备上的部署效率是否能赶上 YOLO？
统一的检测架构（一套模型同时覆盖 two-stage 的精度和 one-stage 的速度）是否可能？

来源

YOLO 目标检测
DINO DETR 目标检测
关联：Vision Transformer 演进、Swin Transformer