Blog1

❯

❯

❯

Qwen2.5 VL 技术报告

Qwen2.5-VL 技术报告

2026年5月07日9分钟阅读

vlm
qwen
alibaba
multimodal
vision-language

Qwen2.5-VL 技术报告

基本信息

标题: Qwen2.5-VL Technical Report
作者: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song 等 (Core Contributors); An Yang, Binyuan Hui, Bowen Yu 等 (Contributors)
机构: Qwen Team, Alibaba Group
年份: 2025
arXiv: 2502.13923
模型规模: 3B / 7B / 72B 三种尺寸

核心论点

细粒度视觉感知是 LVLM 的基础层：Qwen2.5-VL 专注于探索细粒度感知能力，包括精确的目标定位（bounding box 和 point）、文档解析和长视频理解，为 LVLM 奠定坚实基础。
原生动态分辨率处理：不同于传统方法对坐标进行归一化，模型直接使用输入图像的实际尺寸来表示空间特征，使模型能够内在地学习尺度信息。
绝对时间编码：通过将 MRoPE 的时间分量与绝对时间对齐，模型能够理解不同 FPS 采样率视频中的时间动态，实现秒级事件定位。
预训练数据大幅扩展：预训练语料从 Qwen2-VL 的 1.2 万亿 token 扩展到 4.1 万亿 token，涵盖图像描述、交错图文数据、OCR、视觉知识、定位数据、文档解析数据、视频和 Agent 数据。
Agent 能力增强：通过统一的函数调用格式和多步轨迹数据，模型在计算机和移动设备操作方面展现出强大的 Agent 能力。

关键技术方法

视觉编码器 (Vision Encoder)

架构设计：重新设计的 ViT，采用 2D-RoPE 和窗口注意力机制
窗口注意力：大多数层使用窗口注意力（最大窗口 112x112，对应 8x8 patches），仅 4 层使用全自注意力，计算复杂度从二次降为线性
Patch 划分：stride 为 14 的 patch 划分；视频使用 3D patch 分区，连续两帧分组
架构对齐 LLM：采用 RMSNorm 和 SwiGLU 激活函数
训练策略：从头训练，经历 CLIP 预训练、视觉-语言对齐和端到端微调阶段

动态分辨率与帧率

空间维度：动态将不同尺寸图像转换为对应长度的 token 序列
时间维度：动态 FPS 训练和绝对时间编码，适应可变帧率
输入处理：图像高度和宽度调整为 28 的倍数后输入 ViT

多模态旋转位置编码 (MRoPE)

三维度分解：将位置编码分解为时间、高度和宽度三个分量
文本输入：三个分量使用相同位置 ID，等效于传统 1D RoPE
图像输入：时间 ID 不变，高度和宽度根据空间位置分配
视频输入：时间 ID 随帧递增，且与绝对时间对齐

视觉-语言融合 (MLP-based Merger)

将相邻 4 个 patch 特征分组，通过两层 MLP 投影到与文本嵌入对齐的维度
有效压缩图像特征序列长度，降低计算成本

预训练数据构建

交错图文数据：四阶段评分系统（文本质量、图文相关性、图文互补性、信息密度平衡）
定位数据：使用绝对坐标，支持超过 10,000 个物体类别
文档解析数据：统一 HTML 格式表示（含表格、图表、公式、乐谱、化学式等）
OCR 数据：多语言支持（法语、德语、意大利语、西班牙语、阿拉伯语、日语、韩语等）
视频数据：动态 FPS 采样，超过半小时的长视频专门构建
Agent 数据：统一移动、Web 和桌面平台的操作为函数调用格式

后训练 (Post-training)

SFT 阶段：约 200 万条数据，纯文本和多模态各占 50%
数据过滤：两阶段流水线（领域分类 + 领域定制过滤）
拒绝采样：用于增强推理能力，特别是数学和代码任务
DPO 阶段：基于偏好数据的对齐优化

主要结果

综合能力

MMMU val: 70.2 (72B)，与 GPT-4o (69.1) 和 Claude 3.5 Sonnet (68.3) 相当
MathVista mini: 74.8 (72B)，超过前代开源 SOTA (72.3)
MMBench-EN: 88.6 (72B)，超过 InternVL2.5 (88.3)

文档理解与 OCR

DocVQA test: 96.4 (72B)，超越所有对比模型
InfoVQA test: 87.3 (72B)，大幅领先 InternVL2.5 (84.1)
OCRBench: 885 (72B)，超过 InternVL2.5 (854)
OCRBench v2: 英文 61.5 / 中文 63.7 (72B)，大幅超过 Gemini 1.5-Pro

空间理解

RefCOCO val: 92.7 (72B)，接近 Grounding DINO (90.6)
ODinW: 43.1 mAP (72B)，超越大多数 LVLM
CountBench: 93.6 (72B)，超过所有对比模型

视频理解

LVBench: 47.3 (72B)，大幅超过 GPT-4o (30.8)
MLVU M-Avg: 74.6 (72B)，超过 GPT-4o (64.6)
Charades-STA mIoU: 50.9 (72B)，超过 GPT-4o (35.7)
EgoSchema test: 76.2 (72B)，超过 GPT-4o (72.2)

Agent 能力

ScreenSpot Pro: 43.6 (72B)，大幅超过 Aguvis-72B (23.6)
Android Control Low EM: 93.7 (72B)，超过所有对比模型
AndroidWorld SR: 35% (72B)，无需 SoM 标记即可完成任务
MobileMiniWob++ SR: 68% (72B)，超过 GPT-4o (61%)

纯文本任务

MMLU-Pro: 71.2 (72B)，与 Qwen2.5-72B (71.1) 持平
MATH: 83.0 (72B)，与 Qwen2.5-72B (83.1) 持平
HumanEval: 87.8 (72B)，超过 Llama-3.1-70B (80.5)
LiveBench: 57.0 (72B)，超过所有对比的纯 LLM

局限性

视觉幻觉问题：在 HallBench 上得分 55.2 (72B)，低于 Qwen2-VL (58.1)，表明视觉幻觉问题可能未完全解决。
长视频理解仍有提升空间：在 LongVideoBench val 上得分 60.7 (72B)，低于 GPT-4o (66.7) 和 Gemini 1.5-Pro (64.0)。
某些专业领域：在 MMVU val 上得分 62.9 (72B)，低于 GPT-4o (67.4) 和 Gemini 1.5-Pro (65.4)，表明在某些专业视频理解任务上仍有差距。
OSWorld 任务：得分 8.83 (72B)，虽然超过 Qwen2-VL (2.42) 和 Gemini 2.0 (4.70)，但与 Claude (14.90) 仍有较大差距。
模态对齐挑战：论文承认在 CoT 推理中实现最优模态对齐仍是持续挑战。

与相关工作的关系

与 Qwen2-VL 的关系

直接继承者，在 Qwen2-VL 基础上进行全面升级
预训练数据从 1.2T 扩展到 4.1T tokens
MRoPE 从相对时间 ID 升级为绝对时间对齐
ViT 从头训练，引入窗口注意力机制

与 GPT-4o 和 Claude 3.5 Sonnet 的关系

72B 模型在多数基准上匹配或超越这些闭源模型
在文档理解和图表理解方面表现尤为突出
Agent 能力与这些模型相当或更优

与 InternVL2.5 的关系

在多数基准上超越 InternVL2.5-78B
在 OCR 和文档解析方面优势明显
在视频理解和 Agent 任务上也有显著优势

与 Grounding DINO 和 Molmo 的关系

在目标定位任务上接近专业检测模型 Grounding DINO
点定位能力与 Molmo 72B 相当
计数能力超过所有对比模型

架构创新位置

窗口注意力 ViT：借鉴了 Swin Transformer 的思想，但针对多模态场景重新设计
动态分辨率：继承并扩展了 Qwen2-VL 的理念
绝对时间编码：对 MRoPE 的重要改进，区别于其他使用文本时间戳或额外头的方法

关系图谱

Qwen2.5-VL 技术报告
基本信息
核心论点
关键技术方法
视觉编码器 (Vision Encoder)
动态分辨率与帧率
多模态旋转位置编码 (MRoPE)
视觉-语言融合 (MLP-based Merger)
预训练数据构建
后训练 (Post-training)
主要结果
综合能力
文档理解与 OCR
空间理解
视频理解
Agent 能力
纯文本任务
局限性
与相关工作的关系
与 Qwen2-VL 的关系
与 GPT-4o 和 Claude 3.5 Sonnet 的关系
与 InternVL2.5 的关系
与 Grounding DINO 和 Molmo 的关系
架构创新位置

反向链接

index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community