Qwen3-VL 技术报告

1. 基本信息

标题: Qwen3-VL Technical Report
作者: Shuai Bai et al.（Qwen Team，阿里巴巴）
机构: 阿里巴巴集团
年份: 2025
论文来源: arXiv:2511.21631
模型家族: 4 个 Dense 变体（2B/4B/8B/32B）+ 2 个 MoE 变体（30B-A3B/235B-A22B）
许可: Apache 2.0

2. 核心论点

纯文本能力不退化: 多模态训练不应削弱 LLM 的语言能力；Qwen3-VL 在多个纯文本基准上达到甚至超过同系列纯文本模型，实现了视觉与语言能力的真正融合。
原生长上下文支持: 原生支持 256K token 的交错多模态上下文（文本+图像+视频），在长文档和长视频理解任务上表现突出，30 分钟视频内 Needle-in-a-Haystack 达到 100% 准确率。
多模态推理领先: 在 MMMU、MathVista、MathVision 等综合评测中取得 SOTA 或接近 SOTA 的表现，Thinking 模式在数学和逻辑推理任务上优势明显。
架构三重升级: Interleaved MRoPE（平衡频谱的位置编码）、DeepStack（多层视觉特征融合）、文本时间戳（替代绝对时间编码），三项改进共同提升了时空建模能力。
Dense + MoE 全尺寸覆盖: 从 2B 边缘部署到 235B-A22B 旗舰模型，覆盖不同延迟-质量权衡需求，且 MoE 架构在同等 token 预算下表现优异。

3. 关键技术方法（相比 Qwen2.5-VL 的改进）

3.1 架构改进

Interleaved MRoPE: Qwen2.5-VL 的 MRoPE 将嵌入维度分为时间(t)、水平(h)、垂直(w)三组，导致频谱不均衡。Qwen3-VL 改为交错分配，使每个时空轴在低频和高频段均匀表示，显著改善长视频的位置建模。
DeepStack 跨层融合: 从 ViT 中间层提取三个不同层级的视觉特征，通过专用 merger 投影后直接注入 LLM 前三层的隐藏状态，保留从低级到高级的丰富视觉信息，不增加上下文长度。
文本时间戳替代绝对时间编码: Qwen2.5-VL 用 MRoPE 绝对时间做视频对齐，长视频产生过大且稀疏的时间位置 ID。Qwen3-VL 改用显式文本时间戳 token（如 <3.0 seconds>），同时训练秒格式和 HMS 格式，更精确地捕获时序信息。
平方根重加权损失: 从逐样本损失改为平方根归一化的逐 token 损失，更好地平衡文本和多模态数据的训练贡献。

3.2 视觉编码器

基于 SigLIP-2 架构继续训练，支持动态输入分辨率，使用 2D-RoPE 和绝对位置嵌入插值。小模型（2B/4B）使用 SigLIP2-Large（300M），其余使用 SigLIP2-SO-400M。
消融实验表明自研 Qwen3-ViT 在 OmniBench 等基准上优于原始 SigLIP-2。

3.3 训练流程

预训练（4 阶段）:

阶段	目标	可训练参数	Token 预算	序列长度
S0	视觉-语言对齐	仅 Merger	67B	8K
S1	多模态预训练	全部	~1T	8K
S2	长上下文预训练	全部	~1T	32K
S3	超长上下文适配	全部	100B	262K

后训练（3 阶段）:

SFT: 32K 上下文训练 + 256K 长上下文扩展；分为 non-thinking 和 thinking（CoT）两种格式
强到弱蒸馏: 从强教师模型蒸馏到轻量学生模型，使用纯文本数据微调 LLM backbone
强化学习: 分为 Reasoning RL（数学、代码、逻辑、grounding 等可验证任务，使用 SAPO 算法）和 General RL（指令遵循、偏好对齐、纠正错误先验）

3.4 数据创新

图像描述: 使用 Qwen2.5-VL-32B 重标注，语义去重 + 聚类增强低频概念
OCR: 从 10 种语言扩展到 39 种语言，3000 万多样本
文档解析: 统一标注框架 QwenVL-HTML / QwenVL-Markdown
Grounding: 归一化坐标系 [0, 1000]，支持框和点两种模态
3D 理解: 单目图像 3D 框预测，统一虚拟相机坐标系
代码: 多模态代码数据（UI 截图转 HTML/CSS、图像转 SVG、视觉编程挑战等）
视频: 短到长描述合成策略，时序密集标注，长度自适应采样
Agent: GUI 交互数据（桌面/移动/网页）、函数调用轨迹、搜索增强

3.5 Thinking with Images

受”用图像思考”启发，通过两阶段训练赋予模型视觉代理能力：think → act → analyze feedback → answer。使用多轮工具集成 RL，包含答案准确性奖励、多轮推理奖励和工具调用奖励。

4. 主要结果

旗舰模型（235B-A22B）

多模态推理: MathVista mini 85.8、MathVision 74.6、MMMU 80.6，在多个基准上超过 Gemini 2.5 Pro 和 GPT-5
通用 VQA: MMBench-EN 89.3、RealWorldQA 81.3、MMStar 78.7
文档理解: DocVQA 97.1、InfoVQA 89.2、OCRBench 920、MMLongBenchDoc 57.0（SOTA）
Grounding: RefCOCO-avg 92.1、CountBench 93.7、ODinW-13 48.6 mAP
空间理解: EmbSpatialBench 84.3、RefSpatialBench 69.9、RoboSpatialHome 73.9，大幅领先 Gemini-2.5-Pro
视频理解: MVBench 76.5、Video-MME 79.2、MLVU 84.3
对齐: HallusionBench 66.7（超过 Gemini/GPT-5/Claude）、MIA-Bench 92.7
纯文本推理: AIME-25 89.7（Thinking）、LiveCodeBench v6 70.1（Thinking），超过 OpenAI o3

中等模型（32B / 30B-A3B）

Qwen3-VL-32B 超过 Gemini-2.5-Flash 和 GPT-5-mini，甚至超过上一代 Qwen2.5-VL-72B
MoE 变体 30B-A3B 仅激活 3B 参数即可达到竞争力表现

小模型（2B/4B/8B）

Qwen3-VL-8B 在所有小模型基准上取得最高分，AIME-25 Thinking 达到 80.3
体现了强到弱蒸馏的有效性

长上下文能力

256K token 窗口内视频 Needle-in-a-Haystack 100% 准确率
YaRN 扩展到 1M token（约 2 小时视频）仍保持 99.5% 准确率

5. 局限性

评测公平性受限: 视频评测中各模型输入帧数不一致（Gemini 512、GPT-5 256、Claude 100），可能影响比较的公平性。
3D Grounding 仍有提升空间: Hypersim 基准上得分仅 11-14，SUN RGB-D 34-39，表明复杂室内 3D 场景理解仍是挑战。
ZeroBench 表现一般: 旗舰模型在 ZeroBench 上仅 2-4 分，说明极端视觉推理仍有瓶颈。
Agent 任务差距: OSWorld 得分 38.1（235B），与专用 Agent 系统相比仍有明显差距，GUI Agent 的可靠性和泛化性有待提高。
生成能力缺失: 报告聚焦于理解任务，未涉及图像/视频生成能力，统一理解-生成架构仍在探索中。
训练成本: 预训练约 2T+ token，使用最多 10,000 GPU，计算资源需求巨大。

6. 与相关工作的关系

vs Qwen2.5-VL: 直接继承者，在架构（Interleaved MRoPE、DeepStack、文本时间戳）、数据（39 种语言 OCR、3D grounding、Agent 数据）和训练策略（平方根损失、4 阶段预训练、RL）上全面升级。Qwen3-VL-32B 已超过 Qwen2.5-VL-72B。
vs Gemini 2.5 Pro: 旗舰模型在多数多模态基准上与之持平或超越，空间理解（RefSpatial、RoboSpatial）大幅领先；纯文本推理 Thinking 模式接近或超过 o3。
vs GPT-5: 在 OCR/文档理解（DocVQA、InfoVQA、ChartQA）上明显领先；数学推理（MathVista、MathVision）也占优；Agent 任务上差距较小。
vs Claude Opus 4.1: 在 HallusionBench、MIA-Bench 等对齐基准上显著领先；文档和 grounding 任务优势明显。
DeepStack: 原始方法（Meng et al., 2024）用于多尺度视觉输入堆叠，Qwen3-VL 将其扩展为从 ViT 中间层提取特征，保留多层级视觉信息。
MRoPE: 源自 Qwen2-VL，本工作通过交错分配解决频谱不均衡问题，参考了 Huang et al. (2025) 的方法。
SAPO: 使用自研的 Soft Adaptive Policy Optimization（Gao et al., 2025）进行 RL 训练，在多种任务和模型规模上表现一致。

Blog1

探索

Qwen3-VL 技术报告

Qwen3-VL 技术报告

1. 基本信息

2. 核心论点

3. 关键技术方法（相比 Qwen2.5-VL 的改进）

3.1 架构改进

3.2 视觉编码器

3.3 训练流程

3.4 数据创新

3.5 Thinking with Images

4. 主要结果

旗舰模型（235B-A22B）

中等模型（32B / 30B-A3B）

小模型（2B/4B/8B）

长上下文能力

5. 局限性

6. 与相关工作的关系

关系图谱

目录

反向链接