Kimi-VL 技术报告

核心结论

  • Kimi-VL 是 2.8B 激活参数的 MoE 视觉语言模型(VLM),以极小参数量在多项 VLM benchmarks 上达到 SOTA。
  • 提出 MoonViT 原生分辨率编码器,结合 NaViT packing 技术,支持原生分辨率输入而无需统一缩放。
  • 支持 128K 上下文长度,可处理长文档、多页 PDF 等多帧多页视觉输入。
  • 推出 Kimi-VL-Thinking 变体:在 VL 基础上叠加长链 CoT SFT + RL,实现视觉推理能力。
  • 证明了小参数 MoE VLM 可以通过架构创新和训练策略达到甚至超越大模型的性能。

关键事实

  • 架构:2.8B 激活参数的 MoE VLM。
  • 视觉编码器:MoonViT 原生分辨率 + NaViT packing。
  • 上下文:128K tokens。
  • Thinking 变体:long-CoT SFT + RL,带有思维链推理能力。
  • 在多模态 benchmarks(MMBench、MME、DocVQA 等)达到 SOTA。

方法或论证路径

  • MoonViT 原生分辨率避免了图像缩放带来的信息损失,NaViT 将不同尺寸的图像打包为统一 batch。
  • 小 MoE 设计在计算效率和性能之间取得平衡:2.8B 激活参数即可匹配更大模型。
  • Thinking 变体验证了推理能力训练范式(SFT + RL)在多模态场景下同样有效。

与现有 Wiki 的关系

可能的矛盾或待核实点

  • 2.8B 激活参数是否在所有场景下都能超过大模型,特别是在复杂视觉推理任务中?
  • NaViT packing 的效率在实践中是否受 GPU 内存布局影响?

后续问题

  • Kimi-VL-Thinking 与 K2.5 的关系:是否共享视觉 backbone?
  • MoonViT 与 ViT 标准版本的具体架构差异?