Blog1

标签: VLM

此标签下有7条笔记。

  • 2026年4月30日

    Kimi-VL Technical Report

    • 论文
    • 多模态
    • VLM
    • MoE
    • OCR
    • Agent
    • 长上下文
    • MoonViT
  • 2026年4月30日

    olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

    • 论文
    • OCR
    • 文档解析
    • VLM
    • PDF
    • 开源
    • 语言模型训练数据
  • 2026年4月30日

    PDF 文档解析

    • PDF
    • OCR
    • document-parsing
    • VLM
  • 2026年4月30日

    Kimi-VL Technical Report

    • VLM
    • 多模态
    • Kimi
    • MoE
    • MoonViT
  • 2026年4月30日

    OmniDocBench: Benchmarking Diverse PDF Document Parsing

    • benchmark
    • document-parsing
    • PDF
    • VLM
  • 2026年4月30日

    olmOCR: Unlocking Trillions of Tokens in PDFs with VLMs

    • PDF
    • OCR
    • VLM
    • toolkit
    • open-source
  • 2026年4月29日

    DreamOmni2: Multimodal Instruction-based Editing and Generation

    • image-editing
    • image-generation
    • diffusion
    • multimodal
    • VLM
    • DiT

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community