Blog1

标签: MLLM

此标签下有11条笔记。

  • 2026年4月30日

    Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs

    • 论文
    • 多模态
    • 嵌入模型
    • 检索
    • MLLM
    • 视觉token压缩
  • 2026年4月30日

    RzenEmbed: Towards Comprehensive Multimodal Retrieval

    • 论文
    • 多模态
    • 检索
    • 嵌入
    • 对比学习
    • MLLM
  • 2026年4月30日

    GoT

    • image-generation
    • image-editing
    • reasoning
    • chain-of-thought
    • MLLM
  • 2026年4月30日

    Step1X-Edit

    • image-editing
    • MLLM
    • diffusion
    • open-source
    • benchmark
  • 2026年4月30日

    VisionCreator

    • image-generation
    • agent
    • MLLM
    • reinforcement-learning
    • Tencent
  • 2026年4月30日

    Aes-R1: Unlocking the Essence of Beauty — Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization

    • aesthetic
    • IAA
    • reasoning
    • RL
    • MLLM
  • 2026年4月30日

    AIEdiT: Affective Image Editing Shaping Emotional Factors via Text Descriptions

    • emotion
    • image-editing
    • affective-computing
    • MLLM
  • 2026年4月30日

    GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

    • image-generation
    • image-editing
    • reasoning
    • chain-of-thought
    • MLLM
    • diffusion
  • 2026年4月30日

    Magic-MM-Embedding

    • embedding
    • multimodal
    • MLLM
    • token-compression
  • 2026年4月30日

    Step1X-Edit: A Practical Framework for General Image Editing

    • image-editing
    • MLLM
    • diffusion
    • benchmark
    • open-source
  • 2026年4月30日

    VisionCreator: A Native Visual-Generation Agentic Model

    • image-generation
    • agent
    • MLLM
    • reinforcement-learning
    • Tencent

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community