Blog1

标签: MLLM

此标签下有11条笔记。

2026年4月30日
Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
2026年4月30日
GoT
2026年4月30日
Step1X-Edit
2026年4月30日
VisionCreator
2026年4月30日
Aes-R1: Unlocking the Essence of Beauty — Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization
2026年4月30日
AIEdiT: Affective Image Editing Shaping Emotional Factors via Text Descriptions
2026年4月30日
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
2026年4月30日
Magic-MM-Embedding
2026年4月30日
Step1X-Edit: A Practical Framework for General Image Editing
2026年4月30日
VisionCreator: A Native Visual-Generation Agentic Model

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community