Blog1

标签: 多模态

此标签下有46条笔记。

2026年5月16日
EmotiCrafter，EmoAgent，Affective Image Editing
2026年4月30日
CLAP: Learning Audio Concepts From Natural Language Supervision
2026年4月30日
Emu3.5: Native Multimodal Models are World Learners
2026年4月30日
GPT-4 Technical Report
2026年4月30日
GPT-4o System Card
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
2026年4月30日
Kimi-VL Technical Report
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
2026年4月30日
Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
2026年4月30日
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
2026年4月30日
ObjEmbed: Towards Universal Multimodal Object Embeddings
2026年4月30日
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
2026年4月30日
SAIL-Embedding: Omni-modal Embedding Foundation Model
2026年4月30日
Seedream 4.0: Toward Next-generation Multimodal Image Generation
2026年4月30日
Show-o2: Improved Native Unified Multimodal Models
2026年4月30日
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
2026年4月30日
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
2026年4月30日
CLIP 对比语言图像预训练
2026年4月30日
多模态 Agent
2026年4月30日
GPT-4o
2026年4月30日
Kimi 系列模型
2026年4月30日
多模态模型的最终形态是原生统一还是模块化组装
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
2026年4月30日
Kimi-VL Technical Report
2026年4月30日
Emerging Properties in Unified Multimodal Pretraining
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
2025年7月13日
Adding Conditional Control to Text-to-Image Diffusion Models
2025年7月13日
InstructPix2Pix: Learning to Follow Image Editing Instructions
2025年7月10日
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
2025年7月10日
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
2025年7月10日
GoT：Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
2025年7月10日
ImgEdit: A Unified Image Editing Dataset and Benchmark
2025年7月10日
OminiControl：Minimal and Universal Control for Diffusion Transformer
2025年7月10日
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
2025年7月10日
Step1X-Edit：A Practical Framework for General Image Editing
2025年7月10日
UltraEdit：Instruction-based Fine-Grained Image Editing at Scale
2025年7月10日
EmoEdit：Evoking Emotions through Image Manipulation

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community