Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: 多模态
此标签下有46条笔记。
2026年5月11日
EmotiCrafter,EmoAgent,Affective Image Editing
多模态
情感
AIM
C-EICG
2026年4月30日
CLAP: Learning Audio Concepts From Natural Language Supervision
论文
音频理解
对比学习
多模态
zero-shot
2026年4月30日
Emu3.5: Native Multimodal Models are World Learners
论文
多模态
原生多模态
世界模型
自回归
扩散模型
GRPO
图像生成
Tokens
2026年4月30日
GPT-4 Technical Report
论文
大语言模型
多模态
GPT-4
RLHF
Safety
2026年4月30日
GPT-4o System Card
论文
多模态
安全
GPT-4o
System-Card
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
论文
多模态
Agent
RL
Agent-Swarm
并行Agent
视觉推理
MoE
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
论文
推理
RL
长上下文
多模态
训练基础设施
Long2Short
2026年4月30日
Kimi-VL Technical Report
论文
多模态
VLM
MoE
OCR
Agent
长上下文
MoonViT
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
DiMOO
GRPO
图像生成
Params
2026年4月30日
Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
论文
多模态
嵌入模型
检索
MLLM
视觉token压缩
2026年4月30日
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
论文
OCR
Benchmark
多模态
LMM
文字识别
文本定位
推理
2026年4月30日
ObjEmbed: Towards Universal Multimodal Object Embeddings
论文
多模态
目标检测
嵌入
对比学习
开放词汇
2026年4月30日
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
论文
文档解析
Benchmark
OCR
PDF
多模态
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
论文
多模态
图像生成
图像编辑
In-Context生成
GRPO
指令对齐
Omni-RoPE
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
论文
多模态
检索
嵌入
对比学习
MLLM
2026年4月30日
SAIL-Embedding: Omni-modal Embedding Foundation Model
论文
多模态
嵌入模型
推荐系统
抖音
工业部署
音频
2026年4月30日
Seedream 4.0: Toward Next-generation Multimodal Image Generation
论文
图像生成
图像编辑
多模态
多图生成
高效DiT
VAE
2026年4月30日
Show-o2: Improved Native Unified Multimodal Models
论文
多模态
统一模型
自回归
Flow-Matching
视频生成
原生多模态
Params
Data
2026年4月30日
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
论文
多模态
视觉编码器
对比学习
多语言
密集预测
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
论文
多模态
统一模型
Encoder-Free
Flow-Matching
像素空间
MAE
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
论文
多模态
统一模型
语义编码器
SigLIP
图像编辑
Flow-Matching
2026年4月30日
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
论文
多模态
统一模型
综述
扩散模型
自回归模型
离散扩散
Tokenization
2026年4月30日
CLIP 对比语言图像预训练
CLIP
多模态
对比学习
零样本
视觉语言
OpenAI
2026年4月30日
多模态 Agent
Agent
多模态
Kimi
DeepSeek
工具使用
2026年4月30日
GPT-4o
GPT-4o
OpenAI
多模态
omni
LLM
2026年4月30日
Kimi 系列模型
Kimi
Moonshot
LLM
MoE
多模态
Agent
2026年4月30日
多模态模型的最终形态是原生统一还是模块化组装
多模态
原生多模态
架构
统一模型
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
多模态
Agent
Kimi
视觉
RL
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
RL
推理模型
Kimi
long2short
多模态
2026年4月30日
Kimi-VL Technical Report
VLM
多模态
Kimi
MoE
MoonViT
2026年4月30日
Emerging Properties in Unified Multimodal Pretraining
论文
多模态
统一模型
MoT
Flow-Matching
涌现
图像生成
图像编辑
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
LLaDA
图像生成
图像编辑
Self-GRPO
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
论文
多模态
图像生成
图像编辑
In-Context生成
GRPO
指令对齐
Omni-RoPE
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
论文
多模态
统一模型
Encoder-Free
像素嵌入
图像生成
图像编辑
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
论文
多模态
统一模型
语义编码器
SigLIP
图像编辑
Flow-Matching
2025年7月13日
Adding Conditional Control to Text-to-Image Diffusion Models
论文
多模态
U-Net
2025年7月13日
InstructPix2Pix: Learning to Follow Image Editing Instructions
论文
多模态
数据集
U-Net
2025年7月10日
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
论文
多模态
数据集
U-Net
2025年7月10日
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
论文
多模态
U-Net
数据集
2025年7月10日
GoT:Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
论文
多模态
Diffusion_Models
U-Net
数据集
思维链
2025年7月10日
ImgEdit: A Unified Image Editing Dataset and Benchmark
论文
多模态
DiT
数据集
2025年7月10日
OminiControl:Minimal and Universal Control for Diffusion Transformer
论文
多模态
Diffusion_Models
DiT
数据集
2025年7月10日
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
论文
多模态
数据集
BenchMark
2025年7月10日
Step1X-Edit:A Practical Framework for General Image Editing
论文
多模态
Diffusion_Models
DiT
数据集
2025年7月10日
UltraEdit:Instruction-based Fine-Grained Image Editing at Scale
论文
多模态
Diffusion_Models
数据集
U-Net
2025年7月10日
EmoEdit:Evoking Emotions through Image Manipulation
多模态
情感
AIM
论文
数据集
U-Net