Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: multimodal
此标签下有26条笔记。
2026年5月11日
GPT-4 Technical Report
GPT-4
multimodal
scaling
safety
OpenAI
2026年5月11日
GPT-4o System Card
GPT-4o
omni-modal
safety
multimodal
OpenAI
2026年5月07日
Emu3 原生多模态模型
multimodal
native
next-token-prediction
unified-model
emu
2026年5月07日
Gen-Searcher
image-generation
agent
reinforcement-learning
search
multimodal
GRPO
2026年5月07日
Qwen-Image 技术报告
image-generation
qwen
alibaba
diffusion
multimodal
text-rendering
image-editing
2026年5月07日
Qwen2.5-VL 技术报告
vlm
qwen
alibaba
multimodal
vision-language
2026年5月07日
Qwen3-VL 技术报告
vlm
qwen
alibaba
multimodal
vision-language
reasoning
long-context
moe
2026年5月07日
Qwen3-VL-Embedding and Reranker
embedding
retrieval
reranker
multimodal
qwen
alibaba
vlm
2026年5月07日
Seedance 2.0 视频生成
video-generation
diffusion
bytedance
seed
multimodal
audio-video
2026年5月07日
Thinking with Visual Primitives
visual-reasoning
image-generation
primitives
multimodal
spatial-grounding
counting
topological-reasoning
2026年5月07日
Unify-Agent
image-generation
agent
multimodal
world-grounded
unified-model
2026年5月07日
VLM2Vec-V2
embedding
multimodal
video
image
document
retrieval
2026年4月30日
GPT 系列代际比较
comparison
GPT
OpenAI
LLM
multimodal
scaling
2026年4月30日
多模态 Embedding 模型比较
embedding
comparison
multimodal
2026年4月30日
多模态 Embedding 模型
embedding
multimodal
retrieval
contrastive-learning
2026年4月30日
多模态对比学习
contrastive-learning
multimodal
CLIP
SigLIP
2026年4月30日
Agent AI: Surveying the Horizons of Multimodal Interaction
agent
multimodal
embodied-AI
survey
2026年4月30日
CLAP: Learning Audio Concepts From Natural Language Supervision
contrastive-learning
audio
multimodal
zero-shot
2026年4月30日
Magic-MM-Embedding
embedding
multimodal
MLLM
token-compression
2026年4月30日
ObjEmbed: Towards Universal Multimodal Object Embeddings
embedding
multimodal
object-detection
region-level
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
embedding
multimodal
video-retrieval
document-retrieval
2026年4月30日
Seedream 4.0: Toward Next-generation Multimodal Image Generation
Seedream
image-generation
image-editing
multimodal
DiT
flow-matching
acceleration
2026年4月30日
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
multimodal
comprehension
generation
benchmark
multi-turn
interleaved
2026年4月30日
多模态 Embedding 与检索
embedding
multimodal
retrieval
2026年4月29日
多模态指令编辑与生成
image-editing
image-generation
multimodal
diffusion
2026年4月29日
DreamOmni2: Multimodal Instruction-based Editing and Generation
image-editing
image-generation
diffusion
multimodal
VLM
DiT