Blog1
Search
搜索
暗色模式
亮色模式
探索
标签: 统一模型
此标签下有11条笔记。
2026年4月30日
FLUX.1 Kontext: Flow Matching Rectified Transformer for Unified Image Generation and Editing
论文
图像生成
图像编辑
流匹配
Rectified-Flow
统一模型
DiT
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
DiMOO
GRPO
图像生成
Params
2026年4月30日
Show-o2: Improved Native Unified Multimodal Models
论文
多模态
统一模型
自回归
Flow-Matching
视频生成
原生多模态
Params
Data
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
论文
多模态
统一模型
Encoder-Free
Flow-Matching
像素空间
MAE
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
论文
多模态
统一模型
语义编码器
SigLIP
图像编辑
Flow-Matching
2026年4月30日
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
论文
多模态
统一模型
综述
扩散模型
自回归模型
离散扩散
Tokenization
2026年4月30日
多模态模型的最终形态是原生统一还是模块化组装
多模态
原生多模态
架构
统一模型
2026年4月30日
Emerging Properties in Unified Multimodal Pretraining
论文
多模态
统一模型
MoT
Flow-Matching
涌现
图像生成
图像编辑
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
LLaDA
图像生成
图像编辑
Self-GRPO
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
论文
多模态
统一模型
Encoder-Free
像素嵌入
图像生成
图像编辑
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
论文
多模态
统一模型
语义编码器
SigLIP
图像编辑
Flow-Matching