Wiki Index

Overview

overview — 当前知识库总览。

Sources

llm-wiki — Karpathy 的 LLM 维护知识库模式，本 Wiki 的架构基础。原文：llm-wiki.md。更新：2026-04-29
DDPM 扩散模型奠基论文 — DDPM (2020, Ho et al.)，扩散模型奠基，前向/反向过程、简化训练目标。原文：Denoising Diffusion Probabilistic Models。更新：2026-04-30
Flow Matching 生成建模 — Flow Matching (2023, Meta)，CNF 训练范式，OT 路径替代扩散路径。原文：Flow Matching for Generative Modeling。更新：2026-04-30
Normalizing Flows 归一化流 — 归一化流综述 (2019, Kobyzev et al.)，可逆变换、Jacobian 行列式、耦合/自回归/连续流架构全景。原文：Normalizing Flows: An Introduction and Review of Current Methods。更新：2026-05-07
FLUX.1 Kontext 上下文编辑 — FLUX.1 Kontext (2025, BFL)，flow matching 序列拼接统一生成与编辑。原文：FLUX.1 Kontext Flow Matching for In-Context Image Generation and Editing in Latent Space。更新：2026-04-30
Seedream 2.0 中英双语图像生成 — Seedream 2.0 (2025, ByteDance)，中英双语图像生成基础模型。原文：Seedream 2.0 A Native Chinese-English Bilingual Image Generation Foundation Model。更新：2026-04-30
Seedream 3.0 技术报告 — Seedream 3.0 (2025, ByteDance)，全面能力升级，4-8 倍加速。原文：Seedream 3.0 Technical Report。更新：2026-04-30
Seedream 4.0 多模态图像生成 — Seedream 4.0 (2025, ByteDance)，多模态统一生成框架，10 倍加速。原文：Seedream 4.0 Toward Next-generation Multimodal Image Generation。更新：2026-04-30
Transformer — Transformer 原始论文：纯注意力机制替代 RNN/CNN。原文：Attention Is All You Need.md。更新：2026-04-30
PyTorch 深度学习框架 — PyTorch 设计哲学：命令式、Pythonic、Worse is Better。原文：PyTorch An Imperative Style, High-Performance Deep Learning Library.md。更新：2026-04-30
BERT — 双向 Transformer 编码器预训练，开创预训练+微调范式。原文：BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.md。更新：2026-04-30
GPT-2 — 1.5B 参数，零样本任务迁移，语言模型即无监督多任务学习器。原文：Language Models are Unsupervised Multitask Learners。更新：2026-05-07
GPT-3 — 175B 参数，in-context learning 的规模化验证。原文：Language Models are Few-Shot Learners.md。更新：2026-04-30
InstructGPT — RLHF 对齐方法：SFT→RM→PPO 三阶段流程。原文：Training language models to follow instructions with human feedback.md。更新：2026-04-30
LLaMA — 仅用公开数据训练的 7B-65B 高效模型。原文：LLaMA Open and Efficient Foundation Language Models.md。更新：2026-04-30
Chinchilla 缩放定律 — 计算最优缩放：参数与数据应等比例增长。原文：Training Compute-Optimal Large Language Models.md。更新：2026-04-30
GPT-4 — 多模态输入、human-level 考试、predictable scaling。原文：GPT-4 Technical Report.md。更新：2026-04-30
GPT-4o — 全模态 omni 模型，端到端训练，语音低延迟。原文：GPT-4o System Card.md。更新：2026-04-30
OpenAI o1 System Card — OpenAI o1：推理链驱动安全对齐，deliberative alignment，CoT 可监控性，Preparedness Framework 分级管控。原文：OpenAI o1 System Card。更新：2026-05-07
Llama 3 — 405B dense，15T 数据，DPO 对齐，开源 GPT-4 级。原文：The Llama 3 Herd of Models.md。更新：2026-04-30
RoPE — 旋转位置编码，融合绝对位置与相对位置依赖。原文：RoFormer Enhanced Transformer with Rotary Position Embedding.md。更新：2026-04-30
LoRA 低秩适配 — 参数高效微调：冻结预训练权重，注入可训练秩分解矩阵。原文：LoRA Low-Rank Adaptation of Large Language Models.md。更新：2026-04-30
RAG 检索增强生成 — 将参数化与非参数化记忆结合用于知识密集型任务。原文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.md。更新：2026-04-30
MoE 稀疏门控混合专家层 — MoE 开山之作：Google Brain 首次实现条件计算的稀疏门控专家层。原文：Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer.md。更新：2026-04-30
Switch Transformer — 万亿参数 MoE：top-1 简化门控，7 倍预训练加速。原文：Switch Transformers Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.md。更新：2026-04-30
MAE 掩码自编码器 — Kaiming He：75% 掩码率非对称自编码器，超越监督预训练。原文：Masked Autoencoders Are Scalable Vision Learners.md。更新：2026-04-30
NSA 原生稀疏注意力 — DeepSeek 硬件对齐可原生训练稀疏注意力，动态层级稀疏。原文：Native Sparse Attention Hardware-Aligned and Natively Trainable Sparse Attention.md。更新：2026-04-30
DreamOmni2 — DreamOmni2 多模态指令图像编辑与生成论文。原文：DreamOmni2 Multimodal Instruction-based Editing and Generation.md。更新：2026-04-29
BAGEL — ByteDance BAGEL：统一多模态预训练中的涌现能力。原文：Emerging Properties in Unified Multimodal Pretraining.md。更新：2026-04-30
UniWorld-V1 — UniWorld-V1：高分辨率语义编码器统一视觉理解与生成。原文：UniWorld-V1 High-Resolution Semantic Encoders for Unified Visual Understanding and Generation.md。更新：2026-04-30
Tuna-2 — Tuna-2：像素嵌入超越视觉编码器。原文：Tuna-2 Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation.md。更新：2026-04-30
Lumina-DiMOO — Lumina-DiMOO：全离散扩散统一多模态模型。原文：L u m i n a - D i M O O An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding.md。更新：2026-04-30
OmniGen2 — OmniGen2：指令对齐的多模态生成。原文：OmniGen2 Towards Instruction-Aligned Multimodal Generation.md。更新：2026-04-30
Show-o2 — Show-o2：改进的原生统一多模态模型。原文：Show-o2 Improved Native Unified Multimodal Models.md。更新：2026-04-30
Unified Multimodal Survey — 统一多模态理解与生成综述（阿里）。原文：Unified Multimodal Understanding and Generation Models Advances, Challenges, and Opportunities.md。更新：2026-04-30
EmoEdit — EmoEdit：内容感知的情感图像编辑，Emotion adapter 即插即用。原文：EmoEdit Evoking Emotions through Image Manipulation.md。更新：2026-04-30
EmoArt — EmoArt：132K 艺术情感数据集，56 种风格多维标注。原文：EmoArt A Multidimensional Dataset for Emotion-Aware Artistic Generation.md。更新：2026-04-30
EmoSet 视觉情感数据集 — EmoSet (2023, Yang et al.)：118K 人工标注 + 330 万弱标注，六类情感属性（亮度/色彩/场景/物体/表情/动作），Mikels 八类模型。原文：EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes。更新：2026-05-07
EmotiCrafter — EmotiCrafter：基于连续 V-A 模型的情感图像生成。原文：EmotiCrafter Text-to-Emotional-Image Generation based on Valence-Arousal Model.md。更新：2026-04-30
Affective Image Editing — AIEdiT：连续情感谱 + MLLM 监督的情感图像编辑。原文：Affective Image Editing Shaping Emotional Factors via Text Descriptions.md。更新：2026-04-30
Generating Fearful Images — AI 生成图像的情感偏差审计（偏向 fear）。原文：Generating Fearful Images Investigating Potential Emotional Biases in Image-Generation Models.md。更新：2026-04-30
InstructPix2Pix — 指令式图像编辑奠基工作，GPT-3+SD 生成配对数据。原文：InstructPix2Pix Learning to Follow Image Editing Instructions.md。更新：2026-04-30
ControlNet — 扩散模型空间条件控制，零卷积架构。原文：Adding Conditional Control to Text-to-Image Diffusion Models.md。更新：2026-04-30
UltraEdit — 4M 大规模真实图像编辑数据集。原文：UltraEdit Instruction-based Fine-Grained Image Editing at Scale.md。更新：2026-04-30
AnyEdit — 2.5M 编辑对，20+ 类型，task-aware routing。原文：AnyEdit Mastering Unified High-Quality Image Editing for Any Idea.md。更新：2026-04-30
EditWorld — world-instructed editing，物理世界动态模拟。原文：EditWorld Simulating World Dynamics for Instruction-Following Image Editing.md。更新：2026-04-30
Step1X-Edit — MLLM+Diffusion 混合编辑，对标 GPT-4o。原文：Step1X-Edit A Practical Framework for General Image Editing.md。更新：2026-04-30
GoT — Generation Chain-of-Thought，先推理再生成。原文：GoT Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing.md。更新：2026-04-30
Mind-Brush — Agent think-research-create 知识驱动生成。原文：Mind-Brush Integrating Agentic Cognitive Search and Reasoning into Image Generation.md。更新：2026-04-30
VisionCreator — 原生视觉生成 Agent，UTPC 统一框架。原文：VisionCreator A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation.md。更新：2026-04-30
RISEBench — 首个推理编辑 benchmark（Temporal/Causal/Spatial/Logical）。原文：Envisioning Beyond the Pixels Benchmarking Reasoning-Informed Visual Editing.md。更新：2026-04-30
ImgEdit — 统一图像编辑数据集与 benchmark。原文：ImgEdit A Unified Image Editing Dataset and Benchmark.md。更新：2026-04-30
WEAVE — 10 万交织样本，多轮上下文编辑 benchmark。原文：WEAVE Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation.md。更新：2026-04-30
OpenGPT-4o-Image — 层级分类编辑数据，80K 对。原文：OpenGPT-4o-Image A Comprehensive Dataset for Advanced Image Generation and Editing.md。更新：2026-04-30
OminiControl — DiT 极简控制，仅 0.1% 额外参数。原文：OminiControl Minimal and Universal Control for Diffusion Transformer.md。更新：2026-04-30
Aes-R1 — 审美推理 RAPO 框架。原文：Unlocking the Essence of Beauty Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization.md。更新：2026-04-30
LLM Agent 综述 2023 — LLM Agent 首篇全面综述（复旦 NLP），Brain-Perception-Action 三模块框架 + Agent 社会仿真。原文：The Rise and Potential of Large Language Model Based Agents: A Survey。更新：2026-05-07
LLM Agent 综述 2024 — LLM Agent 统一框架（Profile-Memory-Planning-Action），中国人民大学综述。原文：A Survey on Large Language Model based Autonomous Agents。更新：2026-04-30
Agent AI Survey 2024 — 多模态 Agent AI 综述，跨现实训练与 embodied AI。原文：Agent AI Surveying the Horizons of Multimodal Interaction。更新：2026-04-30
Agent Banana — Agentic Planner-Executor 高保真图像编辑框架，Context Folding + ILD。原文：Agent Banana High-Fidelity Image Editing with Agentic Thinking and Tooling。更新：2026-04-30
Magic-MM-Embedding — 视觉 Token 压缩 75% 的高效 MLLM Embedding 模型。原文：Magic-MM-Embedding Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs。更新：2026-04-30
ObjEmbed — 物体级 MLLM Embedding，语义+IoU 双 embedding。原文：ObjEmbed Towards Universal Multimodal Object Embeddings。更新：2026-04-30
RzenEmbed — 文本+图像+视频+文档四模态 Embedding，hardness-weighted loss。原文：RzenEmbed Towards Comprehensive Multimodal Retrieval。更新：2026-04-30
SAIL-Embedding — 全模态工业级 Embedding，字节跳动抖音线上部署。原文：SAIL-Embedding Technical Report Omni-modal Embedding Foundation Model。更新：2026-04-30
Qwen3-VL-Embedding and Reranker — Qwen3-VL-Embedding：统一多模态 Embedding + Reranker 管线，8B MMEB-V2 77.8（排名第一），Matryoshka 表示学习，32K 上下文，30+ 语言。原文：Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for Multimodal Retrieval。更新：2026-05-07
OCRBench v2 — 8 大 OCR 能力 x 23 任务 x 31 场景 benchmark。原文：OCRBench v2 An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning。更新：2026-04-30
OmniDocBench — 9 种文档类型三级评估文档解析 benchmark。原文：OmniDocBench Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations。更新：2026-04-30
olmOCR — 开源 PDF OCR 工具包，$176/百万页，性能超越 GPT-4o。原文：pipeline Unlocking Trillions of Tokens in PDFs with Vision Language Models。更新：2026-04-30
ViT — ViT：纯 Transformer 直接处理图像 patch 序列，证明 CNN 不是必需的。原文：An Image is Worth 16x16 Words Transformers for Image Recognition at Scale.md。更新：2026-04-30
Swin Transformer — Swin：层级化 + shifted window，首个通用视觉 Transformer backbone。原文：Swin Transformer Hierarchical Vision Transformer using Shifted Windows.md。更新：2026-04-30
MLP-Mixer — MLP-Mixer：纯 MLP 架构，证明卷积和注意力都不必需。原文：MLP-Mixer An all-MLP Architecture for Vision.md。更新：2026-04-30
CLAP — CLAP：CLIP 范式迁移至音频，128K 对实现零样本音频分类。原文：CLAP Learning Audio Concepts From Natural Language Supervision.md。更新：2026-04-30
SigLIP 2 — SigLIP 2：多语言 V-L 编码器，统一训练配方，定位+dense feature 大提升。原文：SigLIP 2 Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features.md。更新：2026-04-30
Emu3.5 — Emu3.5：原生多模态世界模型，10T token 训练，DiDA 加速 20x。原文：Emu3.5 Native Multimodal Models are World Learners.md。更新：2026-04-30
Chain-of-Thought — CoT：思维链提示，涌现推理能力，无需微调即提升复杂推理。原文：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.md。更新：2026-04-30
Tree of Thoughts — ToT：树状思维探索，前瞻+回溯，Game of 24 上 4%→74%。原文：Tree of Thoughts Deliberate Problem Solving with Large Language Models.md。更新：2026-04-30
Graph of Thoughts — GoT：图结构推理，聚合+提炼+反馈，质量提升 62% 成本降低 31%。原文：Graph of Thoughts Solving Elaborate Problems with Large Language Models.md。更新：2026-04-30
Competitive Programming LM — o3 推理模型：通用 RL 训练超越手工领域策略，IOI 金牌+CF elite。原文：Competitive Programming with Large Reasoning Models.md。更新：2026-04-30
WorldEdit — WorldEdit：因果知识驱动的图像编辑 benchmark，隐式指令编辑评估。原文：WorldEdit Towards Open-World Image Editing with a Knowledge-Informed Benchmark.md。更新：2026-04-30
DINO DETR 目标检测 — DINO：对比式去噪训练+混合查询选择+双层前视，COCO 63.2 AP。原文：DINO DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.md。更新：2026-04-30
YOLO 目标检测 — YOLO：首个实时目标检测，45 FPS，一阶段回归范式开创者。原文：You Only Look Once Unified, Real-Time Object Detection.md。更新：2026-04-30
Qwen-Image-Layered 分层编辑 — 图层分解新范式：RGBA 层端到端分解，从根本上解决编辑一致性问题。原文：Qwen-Image-Layered Towards Inherent Editability via Layer Decomposition.md。更新：2026-04-30
DeepSeek LLM 开源语言模型与长期主义 — DeepSeek 首代：scaling law（M=non-embedding FLOPs/token），67B 超越 LLaMA-2 70B。原文：DeepSeek LLM Scaling Open-Source Language Models with Longtermism.md。更新：2026-04-30
DeepSeek-V3 技术报告 — 671B MoE/37B 激活，MLA+DeepSeekMoE+FP8，14.8T tokens，$5.576M 成本。原文：DeepSeek-V3 Technical Report.md。更新：2026-04-30
DeepSeek-V3.2 开源大模型前沿 — DSA+lightning indexer，GRPO 稳定策略，thinking-in-tool-use，Speciale IMO 金牌。原文：DeepSeek-V3.2 Pushing the Frontier of Open Large Language Models.md。更新：2026-04-30
DeepSeek-R1 强化学习推理 — R1-Zero 纯 RL 涌现 aha moment，R1 四阶段管线，蒸馏 6 模型。原文：DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.md。更新：2026-04-30
DeepSeek V4 — DeepSeek V4：混合 CSA+HCA 注意力架构，1.6T 参数/49B 激活，百万级上下文 FLOPs 仅为 V3.2 的 27%，KV 缓存 10%。原文：DeepSeek V4。更新：2026-05-07
Kimi k1.5 强化学习规模化 — 128K 长上下文 RL，online mirror descent，long2short 四种蒸馏方法。原文：Kimi k1.5 Scaling Reinforcement Learning with LLMs.md。更新：2026-04-30
Kimi K2 开放 Agent 智能 — 1.04T MoE/32B 激活，MuonClip+QK-Clip，sparsity scaling law，Agent 数据合成。原文：Kimi K2 Open Agentic Intelligence.md。更新：2026-04-30
AHE Agentic Harness Engineering — AHE：可观测性驱动的 coding-agent harness 自动演化闭环。原文：Agentic Harness Engineering Observability-Driven Automatic Evolution of Coding-Agent Harnesses。更新：2026-05-07
Kimi K2.5 视觉 Agent 智能 — 联合文本-视觉优化，zero-vision SFT，Agent Swarm/PARL，Toggle RL。原文：Kimi K2.5 Visual Agentic Intelligence.md。更新：2026-04-30
Kimi-VL 技术报告 — 2.8B 激活 MoE VLM，MoonViT 原生分辨率，128K 上下文，Thinking 变体。原文：Kimi-VL Technical Report.md。更新：2026-04-30
Qwen3 技术报告 — Dense+MoE 双架构，统一 /think /no_think 模式，thinking budget，36T tokens。原文：Qwen3 Technical Report.md。更新：2026-04-30
Qwen2.5 技术报告 — 18T tokens 预训练，100 万+ SFT 样本，DPO+GRPO 两阶段 RL，0.5B-72B 全尺寸 + MoE Turbo/Plus，72B 匹敌 Llama-3-405B。原文：Qwen2.5 Technical Report。更新：2026-05-07
Qwen 技术报告 — Qwen 第一代：1.8B/7B/14B，3T tokens 预训练，SFT+RLHF 对齐，CODE-QWEN/MATH-QWEN 专用模型。原文：Qwen Technical Report。更新：2026-05-07
Qwen2.5-VL 技术报告 — 阿里 Qwen2.5-VL：窗口注意力 ViT + 动态 FPS + 绝对时间 MRoPE，4.1T tokens，72B 匹配 GPT-4o。原文：Qwen2.5-VL Technical Report。更新：2026-05-07
Qwen3-VL 技术报告 — Qwen3-VL：Interleaved MRoPE + DeepStack 跨层融合 + 文本时间戳，原生 256K 上下文，纯文本不退化，Dense + MoE 全尺寸。原文：Qwen3-VL Technical Report。更新：2026-05-07
Qwen-Image 技术报告 — Qwen-Image (2025, 阿里)：MMDiT 20B + Qwen2.5-VL 条件编码，复杂文字渲染（中文 97.3% Level-1）、双编码图像编辑、MSRoPE 位置编码。原文：Qwen-Image Technical Report。更新：2026-05-07
DeepSeek-V2 技术报告 — MLA 首次引入：236B MoE/21B 激活，KV cache 减少 93.3%，训练成本减 42.5%。原文：DeepSeek-V2 A Strong, Economical, and Efficient Mixture-of-Experts Language Model.md。更新：2026-04-30
DeepSeek-Coder-V2 代码智能 — 338 语言代码特化，GPT4-Turbo 级，开源首次对标闭源。原文：DeepSeek-Coder-V2 Breaking the Barrier of Closed-Source Models in Code Intelligence.md。更新：2026-04-30
MiniMax-M1 测试时计算扩展 — Lightning Attention + CISPO RL，100 万 token 上下文，长推理仅为 R1 的 25% FLOPs。原文：MiniMax-M1 Scaling Test-Time Compute Efficiently with Lightning Attention.md。更新：2026-04-30
MiniMax-01 Lightning Attention — MiniMax-01：456B MoE + lightning attention，首次大规模线性注意力落地，训练 1M / 推理 4M token 上下文。原文：MiniMax-01: Scaling Foundation Models with Lightning Attention。更新：2026-05-07
gpt-oss 开源模型 — OpenAI 首次 Apache 2.0 开源推理模型：120B+20B，可调 reasoning effort。原文：gpt-oss-120b & gpt-oss-20b Model Card.md。更新：2026-04-30
OneRec Technical Report 2025 — OneRec 技术报告：端到端生成式推荐，10x FLOPs，scaling laws，RL，MFU 28.8%，OPEX 10.6%。原文：OneRec Technical Report。更新：2026-04-30
OneRec Unifying Retrieve and Rank 2025 — OneRec 统一召回排序：session-wise 生成，DPO+self-hard negatives，MoE 扩展。原文：OneRec Unifying Retrieve and Rank with Generative Recommender and Preference Alignment。更新：2026-04-30
OneRec-Think 2025 — OneRec-Think：CoT 推理引入推荐，Itemic Alignment+Reasoning Activation+Enhancement。原文：OneRec-Think In-Text Reasoning for Generative Recommendation。更新：2026-04-30
OneRec-V2 Technical Report 2025 — OneRec-V2：Lazy Decoder-Only 架构，94% 计算量降低，8B 参数，真实用户反馈 RL。原文：OneRec-V2 Technical Report。更新：2026-04-30
OpenOneRec Technical Report 2025 — OpenOneRec：开源推荐基础模型 1.7B/8B，RecIF-Bench，scaling laws。原文：OpenOneRec Technical Report An Open Foundation Model and Benchmark to Accelerate Generative Recommendation。更新：2026-04-30
OneTrans 2025 — OneTrans：统一 Transformer 排序模型，mixed parameterization + pyramid stack，5.68% GMV/u。原文：OneTrans Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender。更新：2026-04-30
HyFormer 2025 — HyFormer：交替 Query Decoding + Query Boosting，统一序列建模与特征交互。原文：HyFormer Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction。更新：2026-04-30
InterFormer 2024 — InterFormer：双向异构交互学习，Interaction Arch + Sequence Arch + Cross Arch。原文：InterFormer Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction。更新：2026-04-30
AHE Agentic Harness Engineering — AHE：可观测性驱动的编码 Agent 线束自动演化，三大支柱闭环，10 轮提升 7.3pp。原文：Agentic Harness Engineering Observability-Driven Automatic Evolution of Coding-Agent Harnesses。更新：2026-05-03
Self-Evolving Agents 综述 — 自演化智能体系统性综述：模型中心→环境中心→模型-环境协同演化三大范式，厦门大学 2026。原文：A Systematic Survey of Self-Evolving Agents.md。更新：2026-05-06
GLM-5 从 Vibe Coding 到 Agentic Engineering — GLM-5 (2025, 智谱)：744B MoE + DSA 稀疏注意力，Vibe Coding→Agentic Engineering 范式转变，CC-Bench-V2 真实工程评估。原文：GLM-5: from Vibe Coding to Agentic Engineering。更新：2026-05-07
Thinking with Visual Primitives — DeepSeek：将空间标记（box/point）提升为最小思维单元，解决 Reference Gap，极致 token 效率，计数/空间/拓扑推理达前沿水平。原文：Thinking with Visual Primitives。更新：2026-05-07
VLM2Vec-V2 — VLM2Vec-V2 (Salesforce)：统一多模态嵌入框架，扩展至视频和视觉文档，MMEB-V2 78 任务 benchmark，2B 模型总体得分 58.0。原文：VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents。更新：2026-05-07
LLM 可扩展水印 — SynthID-Text (Google DeepMind, Nature 2024)：Tournament sampling 生成式水印，Gemini 2000 万响应实测质量无损，首次大规模生产部署。原文：Scalable watermarking for identifying large language model outputs。更新：2026-05-07
Kimi Linear 高效注意力架构 — Kimi Linear：混合线性注意力架构，KDA 细粒度 channel-wise 门控 + 3:1 KDA/MLA 混合，首次在公平比较下超越全注意力，KV cache 减少 75%，1M 上下文解码 6.3x 加速。原文：Kimi Linear: An Expressive, Efficient Attention Architecture。更新：2026-05-07
Emu3 原生多模态模型 — Emu3 (BAAI)：纯 next-token prediction 训练的原生多模态模型，8B 参数统一图像/视频/文本，超越 SDXL 和 LLaVA-1.6。原文：Emu3: Next-Token Prediction is All You Need。更新：2026-05-07
PaperBanana — PaperBanana：多智能体协作自动生成出版级学术插图（方法论图+统计图），参考驱动+审美迁移+迭代自批评。原文：PaperBanana: Automating Academic Illustration for AI Scientists。更新：2026-05-07
Gen-Searcher — Gen-Searcher (2026, CUHK/UCLA/UCB)：首个搜索增强图像生成智能体，SFT + agentic RL 双重奖励，KnowGen 基准，K-Score 指标。原文：Gen-Searcher: Reinforcing Agentic Search for Image Generation。更新：2026-05-07
Seedance 2.0 视频生成 — Seedance 2.0 (2026, ByteDance)：统一多模态音视频联合生成，T2V/I2V/R2V 全面领先，Arena.AI 双榜第一。原文：Seedance 2.0: Advancing Video Generation for World Complexity。更新：2026-05-07
Unify-Agent — Unify-Agent：首个端到端统一多模态智能体，Think-Research-Recaption-Generate 四阶段流水线实现世界知识驱动的事实性图像生成。基于 Bagel-14B，FactIP Overall 73.2 超基座 22 分。原文：Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis。更新：2026-05-07
生成式推荐综述 — 生成式推荐综述 (Hou et al. 2025)：数据-模型-任务三元框架，覆盖 LLM-based/LRM/Diffusion 三条路线，200+ 篇论文系统梳理。原文：A Survey on Generative Recommendation: Data, Model, and Tasks。更新：2026-05-07

Concepts

扩散模型原理 — DDPM 的前向/反向过程、噪声调度、与 Flow Matching 的关系。更新：2026-04-30
归一化流 Normalizing Flows — 可逆变换、变量替换公式、Jacobian 行列式、耦合/自回归/连续流架构。更新：2026-05-07
Flow Matching — Flow Matching 原理、与扩散模型的关系、为什么更快、OT 路径。更新：2026-04-30
llm-wiki-pattern — LLM Wiki 模式：利用 LLM 增量维护持久化知识库的方法论。更新：2026-04-29
多模态指令编辑与生成 — 多模态指令编辑与生成任务的定义、与传统任务的区别和技术挑战。更新：2026-04-29
情感图像编辑 — AIM 和 IET 的任务定义、技术演进（颜色→内容）与核心挑战。更新：2026-04-30
Valence-Arousal 情感模型 — Russell 的连续情感表示模型，离散 vs 连续情感控制的对比。更新：2026-04-30
AI 生成图像的情感偏差 — AI 生成模型系统性地偏向负面情感（fear）的问题。更新：2026-04-30
Scaling Laws — 缩放定律：模型规模、数据量与计算预算的最优分配关系（Chinchilla 定律）。更新：2026-04-30
RLHF — 人类反馈强化学习：SFT→RM→PPO 三阶段对齐流程及 DPO 演进。更新：2026-04-30
RoPE 旋转位置编码 — 旋转位置编码：通过旋转矩阵融合绝对位置与相对位置依赖。更新：2026-04-30
GPT 系列模型 — GPT 系列全貌：从 GPT-1 到 GPT-4o 的能力演进。更新：2026-04-30
LLM Agent 架构 — LLM Agent 的 Profile-Memory-Planning-Action 四大模块设计空间。更新：2026-04-30
多模态 Embedding 模型 — CLIP 双塔 vs MLLM 统一架构的范式对比与核心技术。更新：2026-04-30
PDF 文档解析 — PDF 文档解析的两大范式（Pipeline vs VLM）及评估标准。更新：2026-04-30
Chain-of-Thought 思维链 — CoT：通过提示引导 LLM 逐步推理，涌现能力，复杂推理的基座技术。更新：2026-04-30
多模态对比学习 — 对比损失将不同模态映射到共享嵌入空间（CLIP/SigLIP/CLAP）。更新：2026-04-30
原生多模态模型 — 用统一架构和统一目标同时处理多模态，与组装式方案的关键区别。更新：2026-04-30
MoE 混合专家模型 — Mixture of Experts：从 Google Brain (2017) → Switch Transformer (2021) → DeepSeek/Kimi/Qwen (2024-2025) 的历史演进与对比。更新：2026-04-30
推理模型与强化学习 — RL 驱动的推理能力训练：GRPO vs online mirror descent，R1-Zero 涌现 vs long2short vs 统一模式。更新：2026-04-30
多模态 Agent — Agent 从纯文本到多模态的演进：Agent Swarm、工具使用、联合 RL、数据合成。更新：2026-04-30
LoRA 低秩适配 — 参数高效微调：低秩分解，10,000 倍参数减少，已从 NLP 扩展到扩散模型生态。更新：2026-04-30
MAE 掩码自编码器 — Kaiming He：75% 掩码率非对称自编码器，将 NLP 的 masked modeling 引入 CV。更新：2026-04-30
RAG 检索增强生成 — 检索+生成：解决 LLM 幻觉、知识截止和不可追溯性。更新：2026-04-30
NSA 原生稀疏注意力 — DeepSeek 的动态层级稀疏注意力，硬件对齐+原生训练，高效长上下文建模。更新：2026-04-30
测试时计算扩展 — thinking budget、Lightning Attention、CISPO：推理阶段的效率 scaling。更新：2026-04-30
生成式推荐 — 生成式推荐范式：用自回归生成替代传统检索排序，语义 ID tokenization + decoder-only 架构。更新：2026-04-30
CTR 预估 — CTR 预估核心任务：特征交互 + 序列建模，从分离式 pipeline 到统一 Transformer 的演进。更新：2026-04-30
DiT 扩散 Transformer — Transformer 替代 UNet 成为扩散模型骨干，adaLN-Zero 条件注入，Scaling Law 跨架构迁移的胜利。更新：2026-04-30
GRPO 分组相对策略优化 — DeepSeek 的去 Critic RL 算法，组内相对比较替代价值函数，降低 RL 训练门槛。更新：2026-04-30
DPO 直接偏好优化 — 绕过 reward model 的直接偏好对齐，RLHF 的简化替代方案，对齐成本最优解。更新：2026-04-30
MLA 多头潜在注意力 — DeepSeek 的低秩 KV cache 压缩，93.3% 推理内存减少，让 MoE 推理变为经济可行。更新：2026-04-30
CLIP 对比语言图像预训练 — OpenAI 的双塔多模态基石，零样本分类 + 语言作为视觉通用监督信号的方法论革命。更新：2026-04-30
知识蒸馏 — 从模型压缩到推理能力迁移，DeepSeek-R1 蒸馏到 Kimi long2short 的范式演变。更新：2026-04-30
VQ-VAE 离散 Token 化 — VQ-VAE 原理、RQ-Kmeans 变体、codebook 设计、连续 vs 离散表示的架构选择。更新：2026-05-01
Agent 图像编辑 — 推理-规划-执行-验证闭环的编辑新范式，GoT/Mind-Brush/VisionCreator/Agent Banana 全景。更新：2026-05-01
审美评估与推理 — 从 LAION predictor 到 Aes-R1 RAPO 的审美评分与推理，编辑的「北星」标尺。更新：2026-05-01
编辑数据合成方法 — 五代数据合成范式（纯合成→真实+LLM→自适应→层级分类→情感特化→多参考）。更新：2026-05-01
Agentic Harness Engineering (AHE) — 可观测性驱动的 harness 自动演化闭环：三大支柱（组件/经验/决策可观测性）+ 编辑即契约。更新：2026-05-03
Harness 编码 Agent 线束 — 编码 Agent 的 7 种模型外部可编辑工程组件，文件级解耦实现可演化性。更新：2026-05-03
Self-Evolving Agents 自演化智能体 — 以最小人类监督自主协调改进循环的 Agent 范式：强自主性+主动探索，三大演化方向。更新：2026-05-06

Entities

Seedream 系列模型 — Seedream 2.0→3.0→4.0 演进，字节跳动中英双语图像生成基础模型系列。更新：2026-04-30
DreamOmni2 — CUHK & ByteDance 联合提出的多模态指令编辑生成模型。更新：2026-04-29
BAGEL — ByteDance Seed 的 MoT 架构统一多模态基础模型，支持图文交错生成。更新：2026-04-30
Transformer — 现代 AI 架构基石：纯注意力驱动的序列到序列模型。更新：2026-04-30
UniWorld-V1 — 北京大学的高分辨率语义编码器统一框架。更新：2026-04-30
Tuna-2 — Meta AI 的无编码器统一多模态模型。更新：2026-04-30
Lumina-DiMOO — 上海 AI Lab 的纯离散扩散统一多模态模型。更新：2026-04-30
OmniGen2 — BAAI 的指令对齐统一多模态生成模型。更新：2026-04-30
Show-o2 — NUS Show Lab 的原生统一多模态模型（图文视频）。更新：2026-04-30
EmoEdit — 深圳大学等：首个内容感知 AIM 框架，Emotion adapter。更新：2026-04-30
EmoArt — 吉林大学等：132K 艺术情感数据集，56 风格多维标注。更新：2026-04-30
EmotiCrafter — 同济大学等：首个连续 V-A 图像生成模型。更新：2026-04-30
InstructPix2Pix — 指令式图像编辑奠基工作，GPT-3+SD 合成配对数据。更新：2026-04-30
ControlNet — UNet 扩散模型条件控制范式，零卷积 + Lock-Copy 架构。更新：2026-04-30
Step1X-Edit — MLLM+Diffusion 混合编辑框架，对标 GPT-4o。更新：2026-04-30
GoT — 首个 Chain-of-Thought 引导的生成框架，先推理再生成。更新：2026-04-30
EditWorld — 世界指令编辑，物理动态感知。更新：2026-04-30
Mind-Brush — Agent think-research-create 范式，外部知识驱动。更新：2026-04-30
VisionCreator — 原生视觉生成 Agent，UTPC 全流程 + VRL 强化学习。更新：2026-04-30
OminiControl — DiT 极简控制，仅 0.1% 额外参数。更新：2026-04-30
Vision Transformer (ViT) — 首个纯 Transformer 视觉分类模型，ICLR 2021，开启 CNN-free 时代。更新：2026-04-30
Swin Transformer — 层级化通用视觉 backbone，ICCV 2021 最佳论文。更新：2026-04-30
Agent Banana — Agentic Planner-Executor 高保真图像编辑框架。更新：2026-04-30
DeepSeek 系列模型 — DeepSeek LLM → V2 → V3 → V3.2 → R1 完整演进，MLA/MoE/GRPO/Agent 技术栈。更新：2026-04-30
Kimi 系列模型 — k1.5 → K2 → K2.5 → VL 演进，长上下文 RL/Agent/多模态能力递进。更新：2026-04-30
Qwen3 — Dense+MoE 双架构，统一思考/非思考模式，thinking budget 机制。更新：2026-04-30
OneRec 系列模型 — 快手端到端生成式推荐模型系列：V0 统一召回排序 → V1 技术报告 → V2 Lazy Decoder-Only → Think CoT 推理 → OpenOneRec 开源。更新：2026-04-30
FLUX — Black Forest Labs 的 Flow Matching + DiT 开源图像生成模型，SD 原团队”重做版”。更新：2026-04-30
GPT-4o — OpenAI 首个端到端全模态 omni 模型，232ms 语音延迟，全模态统一的技术里程碑。更新：2026-04-30

Topics

扩散模型与 Flow Matching 基础 — DDPM→Flow Matching→FLUX Kontext→Seedream 的生成模型基础脉络。来源数：6。更新：2026-04-30
扩散模型图像编辑与生成 — 指令编辑→统一多模态→推理编辑→图层分解编辑的完整演进。来源数：26。更新：2026-04-30
情感计算与图像生成 — 情感图像编辑、生成、数据集与偏差审计。来源数：5。更新：2026-04-30
大语言模型基础 — LLM 架构、缩放定律与对齐方法全景（2017-2024）。来源数：10。更新：2026-04-30
LLM Agent 与工具使用 — Agent 架构综述（Brain-Perception-Action + Profile-Memory-Planning-Action）+ Agent 社会仿真 + Agent Banana 图像编辑 + AHE harness 自动演化 + Self-Evolving Agents 自演化范式。来源数：6。更新：2026-05-07
多模态 Embedding 与检索 — 4 个 MLLM Embedding 模型：效率、物体级、多模态、工业级。来源数：4。更新：2026-04-30
多模态 Benchmark 与评估 — OCRBench v2 + OmniDocBench + olmOCR 评估体系。来源数：3。更新：2026-04-30
Vision Transformer 演进 — ViT → Swin → MLP-Mixer 的 Vision 基础模型架构演进。来源数：3。更新：2026-04-30
推理增强方法 — CoT → ToT → GoT → 推理模型的推理方法演进。来源数：4。更新：2026-04-30
国产大模型演进 — DeepSeek/Kimi/Qwen 三条国产大模型主线串联：MoE 架构、RL 推理、Agent 能力。来源数：9。更新：2026-04-30
目标检测基础 — YOLO 一阶段 vs DETR/DINO 端到端检测的两条技术路线。来源数：2。更新：2026-04-30
生成式推荐系统 — 推荐系统两大研究方向：端到端生成式推荐（OneRec 系列）+ CTR 预估统一架构（OneTrans/HyFormer/InterFormer）。来源数：8。更新：2026-04-30

Comparisons

统一多模态模型架构比较 — 7 个 UMM 架构对比 + 编码器之争、离散vs连续、涌现vs高效的深度分析。更新：2026-04-30
指令编辑数据集比较 — 7 个编辑数据集全维度对比 + 五种数据生成范式演进分析。更新：2026-04-30
情感表示方法比较 — 离散 vs 连续情感 + EmoEdit vs EmotiCrafter 深度对比 + 融合方案。更新：2026-04-30
编辑方法能力演进 — 从 IP2P 到 VisionCreator 的五代能力矩阵 + 关键转折点分析。更新：2026-04-30
README — 比较页面目录入口。更新：2026-04-30
多模态 Embedding 模型比较 — Magic-MM-Embedding vs ObjEmbed vs RzenEmbed vs SAIL-Embedding 四维度对比。更新：2026-04-30
推理增强方法比较 — CoT→ToT→GoT→推理模型：外部提示到内部训练的范式转移，有效思考量统一框架。更新：2026-04-30
Vision Transformer 架构比较 — ViT→Swin→MLP-Mixer：归纳偏置剥离实验视角，通用 backbone 之争。更新：2026-04-30
LLM 缩放定律比较 — Kaplan vs Chinchilla：方法论偏置、过度训练策略、MoE 缩放定律扩展。更新：2026-04-30
GPT 系列代际比较 — GPT-1 到 GPT-4o：规模→方法→模态的驱动力转移，技术保密困境。更新：2026-04-30
扩散模型架构比较 UNet vs DiT — UNet 与 DiT 的全维度对比，归纳偏置”资产到负债”的转换，规模化时代的架构选择。更新：2026-04-30
推理模型训练方法比较 DeepSeek-R1 vs Kimi k1.5 vs Qwen3 — 三家推理模型训练方案的全流程对比，对”推理从何而来”的不同回答。更新：2026-04-30

Questions

关于统一多模态模型的问题 — 关于统一多模态模型的问题。更新：2026-04-30
BAGEL 图文交错生成能力 — BAGEL 是否支持图文交错生成？架构分析与模型对比。更新：2026-04-30
为什么 MCTS 在 LLM 推理中失败了 — 蒙特卡洛树搜索在围棋成功但在 LLM 推理中缺席的深层原因：问题结构不匹配、成本、隐式搜索。更新：2026-04-30
知识蒸馏 vs RL 哪种方式更能有效获得推理能力 — DeepSeek-R1 蒸馏 > 直接 RL 的反直觉发现分析，分层策略建议。更新：2026-04-30
多模态模型的最终形态是原生统一还是模块化组装 — 原生 vs 模块化路线之争的深层分析，短期/中期/长期预测。更新：2026-04-30

Blog1

探索

index

Wiki Index

Overview

Sources

Concepts

Entities

Topics

Comparisons

Questions

Sources

Comparisons

Topics

Concepts

Entities

Questions

log

Contradictions

overview