Wiki Index
Overview
- overview — 当前知识库总览。
Sources
-
llm-wiki — Karpathy 的 LLM 维护知识库模式,本 Wiki 的架构基础。原文:llm-wiki.md。更新:2026-04-29
-
DDPM 扩散模型奠基论文 — DDPM (2020, Ho et al.),扩散模型奠基,前向/反向过程、简化训练目标。原文:Denoising Diffusion Probabilistic Models。更新:2026-04-30
-
Flow Matching 生成建模 — Flow Matching (2023, Meta),CNF 训练范式,OT 路径替代扩散路径。原文:Flow Matching for Generative Modeling。更新:2026-04-30
-
Normalizing Flows 归一化流 — 归一化流综述 (2019, Kobyzev et al.),可逆变换、Jacobian 行列式、耦合/自回归/连续流架构全景。原文:Normalizing Flows: An Introduction and Review of Current Methods。更新:2026-05-07
-
FLUX.1 Kontext 上下文编辑 — FLUX.1 Kontext (2025, BFL),flow matching 序列拼接统一生成与编辑。原文:FLUX.1 Kontext Flow Matching for In-Context Image Generation and Editing in Latent Space。更新:2026-04-30
-
Seedream 2.0 中英双语图像生成 — Seedream 2.0 (2025, ByteDance),中英双语图像生成基础模型。原文:Seedream 2.0 A Native Chinese-English Bilingual Image Generation Foundation Model。更新:2026-04-30
-
Seedream 3.0 技术报告 — Seedream 3.0 (2025, ByteDance),全面能力升级,4-8 倍加速。原文:Seedream 3.0 Technical Report。更新:2026-04-30
-
Seedream 4.0 多模态图像生成 — Seedream 4.0 (2025, ByteDance),多模态统一生成框架,10 倍加速。原文:Seedream 4.0 Toward Next-generation Multimodal Image Generation。更新:2026-04-30
-
Transformer — Transformer 原始论文:纯注意力机制替代 RNN/CNN。原文:Attention Is All You Need.md。更新:2026-04-30
-
PyTorch 深度学习框架 — PyTorch 设计哲学:命令式、Pythonic、Worse is Better。原文:PyTorch An Imperative Style, High-Performance Deep Learning Library.md。更新:2026-04-30
-
BERT — 双向 Transformer 编码器预训练,开创预训练+微调范式。原文:BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.md。更新:2026-04-30
-
GPT-2 — 1.5B 参数,零样本任务迁移,语言模型即无监督多任务学习器。原文:Language Models are Unsupervised Multitask Learners。更新:2026-05-07
-
GPT-3 — 175B 参数,in-context learning 的规模化验证。原文:Language Models are Few-Shot Learners.md。更新:2026-04-30
-
InstructGPT — RLHF 对齐方法:SFT→RM→PPO 三阶段流程。原文:Training language models to follow instructions with human feedback.md。更新:2026-04-30
-
LLaMA — 仅用公开数据训练的 7B-65B 高效模型。原文:LLaMA Open and Efficient Foundation Language Models.md。更新:2026-04-30
-
Chinchilla 缩放定律 — 计算最优缩放:参数与数据应等比例增长。原文:Training Compute-Optimal Large Language Models.md。更新:2026-04-30
-
GPT-4 — 多模态输入、human-level 考试、predictable scaling。原文:GPT-4 Technical Report.md。更新:2026-04-30
-
GPT-4o — 全模态 omni 模型,端到端训练,语音低延迟。原文:GPT-4o System Card.md。更新:2026-04-30
-
OpenAI o1 System Card — OpenAI o1:推理链驱动安全对齐,deliberative alignment,CoT 可监控性,Preparedness Framework 分级管控。原文:OpenAI o1 System Card。更新:2026-05-07
-
Llama 3 — 405B dense,15T 数据,DPO 对齐,开源 GPT-4 级。原文:The Llama 3 Herd of Models.md。更新:2026-04-30
-
RoPE — 旋转位置编码,融合绝对位置与相对位置依赖。原文:RoFormer Enhanced Transformer with Rotary Position Embedding.md。更新:2026-04-30
-
LoRA 低秩适配 — 参数高效微调:冻结预训练权重,注入可训练秩分解矩阵。原文:LoRA Low-Rank Adaptation of Large Language Models.md。更新:2026-04-30
-
RAG 检索增强生成 — 将参数化与非参数化记忆结合用于知识密集型任务。原文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.md。更新:2026-04-30
-
MoE 稀疏门控混合专家层 — MoE 开山之作:Google Brain 首次实现条件计算的稀疏门控专家层。原文:Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer.md。更新:2026-04-30
-
Switch Transformer — 万亿参数 MoE:top-1 简化门控,7 倍预训练加速。原文:Switch Transformers Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.md。更新:2026-04-30
-
MAE 掩码自编码器 — Kaiming He:75% 掩码率非对称自编码器,超越监督预训练。原文:Masked Autoencoders Are Scalable Vision Learners.md。更新:2026-04-30
-
NSA 原生稀疏注意力 — DeepSeek 硬件对齐可原生训练稀疏注意力,动态层级稀疏。原文:Native Sparse Attention Hardware-Aligned and Natively Trainable Sparse Attention.md。更新:2026-04-30
-
DreamOmni2 — DreamOmni2 多模态指令图像编辑与生成论文。原文:DreamOmni2 Multimodal Instruction-based Editing and Generation.md。更新:2026-04-29
-
BAGEL — ByteDance BAGEL:统一多模态预训练中的涌现能力。原文:Emerging Properties in Unified Multimodal Pretraining.md。更新:2026-04-30
-
UniWorld-V1 — UniWorld-V1:高分辨率语义编码器统一视觉理解与生成。原文:UniWorld-V1 High-Resolution Semantic Encoders for Unified Visual Understanding and Generation.md。更新:2026-04-30
-
Tuna-2 — Tuna-2:像素嵌入超越视觉编码器。原文:Tuna-2 Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation.md。更新:2026-04-30
-
Lumina-DiMOO — Lumina-DiMOO:全离散扩散统一多模态模型。原文:L u m i n a - D i M O O An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding.md。更新:2026-04-30
-
OmniGen2 — OmniGen2:指令对齐的多模态生成。原文:OmniGen2 Towards Instruction-Aligned Multimodal Generation.md。更新:2026-04-30
-
Show-o2 — Show-o2:改进的原生统一多模态模型。原文:Show-o2 Improved Native Unified Multimodal Models.md。更新:2026-04-30
-
Unified Multimodal Survey — 统一多模态理解与生成综述(阿里)。原文:Unified Multimodal Understanding and Generation Models Advances, Challenges, and Opportunities.md。更新:2026-04-30
-
EmoEdit — EmoEdit:内容感知的情感图像编辑,Emotion adapter 即插即用。原文:EmoEdit Evoking Emotions through Image Manipulation.md。更新:2026-04-30
-
EmoArt — EmoArt:132K 艺术情感数据集,56 种风格多维标注。原文:EmoArt A Multidimensional Dataset for Emotion-Aware Artistic Generation.md。更新:2026-04-30
-
EmoSet 视觉情感数据集 — EmoSet (2023, Yang et al.):118K 人工标注 + 330 万弱标注,六类情感属性(亮度/色彩/场景/物体/表情/动作),Mikels 八类模型。原文:EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes。更新:2026-05-07
-
EmotiCrafter — EmotiCrafter:基于连续 V-A 模型的情感图像生成。原文:EmotiCrafter Text-to-Emotional-Image Generation based on Valence-Arousal Model.md。更新:2026-04-30
-
Affective Image Editing — AIEdiT:连续情感谱 + MLLM 监督的情感图像编辑。原文:Affective Image Editing Shaping Emotional Factors via Text Descriptions.md。更新:2026-04-30
-
Generating Fearful Images — AI 生成图像的情感偏差审计(偏向 fear)。原文:Generating Fearful Images Investigating Potential Emotional Biases in Image-Generation Models.md。更新:2026-04-30
-
InstructPix2Pix — 指令式图像编辑奠基工作,GPT-3+SD 生成配对数据。原文:InstructPix2Pix Learning to Follow Image Editing Instructions.md。更新:2026-04-30
-
ControlNet — 扩散模型空间条件控制,零卷积架构。原文:Adding Conditional Control to Text-to-Image Diffusion Models.md。更新:2026-04-30
-
UltraEdit — 4M 大规模真实图像编辑数据集。原文:UltraEdit Instruction-based Fine-Grained Image Editing at Scale.md。更新:2026-04-30
-
AnyEdit — 2.5M 编辑对,20+ 类型,task-aware routing。原文:AnyEdit Mastering Unified High-Quality Image Editing for Any Idea.md。更新:2026-04-30
-
EditWorld — world-instructed editing,物理世界动态模拟。原文:EditWorld Simulating World Dynamics for Instruction-Following Image Editing.md。更新:2026-04-30
-
Step1X-Edit — MLLM+Diffusion 混合编辑,对标 GPT-4o。原文:Step1X-Edit A Practical Framework for General Image Editing.md。更新:2026-04-30
-
GoT — Generation Chain-of-Thought,先推理再生成。原文:GoT Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing.md。更新:2026-04-30
-
Mind-Brush — Agent think-research-create 知识驱动生成。原文:Mind-Brush Integrating Agentic Cognitive Search and Reasoning into Image Generation.md。更新:2026-04-30
-
VisionCreator — 原生视觉生成 Agent,UTPC 统一框架。原文:VisionCreator A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation.md。更新:2026-04-30
-
RISEBench — 首个推理编辑 benchmark(Temporal/Causal/Spatial/Logical)。原文:Envisioning Beyond the Pixels Benchmarking Reasoning-Informed Visual Editing.md。更新:2026-04-30
-
ImgEdit — 统一图像编辑数据集与 benchmark。原文:ImgEdit A Unified Image Editing Dataset and Benchmark.md。更新:2026-04-30
-
WEAVE — 10 万交织样本,多轮上下文编辑 benchmark。原文:WEAVE Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation.md。更新:2026-04-30
-
OpenGPT-4o-Image — 层级分类编辑数据,80K 对。原文:OpenGPT-4o-Image A Comprehensive Dataset for Advanced Image Generation and Editing.md。更新:2026-04-30
-
OminiControl — DiT 极简控制,仅 0.1% 额外参数。原文:OminiControl Minimal and Universal Control for Diffusion Transformer.md。更新:2026-04-30
-
Aes-R1 — 审美推理 RAPO 框架。原文:Unlocking the Essence of Beauty Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization.md。更新:2026-04-30
-
LLM Agent 综述 2023 — LLM Agent 首篇全面综述(复旦 NLP),Brain-Perception-Action 三模块框架 + Agent 社会仿真。原文:The Rise and Potential of Large Language Model Based Agents: A Survey。更新:2026-05-07
-
LLM Agent 综述 2024 — LLM Agent 统一框架(Profile-Memory-Planning-Action),中国人民大学综述。原文:A Survey on Large Language Model based Autonomous Agents。更新:2026-04-30
-
Agent AI Survey 2024 — 多模态 Agent AI 综述,跨现实训练与 embodied AI。原文:Agent AI Surveying the Horizons of Multimodal Interaction。更新:2026-04-30
-
Agent Banana — Agentic Planner-Executor 高保真图像编辑框架,Context Folding + ILD。原文:Agent Banana High-Fidelity Image Editing with Agentic Thinking and Tooling。更新:2026-04-30
-
Magic-MM-Embedding — 视觉 Token 压缩 75% 的高效 MLLM Embedding 模型。原文:Magic-MM-Embedding Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs。更新:2026-04-30
-
ObjEmbed — 物体级 MLLM Embedding,语义+IoU 双 embedding。原文:ObjEmbed Towards Universal Multimodal Object Embeddings。更新:2026-04-30
-
RzenEmbed — 文本+图像+视频+文档四模态 Embedding,hardness-weighted loss。原文:RzenEmbed Towards Comprehensive Multimodal Retrieval。更新:2026-04-30
-
SAIL-Embedding — 全模态工业级 Embedding,字节跳动抖音线上部署。原文:SAIL-Embedding Technical Report Omni-modal Embedding Foundation Model。更新:2026-04-30
-
Qwen3-VL-Embedding and Reranker — Qwen3-VL-Embedding:统一多模态 Embedding + Reranker 管线,8B MMEB-V2 77.8(排名第一),Matryoshka 表示学习,32K 上下文,30+ 语言。原文:Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for Multimodal Retrieval。更新:2026-05-07
-
OCRBench v2 — 8 大 OCR 能力 x 23 任务 x 31 场景 benchmark。原文:OCRBench v2 An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning。更新:2026-04-30
-
OmniDocBench — 9 种文档类型三级评估文档解析 benchmark。原文:OmniDocBench Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations。更新:2026-04-30
-
olmOCR — 开源 PDF OCR 工具包,$176/百万页,性能超越 GPT-4o。原文:pipeline Unlocking Trillions of Tokens in PDFs with Vision Language Models。更新:2026-04-30
-
ViT — ViT:纯 Transformer 直接处理图像 patch 序列,证明 CNN 不是必需的。原文:An Image is Worth 16x16 Words Transformers for Image Recognition at Scale.md。更新:2026-04-30
-
Swin Transformer — Swin:层级化 + shifted window,首个通用视觉 Transformer backbone。原文:Swin Transformer Hierarchical Vision Transformer using Shifted Windows.md。更新:2026-04-30
-
MLP-Mixer — MLP-Mixer:纯 MLP 架构,证明卷积和注意力都不必需。原文:MLP-Mixer An all-MLP Architecture for Vision.md。更新:2026-04-30
-
CLAP — CLAP:CLIP 范式迁移至音频,128K 对实现零样本音频分类。原文:CLAP Learning Audio Concepts From Natural Language Supervision.md。更新:2026-04-30
-
SigLIP 2 — SigLIP 2:多语言 V-L 编码器,统一训练配方,定位+dense feature 大提升。原文:SigLIP 2 Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features.md。更新:2026-04-30
-
Emu3.5 — Emu3.5:原生多模态世界模型,10T token 训练,DiDA 加速 20x。原文:Emu3.5 Native Multimodal Models are World Learners.md。更新:2026-04-30
-
Chain-of-Thought — CoT:思维链提示,涌现推理能力,无需微调即提升复杂推理。原文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.md。更新:2026-04-30
-
Tree of Thoughts — ToT:树状思维探索,前瞻+回溯,Game of 24 上 4%→74%。原文:Tree of Thoughts Deliberate Problem Solving with Large Language Models.md。更新:2026-04-30
-
Graph of Thoughts — GoT:图结构推理,聚合+提炼+反馈,质量提升 62% 成本降低 31%。原文:Graph of Thoughts Solving Elaborate Problems with Large Language Models.md。更新:2026-04-30
-
Competitive Programming LM — o3 推理模型:通用 RL 训练超越手工领域策略,IOI 金牌+CF elite。原文:Competitive Programming with Large Reasoning Models.md。更新:2026-04-30
-
WorldEdit — WorldEdit:因果知识驱动的图像编辑 benchmark,隐式指令编辑评估。原文:WorldEdit Towards Open-World Image Editing with a Knowledge-Informed Benchmark.md。更新:2026-04-30
-
DINO DETR 目标检测 — DINO:对比式去噪训练+混合查询选择+双层前视,COCO 63.2 AP。原文:DINO DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.md。更新:2026-04-30
-
YOLO 目标检测 — YOLO:首个实时目标检测,45 FPS,一阶段回归范式开创者。原文:You Only Look Once Unified, Real-Time Object Detection.md。更新:2026-04-30
-
Qwen-Image-Layered 分层编辑 — 图层分解新范式:RGBA 层端到端分解,从根本上解决编辑一致性问题。原文:Qwen-Image-Layered Towards Inherent Editability via Layer Decomposition.md。更新:2026-04-30
-
DeepSeek LLM 开源语言模型与长期主义 — DeepSeek 首代:scaling law(M=non-embedding FLOPs/token),67B 超越 LLaMA-2 70B。原文:DeepSeek LLM Scaling Open-Source Language Models with Longtermism.md。更新:2026-04-30
-
DeepSeek-V3 技术报告 — 671B MoE/37B 激活,MLA+DeepSeekMoE+FP8,14.8T tokens,$5.576M 成本。原文:DeepSeek-V3 Technical Report.md。更新:2026-04-30
-
DeepSeek-V3.2 开源大模型前沿 — DSA+lightning indexer,GRPO 稳定策略,thinking-in-tool-use,Speciale IMO 金牌。原文:DeepSeek-V3.2 Pushing the Frontier of Open Large Language Models.md。更新:2026-04-30
-
DeepSeek-R1 强化学习推理 — R1-Zero 纯 RL 涌现 aha moment,R1 四阶段管线,蒸馏 6 模型。原文:DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.md。更新:2026-04-30
-
DeepSeek V4 — DeepSeek V4:混合 CSA+HCA 注意力架构,1.6T 参数/49B 激活,百万级上下文 FLOPs 仅为 V3.2 的 27%,KV 缓存 10%。原文:DeepSeek V4。更新:2026-05-07
-
Kimi k1.5 强化学习规模化 — 128K 长上下文 RL,online mirror descent,long2short 四种蒸馏方法。原文:Kimi k1.5 Scaling Reinforcement Learning with LLMs.md。更新:2026-04-30
-
Kimi K2 开放 Agent 智能 — 1.04T MoE/32B 激活,MuonClip+QK-Clip,sparsity scaling law,Agent 数据合成。原文:Kimi K2 Open Agentic Intelligence.md。更新:2026-04-30
-
AHE Agentic Harness Engineering — AHE:可观测性驱动的 coding-agent harness 自动演化闭环。原文:Agentic Harness Engineering Observability-Driven Automatic Evolution of Coding-Agent Harnesses。更新:2026-05-07
-
Kimi K2.5 视觉 Agent 智能 — 联合文本-视觉优化,zero-vision SFT,Agent Swarm/PARL,Toggle RL。原文:Kimi K2.5 Visual Agentic Intelligence.md。更新:2026-04-30
-
Kimi-VL 技术报告 — 2.8B 激活 MoE VLM,MoonViT 原生分辨率,128K 上下文,Thinking 变体。原文:Kimi-VL Technical Report.md。更新:2026-04-30
-
Qwen3 技术报告 — Dense+MoE 双架构,统一 /think /no_think 模式,thinking budget,36T tokens。原文:Qwen3 Technical Report.md。更新:2026-04-30
-
Qwen2.5 技术报告 — 18T tokens 预训练,100 万+ SFT 样本,DPO+GRPO 两阶段 RL,0.5B-72B 全尺寸 + MoE Turbo/Plus,72B 匹敌 Llama-3-405B。原文:Qwen2.5 Technical Report。更新:2026-05-07
-
Qwen 技术报告 — Qwen 第一代:1.8B/7B/14B,3T tokens 预训练,SFT+RLHF 对齐,CODE-QWEN/MATH-QWEN 专用模型。原文:Qwen Technical Report。更新:2026-05-07
-
Qwen2.5-VL 技术报告 — 阿里 Qwen2.5-VL:窗口注意力 ViT + 动态 FPS + 绝对时间 MRoPE,4.1T tokens,72B 匹配 GPT-4o。原文:Qwen2.5-VL Technical Report。更新:2026-05-07
-
Qwen3-VL 技术报告 — Qwen3-VL:Interleaved MRoPE + DeepStack 跨层融合 + 文本时间戳,原生 256K 上下文,纯文本不退化,Dense + MoE 全尺寸。原文:Qwen3-VL Technical Report。更新:2026-05-07
-
Qwen-Image 技术报告 — Qwen-Image (2025, 阿里):MMDiT 20B + Qwen2.5-VL 条件编码,复杂文字渲染(中文 97.3% Level-1)、双编码图像编辑、MSRoPE 位置编码。原文:Qwen-Image Technical Report。更新:2026-05-07
-
DeepSeek-V2 技术报告 — MLA 首次引入:236B MoE/21B 激活,KV cache 减少 93.3%,训练成本减 42.5%。原文:DeepSeek-V2 A Strong, Economical, and Efficient Mixture-of-Experts Language Model.md。更新:2026-04-30
-
DeepSeek-Coder-V2 代码智能 — 338 语言代码特化,GPT4-Turbo 级,开源首次对标闭源。原文:DeepSeek-Coder-V2 Breaking the Barrier of Closed-Source Models in Code Intelligence.md。更新:2026-04-30
-
MiniMax-M1 测试时计算扩展 — Lightning Attention + CISPO RL,100 万 token 上下文,长推理仅为 R1 的 25% FLOPs。原文:MiniMax-M1 Scaling Test-Time Compute Efficiently with Lightning Attention.md。更新:2026-04-30
-
MiniMax-01 Lightning Attention — MiniMax-01:456B MoE + lightning attention,首次大规模线性注意力落地,训练 1M / 推理 4M token 上下文。原文:MiniMax-01: Scaling Foundation Models with Lightning Attention。更新:2026-05-07
-
gpt-oss 开源模型 — OpenAI 首次 Apache 2.0 开源推理模型:120B+20B,可调 reasoning effort。原文:gpt-oss-120b & gpt-oss-20b Model Card.md。更新:2026-04-30
-
OneRec Technical Report 2025 — OneRec 技术报告:端到端生成式推荐,10x FLOPs,scaling laws,RL,MFU 28.8%,OPEX 10.6%。原文:OneRec Technical Report。更新:2026-04-30
-
OneRec Unifying Retrieve and Rank 2025 — OneRec 统一召回排序:session-wise 生成,DPO+self-hard negatives,MoE 扩展。原文:OneRec Unifying Retrieve and Rank with Generative Recommender and Preference Alignment。更新:2026-04-30
-
OneRec-Think 2025 — OneRec-Think:CoT 推理引入推荐,Itemic Alignment+Reasoning Activation+Enhancement。原文:OneRec-Think In-Text Reasoning for Generative Recommendation。更新:2026-04-30
-
OneRec-V2 Technical Report 2025 — OneRec-V2:Lazy Decoder-Only 架构,94% 计算量降低,8B 参数,真实用户反馈 RL。原文:OneRec-V2 Technical Report。更新:2026-04-30
-
OpenOneRec Technical Report 2025 — OpenOneRec:开源推荐基础模型 1.7B/8B,RecIF-Bench,scaling laws。原文:OpenOneRec Technical Report An Open Foundation Model and Benchmark to Accelerate Generative Recommendation。更新:2026-04-30
-
OneTrans 2025 — OneTrans:统一 Transformer 排序模型,mixed parameterization + pyramid stack,5.68% GMV/u。原文:OneTrans Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender。更新:2026-04-30
-
HyFormer 2025 — HyFormer:交替 Query Decoding + Query Boosting,统一序列建模与特征交互。原文:HyFormer Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction。更新:2026-04-30
-
InterFormer 2024 — InterFormer:双向异构交互学习,Interaction Arch + Sequence Arch + Cross Arch。原文:InterFormer Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction。更新:2026-04-30
-
AHE Agentic Harness Engineering — AHE:可观测性驱动的编码 Agent 线束自动演化,三大支柱闭环,10 轮提升 7.3pp。原文:Agentic Harness Engineering Observability-Driven Automatic Evolution of Coding-Agent Harnesses。更新:2026-05-03
-
Self-Evolving Agents 综述 — 自演化智能体系统性综述:模型中心→环境中心→模型-环境协同演化三大范式,厦门大学 2026。原文:A Systematic Survey of Self-Evolving Agents.md。更新:2026-05-06
-
GLM-5 从 Vibe Coding 到 Agentic Engineering — GLM-5 (2025, 智谱):744B MoE + DSA 稀疏注意力,Vibe Coding→Agentic Engineering 范式转变,CC-Bench-V2 真实工程评估。原文:GLM-5: from Vibe Coding to Agentic Engineering。更新:2026-05-07
-
Thinking with Visual Primitives — DeepSeek:将空间标记(box/point)提升为最小思维单元,解决 Reference Gap,极致 token 效率,计数/空间/拓扑推理达前沿水平。原文:Thinking with Visual Primitives。更新:2026-05-07
-
VLM2Vec-V2 — VLM2Vec-V2 (Salesforce):统一多模态嵌入框架,扩展至视频和视觉文档,MMEB-V2 78 任务 benchmark,2B 模型总体得分 58.0。原文:VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents。更新:2026-05-07
-
LLM 可扩展水印 — SynthID-Text (Google DeepMind, Nature 2024):Tournament sampling 生成式水印,Gemini 2000 万响应实测质量无损,首次大规模生产部署。原文:Scalable watermarking for identifying large language model outputs。更新:2026-05-07
-
Kimi Linear 高效注意力架构 — Kimi Linear:混合线性注意力架构,KDA 细粒度 channel-wise 门控 + 3:1 KDA/MLA 混合,首次在公平比较下超越全注意力,KV cache 减少 75%,1M 上下文解码 6.3x 加速。原文:Kimi Linear: An Expressive, Efficient Attention Architecture。更新:2026-05-07
-
Emu3 原生多模态模型 — Emu3 (BAAI):纯 next-token prediction 训练的原生多模态模型,8B 参数统一图像/视频/文本,超越 SDXL 和 LLaVA-1.6。原文:Emu3: Next-Token Prediction is All You Need。更新:2026-05-07
-
PaperBanana — PaperBanana:多智能体协作自动生成出版级学术插图(方法论图+统计图),参考驱动+审美迁移+迭代自批评。原文:PaperBanana: Automating Academic Illustration for AI Scientists。更新:2026-05-07
-
Gen-Searcher — Gen-Searcher (2026, CUHK/UCLA/UCB):首个搜索增强图像生成智能体,SFT + agentic RL 双重奖励,KnowGen 基准,K-Score 指标。原文:Gen-Searcher: Reinforcing Agentic Search for Image Generation。更新:2026-05-07
-
Seedance 2.0 视频生成 — Seedance 2.0 (2026, ByteDance):统一多模态音视频联合生成,T2V/I2V/R2V 全面领先,Arena.AI 双榜第一。原文:Seedance 2.0: Advancing Video Generation for World Complexity。更新:2026-05-07
-
Unify-Agent — Unify-Agent:首个端到端统一多模态智能体,Think-Research-Recaption-Generate 四阶段流水线实现世界知识驱动的事实性图像生成。基于 Bagel-14B,FactIP Overall 73.2 超基座 22 分。原文:Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis。更新:2026-05-07
-
生成式推荐综述 — 生成式推荐综述 (Hou et al. 2025):数据-模型-任务三元框架,覆盖 LLM-based/LRM/Diffusion 三条路线,200+ 篇论文系统梳理。原文:A Survey on Generative Recommendation: Data, Model, and Tasks。更新:2026-05-07
Concepts
- 扩散模型原理 — DDPM 的前向/反向过程、噪声调度、与 Flow Matching 的关系。更新:2026-04-30
- 归一化流 Normalizing Flows — 可逆变换、变量替换公式、Jacobian 行列式、耦合/自回归/连续流架构。更新:2026-05-07
- Flow Matching — Flow Matching 原理、与扩散模型的关系、为什么更快、OT 路径。更新:2026-04-30
- llm-wiki-pattern — LLM Wiki 模式:利用 LLM 增量维护持久化知识库的方法论。更新:2026-04-29
- 多模态指令编辑与生成 — 多模态指令编辑与生成任务的定义、与传统任务的区别和技术挑战。更新:2026-04-29
- 情感图像编辑 — AIM 和 IET 的任务定义、技术演进(颜色→内容)与核心挑战。更新:2026-04-30
- Valence-Arousal 情感模型 — Russell 的连续情感表示模型,离散 vs 连续情感控制的对比。更新:2026-04-30
- AI 生成图像的情感偏差 — AI 生成模型系统性地偏向负面情感(fear)的问题。更新:2026-04-30
- Scaling Laws — 缩放定律:模型规模、数据量与计算预算的最优分配关系(Chinchilla 定律)。更新:2026-04-30
- RLHF — 人类反馈强化学习:SFT→RM→PPO 三阶段对齐流程及 DPO 演进。更新:2026-04-30
- RoPE 旋转位置编码 — 旋转位置编码:通过旋转矩阵融合绝对位置与相对位置依赖。更新:2026-04-30
- GPT 系列模型 — GPT 系列全貌:从 GPT-1 到 GPT-4o 的能力演进。更新:2026-04-30
- LLM Agent 架构 — LLM Agent 的 Profile-Memory-Planning-Action 四大模块设计空间。更新:2026-04-30
- 多模态 Embedding 模型 — CLIP 双塔 vs MLLM 统一架构的范式对比与核心技术。更新:2026-04-30
- PDF 文档解析 — PDF 文档解析的两大范式(Pipeline vs VLM)及评估标准。更新:2026-04-30
- Chain-of-Thought 思维链 — CoT:通过提示引导 LLM 逐步推理,涌现能力,复杂推理的基座技术。更新:2026-04-30
- 多模态对比学习 — 对比损失将不同模态映射到共享嵌入空间(CLIP/SigLIP/CLAP)。更新:2026-04-30
- 原生多模态模型 — 用统一架构和统一目标同时处理多模态,与组装式方案的关键区别。更新:2026-04-30
- MoE 混合专家模型 — Mixture of Experts:从 Google Brain (2017) → Switch Transformer (2021) → DeepSeek/Kimi/Qwen (2024-2025) 的历史演进与对比。更新:2026-04-30
- 推理模型与强化学习 — RL 驱动的推理能力训练:GRPO vs online mirror descent,R1-Zero 涌现 vs long2short vs 统一模式。更新:2026-04-30
- 多模态 Agent — Agent 从纯文本到多模态的演进:Agent Swarm、工具使用、联合 RL、数据合成。更新:2026-04-30
- LoRA 低秩适配 — 参数高效微调:低秩分解,10,000 倍参数减少,已从 NLP 扩展到扩散模型生态。更新:2026-04-30
- MAE 掩码自编码器 — Kaiming He:75% 掩码率非对称自编码器,将 NLP 的 masked modeling 引入 CV。更新:2026-04-30
- RAG 检索增强生成 — 检索+生成:解决 LLM 幻觉、知识截止和不可追溯性。更新:2026-04-30
- NSA 原生稀疏注意力 — DeepSeek 的动态层级稀疏注意力,硬件对齐+原生训练,高效长上下文建模。更新:2026-04-30
- 测试时计算扩展 — thinking budget、Lightning Attention、CISPO:推理阶段的效率 scaling。更新:2026-04-30
- 生成式推荐 — 生成式推荐范式:用自回归生成替代传统检索排序,语义 ID tokenization + decoder-only 架构。更新:2026-04-30
- CTR 预估 — CTR 预估核心任务:特征交互 + 序列建模,从分离式 pipeline 到统一 Transformer 的演进。更新:2026-04-30
- DiT 扩散 Transformer — Transformer 替代 UNet 成为扩散模型骨干,adaLN-Zero 条件注入,Scaling Law 跨架构迁移的胜利。更新:2026-04-30
- GRPO 分组相对策略优化 — DeepSeek 的去 Critic RL 算法,组内相对比较替代价值函数,降低 RL 训练门槛。更新:2026-04-30
- DPO 直接偏好优化 — 绕过 reward model 的直接偏好对齐,RLHF 的简化替代方案,对齐成本最优解。更新:2026-04-30
- MLA 多头潜在注意力 — DeepSeek 的低秩 KV cache 压缩,93.3% 推理内存减少,让 MoE 推理变为经济可行。更新:2026-04-30
- CLIP 对比语言图像预训练 — OpenAI 的双塔多模态基石,零样本分类 + 语言作为视觉通用监督信号的方法论革命。更新:2026-04-30
- 知识蒸馏 — 从模型压缩到推理能力迁移,DeepSeek-R1 蒸馏到 Kimi long2short 的范式演变。更新:2026-04-30
- VQ-VAE 离散 Token 化 — VQ-VAE 原理、RQ-Kmeans 变体、codebook 设计、连续 vs 离散表示的架构选择。更新:2026-05-01
- Agent 图像编辑 — 推理-规划-执行-验证闭环的编辑新范式,GoT/Mind-Brush/VisionCreator/Agent Banana 全景。更新:2026-05-01
- 审美评估与推理 — 从 LAION predictor 到 Aes-R1 RAPO 的审美评分与推理,编辑的「北星」标尺。更新:2026-05-01
- 编辑数据合成方法 — 五代数据合成范式(纯合成→真实+LLM→自适应→层级分类→情感特化→多参考)。更新:2026-05-01
- Agentic Harness Engineering (AHE) — 可观测性驱动的 harness 自动演化闭环:三大支柱(组件/经验/决策可观测性)+ 编辑即契约。更新:2026-05-03
- Harness 编码 Agent 线束 — 编码 Agent 的 7 种模型外部可编辑工程组件,文件级解耦实现可演化性。更新:2026-05-03
- Self-Evolving Agents 自演化智能体 — 以最小人类监督自主协调改进循环的 Agent 范式:强自主性+主动探索,三大演化方向。更新:2026-05-06
Entities
- Seedream 系列模型 — Seedream 2.0→3.0→4.0 演进,字节跳动中英双语图像生成基础模型系列。更新:2026-04-30
- DreamOmni2 — CUHK & ByteDance 联合提出的多模态指令编辑生成模型。更新:2026-04-29
- BAGEL — ByteDance Seed 的 MoT 架构统一多模态基础模型,支持图文交错生成。更新:2026-04-30
- Transformer — 现代 AI 架构基石:纯注意力驱动的序列到序列模型。更新:2026-04-30
- UniWorld-V1 — 北京大学的高分辨率语义编码器统一框架。更新:2026-04-30
- Tuna-2 — Meta AI 的无编码器统一多模态模型。更新:2026-04-30
- Lumina-DiMOO — 上海 AI Lab 的纯离散扩散统一多模态模型。更新:2026-04-30
- OmniGen2 — BAAI 的指令对齐统一多模态生成模型。更新:2026-04-30
- Show-o2 — NUS Show Lab 的原生统一多模态模型(图文视频)。更新:2026-04-30
- EmoEdit — 深圳大学等:首个内容感知 AIM 框架,Emotion adapter。更新:2026-04-30
- EmoArt — 吉林大学等:132K 艺术情感数据集,56 风格多维标注。更新:2026-04-30
- EmotiCrafter — 同济大学等:首个连续 V-A 图像生成模型。更新:2026-04-30
- InstructPix2Pix — 指令式图像编辑奠基工作,GPT-3+SD 合成配对数据。更新:2026-04-30
- ControlNet — UNet 扩散模型条件控制范式,零卷积 + Lock-Copy 架构。更新:2026-04-30
- Step1X-Edit — MLLM+Diffusion 混合编辑框架,对标 GPT-4o。更新:2026-04-30
- GoT — 首个 Chain-of-Thought 引导的生成框架,先推理再生成。更新:2026-04-30
- EditWorld — 世界指令编辑,物理动态感知。更新:2026-04-30
- Mind-Brush — Agent think-research-create 范式,外部知识驱动。更新:2026-04-30
- VisionCreator — 原生视觉生成 Agent,UTPC 全流程 + VRL 强化学习。更新:2026-04-30
- OminiControl — DiT 极简控制,仅 0.1% 额外参数。更新:2026-04-30
- Vision Transformer (ViT) — 首个纯 Transformer 视觉分类模型,ICLR 2021,开启 CNN-free 时代。更新:2026-04-30
- Swin Transformer — 层级化通用视觉 backbone,ICCV 2021 最佳论文。更新:2026-04-30
- Agent Banana — Agentic Planner-Executor 高保真图像编辑框架。更新:2026-04-30
- DeepSeek 系列模型 — DeepSeek LLM → V2 → V3 → V3.2 → R1 完整演进,MLA/MoE/GRPO/Agent 技术栈。更新:2026-04-30
- Kimi 系列模型 — k1.5 → K2 → K2.5 → VL 演进,长上下文 RL/Agent/多模态 能力递进。更新:2026-04-30
- Qwen3 — Dense+MoE 双架构,统一思考/非思考模式,thinking budget 机制。更新:2026-04-30
- OneRec 系列模型 — 快手端到端生成式推荐模型系列:V0 统一召回排序 → V1 技术报告 → V2 Lazy Decoder-Only → Think CoT 推理 → OpenOneRec 开源。更新:2026-04-30
- FLUX — Black Forest Labs 的 Flow Matching + DiT 开源图像生成模型,SD 原团队”重做版”。更新:2026-04-30
- GPT-4o — OpenAI 首个端到端全模态 omni 模型,232ms 语音延迟,全模态统一的技术里程碑。更新:2026-04-30
Topics
- 扩散模型与 Flow Matching 基础 — DDPM→Flow Matching→FLUX Kontext→Seedream 的生成模型基础脉络。来源数:6。更新:2026-04-30
- 扩散模型图像编辑与生成 — 指令编辑→统一多模态→推理编辑→图层分解编辑的完整演进。来源数:26。更新:2026-04-30
- 情感计算与图像生成 — 情感图像编辑、生成、数据集与偏差审计。来源数:5。更新:2026-04-30
- 大语言模型基础 — LLM 架构、缩放定律与对齐方法全景(2017-2024)。来源数:10。更新:2026-04-30
- LLM Agent 与工具使用 — Agent 架构综述(Brain-Perception-Action + Profile-Memory-Planning-Action)+ Agent 社会仿真 + Agent Banana 图像编辑 + AHE harness 自动演化 + Self-Evolving Agents 自演化范式。来源数:6。更新:2026-05-07
- 多模态 Embedding 与检索 — 4 个 MLLM Embedding 模型:效率、物体级、多模态、工业级。来源数:4。更新:2026-04-30
- 多模态 Benchmark 与评估 — OCRBench v2 + OmniDocBench + olmOCR 评估体系。来源数:3。更新:2026-04-30
- Vision Transformer 演进 — ViT → Swin → MLP-Mixer 的 Vision 基础模型架构演进。来源数:3。更新:2026-04-30
- 推理增强方法 — CoT → ToT → GoT → 推理模型 的推理方法演进。来源数:4。更新:2026-04-30
- 国产大模型演进 — DeepSeek/Kimi/Qwen 三条国产大模型主线串联:MoE 架构、RL 推理、Agent 能力。来源数:9。更新:2026-04-30
- 目标检测基础 — YOLO 一阶段 vs DETR/DINO 端到端检测的两条技术路线。来源数:2。更新:2026-04-30
- 生成式推荐系统 — 推荐系统两大研究方向:端到端生成式推荐(OneRec 系列)+ CTR 预估统一架构(OneTrans/HyFormer/InterFormer)。来源数:8。更新:2026-04-30
Comparisons
- 统一多模态模型架构比较 — 7 个 UMM 架构对比 + 编码器之争、离散vs连续、涌现vs高效的深度分析。更新:2026-04-30
- 指令编辑数据集比较 — 7 个编辑数据集全维度对比 + 五种数据生成范式演进分析。更新:2026-04-30
- 情感表示方法比较 — 离散 vs 连续情感 + EmoEdit vs EmotiCrafter 深度对比 + 融合方案。更新:2026-04-30
- 编辑方法能力演进 — 从 IP2P 到 VisionCreator 的五代能力矩阵 + 关键转折点分析。更新:2026-04-30
- README — 比较页面目录入口。更新:2026-04-30
- 多模态 Embedding 模型比较 — Magic-MM-Embedding vs ObjEmbed vs RzenEmbed vs SAIL-Embedding 四维度对比。更新:2026-04-30
- 推理增强方法比较 — CoT→ToT→GoT→推理模型:外部提示到内部训练的范式转移,有效思考量统一框架。更新:2026-04-30
- Vision Transformer 架构比较 — ViT→Swin→MLP-Mixer:归纳偏置剥离实验视角,通用 backbone 之争。更新:2026-04-30
- LLM 缩放定律比较 — Kaplan vs Chinchilla:方法论偏置、过度训练策略、MoE 缩放定律扩展。更新:2026-04-30
- GPT 系列代际比较 — GPT-1 到 GPT-4o:规模→方法→模态的驱动力转移,技术保密困境。更新:2026-04-30
- 扩散模型架构比较 UNet vs DiT — UNet 与 DiT 的全维度对比,归纳偏置”资产到负债”的转换,规模化时代的架构选择。更新:2026-04-30
- 推理模型训练方法比较 DeepSeek-R1 vs Kimi k1.5 vs Qwen3 — 三家推理模型训练方案的全流程对比,对”推理从何而来”的不同回答。更新:2026-04-30
Questions
- 关于统一多模态模型的问题 — 关于统一多模态模型的问题。更新:2026-04-30
- BAGEL 图文交错生成能力 — BAGEL 是否支持图文交错生成?架构分析与模型对比。更新:2026-04-30
- 为什么 MCTS 在 LLM 推理中失败了 — 蒙特卡洛树搜索在围棋成功但在 LLM 推理中缺席的深层原因:问题结构不匹配、成本、隐式搜索。更新:2026-04-30
- 知识蒸馏 vs RL 哪种方式更能有效获得推理能力 — DeepSeek-R1 蒸馏 > 直接 RL 的反直觉发现分析,分层策略建议。更新:2026-04-30
- 多模态模型的最终形态是原生统一还是模块化组装 — 原生 vs 模块化路线之争的深层分析,短期/中期/长期预测。更新:2026-04-30