Wiki Index

Overview

Sources

Concepts

  • 扩散模型原理 — DDPM 的前向/反向过程、噪声调度、与 Flow Matching 的关系。更新:2026-04-30
  • 归一化流 Normalizing Flows — 可逆变换、变量替换公式、Jacobian 行列式、耦合/自回归/连续流架构。更新:2026-05-07
  • Flow Matching — Flow Matching 原理、与扩散模型的关系、为什么更快、OT 路径。更新:2026-04-30
  • llm-wiki-pattern — LLM Wiki 模式:利用 LLM 增量维护持久化知识库的方法论。更新:2026-04-29
  • 多模态指令编辑与生成 — 多模态指令编辑与生成任务的定义、与传统任务的区别和技术挑战。更新:2026-04-29
  • 情感图像编辑 — AIM 和 IET 的任务定义、技术演进(颜色→内容)与核心挑战。更新:2026-04-30
  • Valence-Arousal 情感模型 — Russell 的连续情感表示模型,离散 vs 连续情感控制的对比。更新:2026-04-30
  • AI 生成图像的情感偏差 — AI 生成模型系统性地偏向负面情感(fear)的问题。更新:2026-04-30
  • Scaling Laws — 缩放定律:模型规模、数据量与计算预算的最优分配关系(Chinchilla 定律)。更新:2026-04-30
  • RLHF — 人类反馈强化学习:SFT→RM→PPO 三阶段对齐流程及 DPO 演进。更新:2026-04-30
  • RoPE 旋转位置编码 — 旋转位置编码:通过旋转矩阵融合绝对位置与相对位置依赖。更新:2026-04-30
  • GPT 系列模型 — GPT 系列全貌:从 GPT-1 到 GPT-4o 的能力演进。更新:2026-04-30
  • LLM Agent 架构 — LLM Agent 的 Profile-Memory-Planning-Action 四大模块设计空间。更新:2026-04-30
  • 多模态 Embedding 模型 — CLIP 双塔 vs MLLM 统一架构的范式对比与核心技术。更新:2026-04-30
  • PDF 文档解析 — PDF 文档解析的两大范式(Pipeline vs VLM)及评估标准。更新:2026-04-30
  • Chain-of-Thought 思维链 — CoT:通过提示引导 LLM 逐步推理,涌现能力,复杂推理的基座技术。更新:2026-04-30
  • 多模态对比学习 — 对比损失将不同模态映射到共享嵌入空间(CLIP/SigLIP/CLAP)。更新:2026-04-30
  • 原生多模态模型 — 用统一架构和统一目标同时处理多模态,与组装式方案的关键区别。更新:2026-04-30
  • MoE 混合专家模型 — Mixture of Experts:从 Google Brain (2017) → Switch Transformer (2021) → DeepSeek/Kimi/Qwen (2024-2025) 的历史演进与对比。更新:2026-04-30
  • 推理模型与强化学习 — RL 驱动的推理能力训练:GRPO vs online mirror descent,R1-Zero 涌现 vs long2short vs 统一模式。更新:2026-04-30
  • 多模态 Agent — Agent 从纯文本到多模态的演进:Agent Swarm、工具使用、联合 RL、数据合成。更新:2026-04-30
  • LoRA 低秩适配 — 参数高效微调:低秩分解,10,000 倍参数减少,已从 NLP 扩展到扩散模型生态。更新:2026-04-30
  • MAE 掩码自编码器 — Kaiming He:75% 掩码率非对称自编码器,将 NLP 的 masked modeling 引入 CV。更新:2026-04-30
  • RAG 检索增强生成 — 检索+生成:解决 LLM 幻觉、知识截止和不可追溯性。更新:2026-04-30
  • NSA 原生稀疏注意力 — DeepSeek 的动态层级稀疏注意力,硬件对齐+原生训练,高效长上下文建模。更新:2026-04-30
  • 测试时计算扩展 — thinking budget、Lightning Attention、CISPO:推理阶段的效率 scaling。更新:2026-04-30
  • 生成式推荐 — 生成式推荐范式:用自回归生成替代传统检索排序,语义 ID tokenization + decoder-only 架构。更新:2026-04-30
  • CTR 预估 — CTR 预估核心任务:特征交互 + 序列建模,从分离式 pipeline 到统一 Transformer 的演进。更新:2026-04-30
  • DiT 扩散 Transformer — Transformer 替代 UNet 成为扩散模型骨干,adaLN-Zero 条件注入,Scaling Law 跨架构迁移的胜利。更新:2026-04-30
  • GRPO 分组相对策略优化 — DeepSeek 的去 Critic RL 算法,组内相对比较替代价值函数,降低 RL 训练门槛。更新:2026-04-30
  • DPO 直接偏好优化 — 绕过 reward model 的直接偏好对齐,RLHF 的简化替代方案,对齐成本最优解。更新:2026-04-30
  • MLA 多头潜在注意力 — DeepSeek 的低秩 KV cache 压缩,93.3% 推理内存减少,让 MoE 推理变为经济可行。更新:2026-04-30
  • CLIP 对比语言图像预训练 — OpenAI 的双塔多模态基石,零样本分类 + 语言作为视觉通用监督信号的方法论革命。更新:2026-04-30
  • 知识蒸馏 — 从模型压缩到推理能力迁移,DeepSeek-R1 蒸馏到 Kimi long2short 的范式演变。更新:2026-04-30
  • VQ-VAE 离散 Token 化 — VQ-VAE 原理、RQ-Kmeans 变体、codebook 设计、连续 vs 离散表示的架构选择。更新:2026-05-01
  • Agent 图像编辑 — 推理-规划-执行-验证闭环的编辑新范式,GoT/Mind-Brush/VisionCreator/Agent Banana 全景。更新:2026-05-01
  • 审美评估与推理 — 从 LAION predictor 到 Aes-R1 RAPO 的审美评分与推理,编辑的「北星」标尺。更新:2026-05-01
  • 编辑数据合成方法 — 五代数据合成范式(纯合成→真实+LLM→自适应→层级分类→情感特化→多参考)。更新:2026-05-01
  • Agentic Harness Engineering (AHE) — 可观测性驱动的 harness 自动演化闭环:三大支柱(组件/经验/决策可观测性)+ 编辑即契约。更新:2026-05-03
  • Harness 编码 Agent 线束 — 编码 Agent 的 7 种模型外部可编辑工程组件,文件级解耦实现可演化性。更新:2026-05-03
  • Self-Evolving Agents 自演化智能体 — 以最小人类监督自主协调改进循环的 Agent 范式:强自主性+主动探索,三大演化方向。更新:2026-05-06

Entities

  • Seedream 系列模型 — Seedream 2.0→3.0→4.0 演进,字节跳动中英双语图像生成基础模型系列。更新:2026-04-30
  • DreamOmni2 — CUHK & ByteDance 联合提出的多模态指令编辑生成模型。更新:2026-04-29
  • BAGEL — ByteDance Seed 的 MoT 架构统一多模态基础模型,支持图文交错生成。更新:2026-04-30
  • Transformer — 现代 AI 架构基石:纯注意力驱动的序列到序列模型。更新:2026-04-30
  • UniWorld-V1 — 北京大学的高分辨率语义编码器统一框架。更新:2026-04-30
  • Tuna-2 — Meta AI 的无编码器统一多模态模型。更新:2026-04-30
  • Lumina-DiMOO — 上海 AI Lab 的纯离散扩散统一多模态模型。更新:2026-04-30
  • OmniGen2 — BAAI 的指令对齐统一多模态生成模型。更新:2026-04-30
  • Show-o2 — NUS Show Lab 的原生统一多模态模型(图文视频)。更新:2026-04-30
  • EmoEdit — 深圳大学等:首个内容感知 AIM 框架,Emotion adapter。更新:2026-04-30
  • EmoArt — 吉林大学等:132K 艺术情感数据集,56 风格多维标注。更新:2026-04-30
  • EmotiCrafter — 同济大学等:首个连续 V-A 图像生成模型。更新:2026-04-30
  • InstructPix2Pix — 指令式图像编辑奠基工作,GPT-3+SD 合成配对数据。更新:2026-04-30
  • ControlNet — UNet 扩散模型条件控制范式,零卷积 + Lock-Copy 架构。更新:2026-04-30
  • Step1X-Edit — MLLM+Diffusion 混合编辑框架,对标 GPT-4o。更新:2026-04-30
  • GoT — 首个 Chain-of-Thought 引导的生成框架,先推理再生成。更新:2026-04-30
  • EditWorld — 世界指令编辑,物理动态感知。更新:2026-04-30
  • Mind-Brush — Agent think-research-create 范式,外部知识驱动。更新:2026-04-30
  • VisionCreator — 原生视觉生成 Agent,UTPC 全流程 + VRL 强化学习。更新:2026-04-30
  • OminiControl — DiT 极简控制,仅 0.1% 额外参数。更新:2026-04-30
  • Vision Transformer (ViT) — 首个纯 Transformer 视觉分类模型,ICLR 2021,开启 CNN-free 时代。更新:2026-04-30
  • Swin Transformer — 层级化通用视觉 backbone,ICCV 2021 最佳论文。更新:2026-04-30
  • Agent Banana — Agentic Planner-Executor 高保真图像编辑框架。更新:2026-04-30
  • DeepSeek 系列模型 — DeepSeek LLM V2 V3 V3.2 R1 完整演进,MLA/MoE/GRPO/Agent 技术栈。更新:2026-04-30
  • Kimi 系列模型 — k1.5 K2 K2.5 VL 演进,长上下文 RL/Agent/多模态 能力递进。更新:2026-04-30
  • Qwen3 — Dense+MoE 双架构,统一思考/非思考模式,thinking budget 机制。更新:2026-04-30
  • OneRec 系列模型 — 快手端到端生成式推荐模型系列:V0 统一召回排序 V1 技术报告 V2 Lazy Decoder-Only Think CoT 推理 OpenOneRec 开源。更新:2026-04-30
  • FLUX — Black Forest Labs 的 Flow Matching + DiT 开源图像生成模型,SD 原团队”重做版”。更新:2026-04-30
  • GPT-4o — OpenAI 首个端到端全模态 omni 模型,232ms 语音延迟,全模态统一的技术里程碑。更新:2026-04-30

Topics

  • 扩散模型与 Flow Matching 基础 — DDPM→Flow Matching→FLUX Kontext→Seedream 的生成模型基础脉络。来源数:6。更新:2026-04-30
  • 扩散模型图像编辑与生成 — 指令编辑→统一多模态→推理编辑→图层分解编辑的完整演进。来源数:26。更新:2026-04-30
  • 情感计算与图像生成 — 情感图像编辑、生成、数据集与偏差审计。来源数:5。更新:2026-04-30
  • 大语言模型基础 — LLM 架构、缩放定律与对齐方法全景(2017-2024)。来源数:10。更新:2026-04-30
  • LLM Agent 与工具使用 — Agent 架构综述(Brain-Perception-Action + Profile-Memory-Planning-Action)+ Agent 社会仿真 + Agent Banana 图像编辑 + AHE harness 自动演化 + Self-Evolving Agents 自演化范式。来源数:6。更新:2026-05-07
  • 多模态 Embedding 与检索 — 4 个 MLLM Embedding 模型:效率、物体级、多模态、工业级。来源数:4。更新:2026-04-30
  • 多模态 Benchmark 与评估 — OCRBench v2 + OmniDocBench + olmOCR 评估体系。来源数:3。更新:2026-04-30
  • Vision Transformer 演进 — ViT → Swin → MLP-Mixer 的 Vision 基础模型架构演进。来源数:3。更新:2026-04-30
  • 推理增强方法 — CoT → ToT → GoT → 推理模型 的推理方法演进。来源数:4。更新:2026-04-30
  • 国产大模型演进 — DeepSeek/Kimi/Qwen 三条国产大模型主线串联:MoE 架构、RL 推理、Agent 能力。来源数:9。更新:2026-04-30
  • 目标检测基础 — YOLO 一阶段 vs DETR/DINO 端到端检测的两条技术路线。来源数:2。更新:2026-04-30
  • 生成式推荐系统 — 推荐系统两大研究方向:端到端生成式推荐(OneRec 系列)+ CTR 预估统一架构(OneTrans/HyFormer/InterFormer)。来源数:8。更新:2026-04-30

Comparisons

Questions

此文件夹下有9条笔记。