矛盾与待核实问题

活跃矛盾

1. Kaplan vs Chinchilla：缩放定律的分歧

矛盾：

Kaplan et al. (2020, OpenAI)：模型规模是最重要的缩放维度，数据规模的影响较小
Chinchilla (2022, DeepMind)：计算最优时，模型参数和训练 token 应等比例增长

状态：Chinchilla 定律在 2022 年后成为公认的正确版本，但 2024-2025 年的实践（DeepSeek-V3 14.8T tokens、Llama 3 15T tokens）显示多数模型都在”过度训练”（token 远超 Chinchilla 最优）。这说明 Chinchilla 是正确的”计算最优”，但工业实践追求的是”成本最优”——训练更小的模型、喂更多数据、花同样钱、得到更好的推理效率和可部署性。

待核实：Chinchilla 的公式 $N_{o pt} \propto C^{0.5}$ , $D_{o pt} \propto C^{0.5}$ 在数据质量波动的情况下是否仍然成立？不同数据质量是否改变指数？

来源：LLM 缩放定律比较

2. 原生 vs 组装：多模态路线之争

矛盾：

Show-o2, Emu3.5 认为原生统一模型是未来（一个模型处理所有模态）
BAGEL MoT, LLaVA 认为模块化组装更实际（各模态最优编码器 + 共享主干）
Kimi K2.5 的 zero-vision SFT 甚至暗示某些”多模态”需求可能不需要视觉模型

状态：两者在 2025 年同时演进。原生统一派的工程投入大但可能上限高，模块化派的迭代快但可能触碰信息瓶颈。BAGEL 的 MoT 方案（统一 Transformer + 模态特定 token 处理）可能是第三条路。K2.5 的发现是最反直觉的——它在加入视觉 SFT 之前就已经有不错的多模态理解，暗示当前的”多模态 Agent”可能部分来自纯文本的推理能力，而非真正的跨模态理解。

待核实：在一个公平的比较中（同等计算预算、同等数据），原生统一架构是否真的优于模块化组装？目前缺乏这样的 controlled experiment。

来源：统一多模态模型架构比较、多模态模型的最终形态是原生统一还是模块化组装

3. 蒸馏 vs RL：推理能力获取的最优路径

矛盾：

DeepSeek-R1 报告显示蒸馏 7B > 直接 RL 7B
但 R1-Zero 证明了纯 RL 可以从零获取推理能力（在 671B 上）
Kimi k1.5 使用 long2short 蒸馏而不是直接训练小推理模型

状态：当前证据表明，蒸馏在中小模型上更高效，RL 在大模型上探索上限更高。但这可能只是”当前 RL 技术在小模型上还不够好”的问题——如果未来有更好的小模型 RL 方法（如更好的 reward 设计或更高效的探索策略），结论可能改变。

待核实：

同一个模型家族内，蒸馏和 RL 的交叉点（crossover point）在什么规模？
蒸馏传递的到底是什么——推理模式、知识还是两者？
多次链式蒸馏（R1→32B→7B→1.5B）的衰减曲线是怎样的？

来源：知识蒸馏 vs RL 哪种方式更能有效获得推理能力

4. MCTS 在推理模型中的”缺席”

矛盾：

2023 年的 ToT/GoT 研究认为显式树/图搜索是增强推理的关键
2024-2025 年的所有成功推理模型（R1, k1.5, Qwen3, o1/o3）都放弃了显式搜索
取而代之的是让模型在单一推理链中隐式地进行”搜索”（self-verification, backtracking 作为文本操作）

状态：这本质上是一个”显式搜索 vs 隐式搜索”的问题。LLM 的前向生成过程本身是否已经在做某种形式的隐式搜索？如果是，那 ToT/GoT 的显式搜索就是”在搜索之上再做搜索”，引入的额外成本大于收益。

待核实：

LLM 的内部推理过程是否真的是隐式 beam search？这需要可解释性研究验证
在多步交互式任务（如代码调试）中，显式搜索是否会重新变得有价值？

来源：为什么 MCTS 在 LLM 推理中失败了

5. 离散 vs 连续情感：图像编辑的情感表示

矛盾：

EmoEdit 使用离散情感类别（6+ 类）
EmotiCrafter 使用连续 V-A（Valence-Arousal）情感模型
两者都声称自己的方法更好

状态：两条路线的优劣可能取决于任务。离散类别在”明确的情感目标”上更好用（“让这张图更开心”），连续 V-A 在”微妙的情感过渡”和”情感混合”上更强大。这不是真正的矛盾，而是同一个问题的两个分辨率层次——但两个社区对”谁的方案是正确答案”存在争论。

待核实：人类是否以离散或连续的方式感知情感？这个问题直接影响哪种技术方案更”正确”。心理学在此问题上仍有争议。

来源：情感表示方法比较

6. Flow Matching vs Diffusion：谁在生成质量上更优

矛盾：

Flow Matching 论文声称 ODE 路径比 SDE（DDPM）更高效、质量更好
但在实际产品中（FLUX vs SD3），两者差距并不大，训练的工程细节（数据、配方）似乎比 ODE vs SDE 的选择更重要
Seedream 系列（Flow Matching + DiT）和 FLUX（Flow Matching + DiT）的成功不能简单归因于 Flow 优于 Diffusion

状态：Flow Matching 在理论上更优雅（直线路径、确定性的 ODE），但在实践中的优势可能来自配套的工程改进而不是公式本身。当鲁棒性和大规模训练优化到位后，DDPM 和 Flow 的质量差距可能小于随机种子带来的差异。

待核实：在严格控制的实验条件下（同架构、同数据、同计算预算），Flow Matching 和 DDPM 的质量差异到底有多大？目前没有看到这样干净的消融实验。

来源：Flow Matching 生成建模、扩散模型架构比较 UNet vs DiT

低优先级观察

RLHF 的必要性：InstructGPT 证明 RLHF 有效，但 DPO 的流行暗示 PPO 可能过度复杂。RLHF 是否真的需要 RL 组件，还是 DPO 已经足够？
数据质量 vs 数据量：Chinchilla 和 Scaling Laws 都假设数据质量恒定，但实际中数据质量和数量的 trade-off 是被低估的最大变量
GPT-4 的技术报告透明度：相比 DeepSeek 和 Qwen3 的详细技术报告，GPT-4 的技术报告几乎没有技术细节。这是商业竞争需要，还是可复现性倒退？

已解决的矛盾

（暂无——上述矛盾仍处于活跃状态）

更新记录

2026-04-30：初始填充，记录 6 个活跃矛盾

Blog1

探索

Contradictions