矛盾与待核实问题
活跃矛盾
1. Kaplan vs Chinchilla:缩放定律的分歧
矛盾:
- Kaplan et al. (2020, OpenAI):模型规模是最重要的缩放维度,数据规模的影响较小
- Chinchilla (2022, DeepMind):计算最优时,模型参数和训练 token 应等比例增长
状态:Chinchilla 定律在 2022 年后成为公认的正确版本,但 2024-2025 年的实践(DeepSeek-V3 14.8T tokens、Llama 3 15T tokens)显示多数模型都在”过度训练”(token 远超 Chinchilla 最优)。这说明 Chinchilla 是正确的”计算最优”,但工业实践追求的是”成本最优”——训练更小的模型、喂更多数据、花同样钱、得到更好的推理效率和可部署性。
待核实:Chinchilla 的公式 , 在数据质量波动的情况下是否仍然成立?不同数据质量是否改变指数?
来源:LLM 缩放定律比较
2. 原生 vs 组装:多模态路线之争
矛盾:
- Show-o2, Emu3.5 认为原生统一模型是未来(一个模型处理所有模态)
- BAGEL MoT, LLaVA 认为模块化组装更实际(各模态最优编码器 + 共享主干)
- Kimi K2.5 的 zero-vision SFT 甚至暗示某些”多模态”需求可能不需要视觉模型
状态:两者在 2025 年同时演进。原生统一派的工程投入大但可能上限高,模块化派的迭代快但可能触碰信息瓶颈。BAGEL 的 MoT 方案(统一 Transformer + 模态特定 token 处理)可能是第三条路。K2.5 的发现是最反直觉的——它在加入视觉 SFT 之前就已经有不错的多模态理解,暗示当前的”多模态 Agent”可能部分来自纯文本的推理能力,而非真正的跨模态理解。
待核实:在一个公平的比较中(同等计算预算、同等数据),原生统一架构是否真的优于模块化组装?目前缺乏这样的 controlled experiment。
来源:统一多模态模型架构比较、多模态模型的最终形态是原生统一还是模块化组装
3. 蒸馏 vs RL:推理能力获取的最优路径
矛盾:
- DeepSeek-R1 报告显示蒸馏 7B > 直接 RL 7B
- 但 R1-Zero 证明了纯 RL 可以从零获取推理能力(在 671B 上)
- Kimi k1.5 使用 long2short 蒸馏而不是直接训练小推理模型
状态:当前证据表明,蒸馏在中小模型上更高效,RL 在大模型上探索上限更高。但这可能只是”当前 RL 技术在小模型上还不够好”的问题——如果未来有更好的小模型 RL 方法(如更好的 reward 设计或更高效的探索策略),结论可能改变。
待核实:
- 同一个模型家族内,蒸馏和 RL 的交叉点(crossover point)在什么规模?
- 蒸馏传递的到底是什么——推理模式、知识还是两者?
- 多次链式蒸馏(R1→32B→7B→1.5B)的衰减曲线是怎样的?
4. MCTS 在推理模型中的”缺席”
矛盾:
- 2023 年的 ToT/GoT 研究认为显式树/图搜索是增强推理的关键
- 2024-2025 年的所有成功推理模型(R1, k1.5, Qwen3, o1/o3)都放弃了显式搜索
- 取而代之的是让模型在单一推理链中隐式地进行”搜索”(self-verification, backtracking 作为文本操作)
状态:这本质上是一个”显式搜索 vs 隐式搜索”的问题。LLM 的前向生成过程本身是否已经在做某种形式的隐式搜索?如果是,那 ToT/GoT 的显式搜索就是”在搜索之上再做搜索”,引入的额外成本大于收益。
待核实:
- LLM 的内部推理过程是否真的是隐式 beam search?这需要可解释性研究验证
- 在多步交互式任务(如代码调试)中,显式搜索是否会重新变得有价值?
5. 离散 vs 连续情感:图像编辑的情感表示
矛盾:
- EmoEdit 使用离散情感类别(6+ 类)
- EmotiCrafter 使用连续 V-A(Valence-Arousal)情感模型
- 两者都声称自己的方法更好
状态:两条路线的优劣可能取决于任务。离散类别在”明确的情感目标”上更好用(“让这张图更开心”),连续 V-A 在”微妙的情感过渡”和”情感混合”上更强大。这不是真正的矛盾,而是同一个问题的两个分辨率层次——但两个社区对”谁的方案是正确答案”存在争论。
待核实:人类是否以离散或连续的方式感知情感?这个问题直接影响哪种技术方案更”正确”。心理学在此问题上仍有争议。
来源:情感表示方法比较
6. Flow Matching vs Diffusion:谁在生成质量上更优
矛盾:
- Flow Matching 论文声称 ODE 路径比 SDE(DDPM)更高效、质量更好
- 但在实际产品中(FLUX vs SD3),两者差距并不大,训练的工程细节(数据、配方)似乎比 ODE vs SDE 的选择更重要
- Seedream 系列(Flow Matching + DiT)和 FLUX(Flow Matching + DiT)的成功不能简单归因于 Flow 优于 Diffusion
状态:Flow Matching 在理论上更优雅(直线路径、确定性的 ODE),但在实践中的优势可能来自配套的工程改进而不是公式本身。当鲁棒性和大规模训练优化到位后,DDPM 和 Flow 的质量差距可能小于随机种子带来的差异。
待核实:在严格控制的实验条件下(同架构、同数据、同计算预算),Flow Matching 和 DDPM 的质量差异到底有多大?目前没有看到这样干净的消融实验。
来源:Flow Matching 生成建模、扩散模型架构比较 UNet vs DiT
低优先级观察
- RLHF 的必要性:InstructGPT 证明 RLHF 有效,但 DPO 的流行暗示 PPO 可能过度复杂。RLHF 是否真的需要 RL 组件,还是 DPO 已经足够?
- 数据质量 vs 数据量:Chinchilla 和 Scaling Laws 都假设数据质量恒定,但实际中数据质量和数量的 trade-off 是被低估的最大变量
- GPT-4 的技术报告透明度:相比 DeepSeek 和 Qwen3 的详细技术报告,GPT-4 的技术报告几乎没有技术细节。这是商业竞争需要,还是可复现性倒退?
已解决的矛盾
(暂无——上述矛盾仍处于活跃状态)
更新记录
- 2026-04-30:初始填充,记录 6 个活跃矛盾