核心贡献(Core contributions)对性能有什么影响?(看 Ablation studies)Limitation (局限): 在什么样的数据上会存在 Failure cases?
- SFT 冷启动是必须的:不做 SFT 直接 RL → GAIA Pass@3 仅 5%,基本不可用。
- 数据构成 (Figure 3):最终经过精心过滤的 6,550 条数据在 Consistency 指标上优于使用全部 17,764 条。数据质量 > 数据量。
- RL 的效果 (Figure 4):对非推理模型(7B, 32B),RL 带来显著提升(Pass@1 +5.8~7.7%)。对 LRM(QwQ),Pass@1 提升较小(+1.95%),但 consistency 显著提升,说明 RL 让 LRM 的输出更稳定。
- Long-CoT vs Short-CoT 跨模型迁移 (Table 3):Long-CoT 数据对非推理模型反而引入高 invalid rate(7B: 21.36%, 32B: 13.59%),说明推理模式不能简单跨模型迁移。这与 Li et al. 2025 的发现一致。
- RL 产生了涌现行为 (Figure 5b):RL 后模型的 action count 和 reasoning length 都增加了,说明模型自主学会了更复杂的搜索策略(如迭代反思、假设检验)。
- Web 环境的非平稳性:调整 temperature 对性能影响很小(Figure 5c),性能波动主要来自 Web 环境本身的动态变化。即使在同一测试集上做 memorization stress test(SFT 10 epochs),greedy decoding 也只达到 37.4%。
- benchmark上的成绩:
