Task
- 这篇论文要解决的具体任务是什么?
- 小参数量(8b~30b)开源模型在multi-turn搜索和验证才能解决的问题上的搜索轮次和准确率上远低于商业模型
Challenge
- 以前的方法遇到了什么技术挑战(Technical Challenge)?(即为什么这很难?)
- multi-turn search agent训练稳定性差,web search api价格昂贵,方法未完全开源、纰漏
Insight
- Insight (洞察): 解决这个挑战的核心一句话思路(Key Insight)是什么?
- ◦ 注:Insight 是高层的思想,不同于具体的技术贡献。
- 为了保证训练的稳定,对于不同的异常/错误行为做了不同的处理,比如模型导致的异常直接0reward
Contribution
Contribution (贡献): 具体的 Technical contributions 是什么?
◦ 每个贡献的具体做法是什么?
◦ 这样做的 Technical advantage(技术优势)是什么?
- 提供了一个部署和稳定训练经验的tutorial,大幅提高搜索轮次和准确率
- 数据:
- 训练:wikipedia的本地数据集
- validation和test:browser comp plus也可以基于本地搜索
- refine agent,不直接把search tool的结果返回而是走一个refine agent
Experiments (实验):
◦ 核心贡献(Core contributions)对性能有什么影响?(看 Ablation studies)
◦ Limitation (局限): 在什么样的数据上会存在 Failure cases?