Paper
Task
- 这篇论文要解决的具体任务是什么?
- 让开源模型browse comp上表现出超越人类的能力
- OpenAI deep research已经有了超人表现,但是开源智能体没有
Challenge
- 以前的方法遇到了什么技术挑战(Technical Challenge)?(即为什么这很难?)
- 在需要数十次工具调用的长网络任务,推理链太长导致大模型的上下文窗口不够
- 以前的开源大模型和agent训练范式上集中在第一级和第二级的任务上,数据集没有接触到第三级挑战,所以在Browse Comp en上表现很差。即都是线性多条问题,而不是模糊的复杂问题(比如 xxx左右、大概是xxx,这种模糊问题)
- 数据轨迹构建:很多LRM的reasoning太长了,不能直接用LRM来生成轨迹数据
Insight
- Insight (洞察): 解决这个挑战的核心一句话思路(Key Insight)是什么?
- 注:Insight 是高层的思想,不同于具体的技术贡献。
- 过去的开源模型/agent无法解决L3级问题(模糊复杂问题)的搜索回答问题,通过构造L3问答对和轨迹数据和提出DUPO算法来训练模型解决L3级问题的能力。
Contribution (贡献):
- 具体的 Technical contributions 是什么?
- 每个贡献的具体做法是什么?
- 这样做的 Technical advantage(技术优势)是什么?
- 训练数据合成-问答对
- 避免线性连通图,而是一个复杂相互交织的稠密连通图,然后从中采样子图,并且进行模糊化
- 训练数据合成-推理轨迹
- 冷启动 RFT
- 用LRM产生完整轨迹,删掉所有思考过程,只留下action和observation
- 然后用一个新的模型通过prompt并且提供t-1的轨迹和at、ot要求它生成t时刻的简洁思考
- 来得到完整推理轨迹
- RL算法
- 智能体推理任务和传统推理任务(比如RLVR)的最大不同:多轮次roll out因此与环境交互时长格外重要
- 肯定不能DAPO(补充rollout)因为web交互时间会太长
- 注意,这里算loss只算output的token
- 奖励:给了0.1系数的format奖励和0.9的答案验证奖励
- Reward是广播给所有output token的,而重要性采样是要看每一个时间t的
- 结果
- 代码开源
Experiments (实验):
- 核心贡献(Core contributions)对性能有什么影响?(看 Ablation studies)
- Limitation (局限): 在什么样的数据上会存在 Failure cases?
Question
- DAPO这种动态补充采样慢我能理解,DUPO为什么能快那么多?