Paper

https://arxiv.org/pdf/2507.02592v1

Task

这篇论文要解决的具体任务是什么？
- 让开源模型browse comp上表现出超越人类的能力
- OpenAI deep research已经有了超人表现，但是开源智能体没有

Challenge

以前的方法遇到了什么技术挑战（Technical Challenge）？（即为什么这很难？）
1. 在需要数十次工具调用的长网络任务，推理链太长导致大模型的上下文窗口不够
2. 以前的开源大模型和agent训练范式上集中在第一级和第二级的任务上，数据集没有接触到第三级挑战，所以在Browse Comp en上表现很差。即都是线性多条问题，而不是模糊的复杂问题（比如 xxx左右、大概是xxx，这种模糊问题）
3. 数据轨迹构建：很多LRM的reasoning太长了，不能直接用LRM来生成轨迹数据

Insight

Insight (洞察): 解决这个挑战的核心一句话思路（Key Insight）是什么？
注：Insight 是高层的思想，不同于具体的技术贡献。
- 过去的开源模型/agent无法解决L3级问题（模糊复杂问题）的搜索回答问题，通过构造L3问答对和轨迹数据和提出DUPO算法来训练模型解决L3级问题的能力。

Contribution (贡献):

具体的 Technical contributions 是什么？
每个贡献的具体做法是什么？
这样做的 Technical advantage（技术优势）是什么？
- 训练数据合成-问答对
  - 避免线性连通图，而是一个复杂相互交织的稠密连通图，然后从中采样子图，并且进行模糊化
- 训练数据合成-推理轨迹
  - 冷启动 RFT
  - 用LRM产生完整轨迹，删掉所有思考过程，只留下action和observation
  - 然后用一个新的模型通过prompt并且提供t-1的轨迹和at、ot要求它生成t时刻的简洁思考
  - 来得到完整推理轨迹
- RL算法
  - 智能体推理任务和传统推理任务（比如RLVR）的最大不同：多轮次roll out因此与环境交互时长格外重要
  - 肯定不能DAPO（补充rollout）因为web交互时间会太长
  - 注意，这里算loss只算output的token
  - 奖励：给了0.1系数的format奖励和0.9的答案验证奖励
  - Reward是广播给所有output token的，而重要性采样是要看每一个时间t的
- 结果
  - 开源agent sota
- 代码开源
  - search和visit两个工具

Experiments (实验):

核心贡献（Core contributions）对性能有什么影响？（看 Ablation studies）
Limitation (局限): 在什么样的数据上会存在 Failure cases？
- 超过32k上下文窗口

Question

DAPO这种动态补充采样慢我能理解，DUPO为什么能快那么多？