Quick View

数据构建上进行了一定的对现有QA pairs（而不是知识图谱）通过抽取实体转换为问题来增加多跳问题深度，但是没有进行模糊化
SFT + DAPO

Question

为什么要同时用LLM和LRMs产生short CoT和long CoT？
search 和 visit tool得实现代码？
e2h和crawlqa得实现代码？

Task

这篇论文要解决的具体任务是什么？
- 探索如何从0开始构建一个有着多轮信息搜集能力的的web agent

Challenge

以前的方法遇到了什么技术挑战（Technical Challenge）？（即为什么这很难？）
- 缺乏：数据（多样化、丰富的）、长视野推理的可靠轨迹、可扩展能泛化的训练策略

Insight

Insight (洞察): 解决这个挑战的核心一句话思路（Key Insight）是什么？注：Insight 是高层的思想，不同于具体的技术贡献。
- 构建端到端 Web Agent 的关键不在于框架多复杂，而在于数据合成的深度 + 两阶段训练（SFT 冷启动 → on-policy RL 泛化）的协同配合。数据质量决定 SFT 的上限，RL 的动态采样机制能有效利用 SFT 阶段无法消化的数据。

Contribution (贡献):

具体的 Technical contributions 是什么？每个贡献的具体做法是什么？这样做的 Technical advantage（技术优势）是什么？
1. 合成高质量深度搜索问答对：
  1. 提升了多条推理得数量和深度
  - crawlQA
  - e2hQA
    - 从QA对里挑一个实体E，然后用搜索引擎搜索实体E相关信息C，接着用LLM对C重构为一个新的查询R，来替换原始实体E，这样新问题需要在找到原问题答案前先回答构造得子问题
2. 轨迹采样
  - 只有3个动作，search visit和answear
  - Short-CoT 轨迹：用 GPT-4o 直接在 ReAct 框架下生成轨迹，思考部分较短（平均 510 tokens）。
  - Long-CoT 轨迹：用 QwQ-Plus（LRM），逐步提供历史 action 和 observation，让它自主决定下一步动作。关键细节：输入时去掉上一步的 thought（因为 QwQ 没在多步推理输入上训练过，直接拼接会干扰），但保留输出中生成的 thought 作为监督信号。平均思考长度 1599 tokens。
  - 三阶段漏斗过滤：(1) 格式合规检查 → (2) 答案正确性验证（GPT-4o 判断） → (3) 质量评估（n-gram 去重 + prompting 评估信息无冗余性/目标一致性/逻辑准确性）。
3. SFT cold start
  1. 对于observation得token进行mask来计算Loss
4. Agentic RL （DAPO）
  1. 优化目标只作用于模型生成的 token（thought + action），不包含 tool response
  2. Dynamic Sampling：过滤掉全对（accuracy=1）和全错（accuracy=0）的 prompt
  3. Reward 设计：R=0.1×score format+0.9×score answer，两者都是 binary。因为 QA 答案是开放式的、无法用 rule-based F1/EM 可靠评估，所以用 LLM-as-Judge（Qwen-72B-Instruct）作为 answer reward。
  4. Rollout 数量 G=16，使用 verl 框架在 32 节点 × 8 H20 上训练

Experiments (实验):

核心贡献（Core contributions）对性能有什么影响？（看 Ablation studies）Limitation (局限): 在什么样的数据上会存在 Failure cases？
- SFT 冷启动是必须的：不做 SFT 直接 RL → GAIA Pass@3 仅 5%，基本不可用。
- 数据构成 (Figure 3)：最终经过精心过滤的 6,550 条数据在 Consistency 指标上优于使用全部 17,764 条。数据质量 > 数据量。
- RL 的效果 (Figure 4)：对非推理模型（7B, 32B），RL 带来显著提升（Pass@1 +5.8~7.7%）。对 LRM（QwQ），Pass@1 提升较小（+1.95%），但 consistency 显著提升，说明 RL 让 LRM 的输出更稳定。
- Long-CoT vs Short-CoT 跨模型迁移 (Table 3)：Long-CoT 数据对非推理模型反而引入高 invalid rate（7B: 21.36%, 32B: 13.59%），说明推理模式不能简单跨模型迁移。这与 Li et al. 2025 的发现一致。
- RL 产生了涌现行为 (Figure 5b)：RL 后模型的 action count 和 reasoning length 都增加了，说明模型自主学会了更复杂的搜索策略（如迭代反思、假设检验）。
- Web 环境的非平稳性：调整 temperature 对性能影响很小（Figure 5c），性能波动主要来自 Web 环境本身的动态变化。即使在同一测试集上做 memorization stress test（SFT 10 epochs），greedy decoding 也只达到 37.4%。
- benchmark上的成绩：