FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents¶
会议: ACL 2026
arXiv: 2602.01566
代码: https://github.com/Ignoramus0817/FS-Researcher
领域: LLM推理
关键词: 深度研究, 文件系统, 测试时扩展, 知识库构建, 双Agent框架
一句话总结¶
本文提出 FS-Researcher,一个基于文件系统的双 Agent 深度研究框架,通过 Context Builder 构建层次化知识库、Report Writer 分节撰写报告,利用持久化工作空间突破上下文窗口限制,在 DeepResearch Bench 上达到 53.94 RACE(SOTA),并展示了上下文构建计算量与报告质量的正相关测试时扩展效应。
研究背景与动机¶
领域现状:深度研究(Deep Research)是 LLM Agent 的前沿代表性任务,要求 Agent 从互联网系统性地收集证据并综合成长篇报告。OpenAI、Google、Anthropic 等已推出商业深度研究产品,展现了人类级别的性能。
现有痛点:(1) 模型上下文长度有限,而深度研究的长轨迹任务容易超出上下文容量,导致 Agent 执行中断;(2) 现有方法(静态管线、单 Agent 流程)中 thoughts、tool observations 和报告草稿竞争有限的 token 预算,导致覆盖不全和过早综合;(3) 当前的压缩策略(如摘要化 tool 观察)虽延长了轨迹,但引入有损瓶颈——细粒度证据和来源可能丢失,且仍受上下文硬限制约束。
核心矛盾:深度研究任务需要的信息量(数百个网页、数万 token 的报告)与模型上下文窗口容量之间存在根本性矛盾。现有方法要么截断信息,要么有损压缩,无法真正实现测试时扩展(分配更多计算以提升质量)。
本文目标:(1) 设计一个可扩展至上下文窗口之外的深度研究框架;(2) 验证框架能否通过增加计算来持续提升报告质量;(3) 在多个基准上超越闭源和开源 SOTA。
切入角度:受编程 Agent 和 AI IDE(Cursor、Claude Code)的启发——文件系统工作空间是长时间工具使用和迭代开发的有效基础设施。将此范式迁移到深度研究,用文件系统作为持久外部记忆。
核心 idea:用文件系统替代上下文窗口作为 Agent 的记忆基础设施——信息存入文件而非保留在上下文中,按需加载,支持无限扩展和跨 session 迭代优化。
方法详解¶
整体框架¶
FS-Researcher 是双 Agent 框架,分为两个阶段:(1) Context Builder(上下文构建器)接收研究主题,像图书管理员一样浏览互联网、撰写结构化笔记、归档原始网页,构建层次化知识库;(2) Report Writer(报告撰写器)以知识库为唯一事实来源,分节撰写报告。两个 Agent 共享同一文件系统工作空间,支持独立的迭代优化。工作空间包含交付物(知识库/报告)和控制文件(TODO、Checklist、Log)。
关键设计¶
-
文件系统工作空间:
- 功能:提供持久化外部记忆,突破上下文窗口限制
- 核心思路:工作空间包含两类文件:交付物(index.md、knowledge_base/、sources/、report.md)和控制文件(todos、checklist、logs)。所有文件以 Markdown 格式存储。Agent 在每个 session 开始时检查工作空间状态,制定计划并执行。session 结束时根据 checklist 审查,将未达标项标记为 [IN-PROGRESS]。工具集包括文件系统工具(ls、grep、read_file、insert/delete/replace)和网络浏览工具(search_web、read_webpage)
- 设计动机:文件系统有三大优势:(a) 镜像人类处理复杂任务的原生环境;(b) 存储量远超上下文窗口,按需访问无溢出;(c) 中间产物持久可回溯,支持跨 session 迭代优化
-
Context Builder(上下文构建器):
- 功能:系统性收集、蒸馏和归档信息到知识库
- 核心思路:交付物包含 index.md(目录,含主题分解和 KB 结构)、knowledge_base/(树状结构的笔记目录,每条陈述附引用指向 sources/)和 sources/(归档的原始网页)。工作流非线性——index.md 和 knowledge_base/ 随浏览过程动态更新。每个 session 结束时进行自检,识别知识库中的错误、缺口或冲突,标记为待处理。可迭代运行直到达到 session 预算或通过审查
- 设计动机:与直接在上下文中累积事实不同,将信息外化到文件系统允许知识库增长到远超上下文容量,且结构化组织便于 Report Writer 按需检索
-
Report Writer(报告撰写器):
- 功能:基于知识库分节撰写高质量研究报告
- 核心思路:移除网络浏览工具,仅允许从知识库读取事实。采用多 session 写作流程:第一个 session 创建大纲(同时作为 TODO),后续每个 session 选择一个章节撰写。每节完成后进行节级审查(根据 checklist),全部完成后进行报告级审查。若发现问题则重标相关章节为 [IN-PROGRESS]。无 session 预算限制
- 设计动机:一次性生成整篇报告往往变成事实罗列,缺乏深度分析。分节写作提供频繁的重新锚定机会,结合知识库进行局部规划和自纠正
损失函数 / 训练策略¶
本文为框架工作,不涉及模型训练。使用标准 ReAct 架构驱动两个 Agent:\(T_i, A_i = M_\theta(T_{j<i}, A_{j<i}, O_{j<i}, P)\),\(O_i = Execute(A_i)\)。支持 GPT-5、Claude-Sonnet-4.5、Gemini-2.5-Pro 等多种骨干模型。文件 I/O 延迟可忽略(<0.03% 总时间)。
实验关键数据¶
主实验¶
DeepResearch Bench 性能对比
| 方法 | 骨干模型 | Comp. | Insight | Instr. | Read. | RACE |
|---|---|---|---|---|---|---|
| OpenAI-DeepResearch | - | 46.46 | 43.73 | 49.39 | 47.22 | 46.45 |
| Gemini-2.5-Pro-DR | - | 49.51 | 49.45 | 50.12 | 50.00 | 49.71 |
| WebWeaver | Qwen3-235B | 51.45 | 51.39 | 50.26 | 48.98 | 50.80 |
| RhinoInsight | Gemini-2.5-Pro | 50.51 | 51.45 | 51.72 | 50.00 | 50.92 |
| FS-Researcher | Claude-Sonnet-4.5 | 54.25 | 55.85 | 52.47 | 51.54 | 53.94 |
| FS-Researcher | GPT-5 | 51.96 | 54.44 | 52.14 | 51.26 | 52.76 |
DeepConsult 性能对比
| 方法 | Win% | Tie% | Lose% | Avg Score |
|---|---|---|---|---|
| OpenAI-DeepResearch | 0.00 | 100.00 | 0.00 | 5.00 |
| WebWeaver | 66.16 | 12.14 | 21.68 | 6.94 |
| FS-Researcher (Claude) | 80.00 | 10.42 | 9.58 | 8.33 |
BrowseComp 准确率
| 方法 | 准确率 |
|---|---|
| Claude-Sonnet-4.5 (官方) | 43.9% |
| FS-Researcher (Claude) | 55.0% |
| GPT-5 (官方) | 54.9% |
| FS-Researcher (GPT-5) | 68.0% |
消融实验¶
模块消融(GPT-5 骨干,10 个采样查询)
| 配置 | Comp. | Insight | Instr. | Read. | RACE |
|---|---|---|---|---|---|
| FS-Researcher (完整) | 51.96 | 54.44 | 52.14 | 51.26 | 52.76 |
| - 持久化工作空间 | 48.38(-3.58) | 46.49(-7.95) | 50.78 | 49.92 | 48.69(-4.07) |
| - 双Agent→单Agent | 40.90(-11.06) | 37.55(-16.89) | 46.30 | 44.78 | 42.41(-10.35) |
| - 分节写作→一次性生成 | 47.06(-4.90) | 45.64(-8.80) | 50.50 | 46.46 | 47.63(-5.13) |
关键发现¶
- FS-Researcher 在三个基准上一致超越闭源和开源 SOTA,证明文件系统范式的框架级优势独立于骨干模型
- 双 Agent 消融影响最大(RACE -10.35),说明证据收集与报告撰写的分离是核心设计
- 增加 Context Builder 轮次(3→5→10)持续提升报告质量(Insight 从 49.48 到 55.88),但可读性在 5 轮后略有下降,因为信息密度增加导致写作风格更技术化
- 持久化工作空间对 Insight 影响最大(-7.95),说明结构化知识库对深度分析至关重要
- 用更小的摘要模型压缩上下文可降低 Context Builder 成本 47%,质量损失可忽略
亮点与洞察¶
- 文件系统作为 Agent 外部记忆的范式转换——从"信息放在上下文中"到"信息放在文件中按需加载",是一个简洁但深刻的架构创新
- 双 Agent 分离解决了一个根本问题:信息收集和报告撰写需要不同的认知模式,混合在一起会导致过早综合和浅层探索
- 测试时扩展效应(更多计算→更好报告)的成功验证为 Agent 系统的 scaling law 提供了初步证据
局限与展望¶
- 框架依赖较强的骨干模型——需要强大的多轮规划、网络搜索和长文写作能力,小模型可能频繁提前终止
- 可读性与全面性之间存在权衡——更丰富的知识库导致更技术化的写作风格
- 未研究多 Agent 协作(如多个 Context Builder 并行搜索不同子主题)
- 存储原始网页可能涉及版权和隐私问题
相关工作与启发¶
- vs OpenAI/Google Deep Research: 商业产品技术不透明,FS-Researcher 是可复现的开源替代方案,且在多个基准上超越
- vs LangChain Open Deep Research: 在相同 GPT-5 骨干下,FS-Researcher RACE 提升 +2.16,证明框架贡献独立于模型
- vs 摘要压缩方法: 摘要压缩是有损的且仍受上下文限制,文件系统方法是无损的且无上限
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 文件系统作为 Agent 记忆的范式创新简洁而有效,测试时扩展效应验证有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 三个基准、三个骨干模型、三个消融实验、scaling 分析和案例研究
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法描述详尽、消融设计合理
- 价值: ⭐⭐⭐⭐⭐ 为深度研究 Agent 提供了可复现的 SOTA 框架和设计原则