跳转至

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

会议: ICLR 2026
arXiv: 2603.08117
代码: https://huggingface.co/datasets/UIS-Digger/UIS-QA
领域: LLM评测
关键词: 未索引信息检索, 多Agent框架, 双模式浏览器, SFT+RFT训练, 信息检索基准

一句话总结

识别并形式化"未索引信息检索"(UIS) 问题——搜索引擎无法直接检索的动态网页/嵌入文件/交互式内容,提出首个 UIS 基准 UIS-QA(110 题)和多 Agent 框架 UIS-Digger,以 ~30B 参数模型经 SFT+RFT 训练后达到 27.27% 准确率,超越集成 O3/GPT-4.1 的系统。

研究背景与动机

领域现状:LLM 信息检索 Agent(WebSailor、OWL、DDv2 等)在 GAIA(70.90%)和 BrowseComp-zh(46.70%)上取得了极高成绩,但这些基准主要考察通过搜索引擎可直接获取的索引信息

关键痛点:互联网上大量关键信息属于未索引信息(UIS):政府公告的深层页面、需要多次导航才能到达的产品规格、嵌入在 PDF/XLSX 文件中的数据、需要日期选择器或过滤器交互才能显示的动态内容。当前 Agent 对这些信息无能为力。

核心矛盾:现有评估体系不区分索引与未索引信息,导致 Agent 能力被高估。SOTA Agent 在 UIS-QA 上准确率从 GAIA 的 70% 骤降至 24.55%,暴露出两个瓶颈:(a) 动作空间不足——搜索引擎 Agent 缺乏网页交互能力;(b) 基础模型能力受限——模型难以在大动作空间中正确决策。

本文切入点:UIS 不是边缘问题,而是信息检索 Agent 评估体系的根本盲区。作者将互联网信息严格划分为索引信息 \(\mathcal{II}\) 和未索引信息 \(\mathcal{UI}\),给出数学定义,并提出首个 UIS-QA 基准和 UIS-Digger 系统。

核心idea:通过首个专门的 UIS 基准暴露问题严重性,并用多 Agent 系统 + 领域专项训练来应对 UIS 挑战。

方法详解

整体框架

UIS-Digger 是四 Agent 协作系统,基于 ReAct 范式通过请求-响应消息通信。输入为用户查询,输出为最终答案。Planner 分解查询为子任务,协调三个下属 Agent:Web Searcher(索引信息检索)、Web Surfer(深层网页浏览)、File Reader(文件解析)。

关键设计

  1. UIS-QA 基准(110 题)

    • 功能:首个专门评估 Agent 获取未索引信息能力的基准
    • 核心思路:专家组导航深层网站→标注 QA 对→三重 UIS 过滤(人工 Google 搜索验证+z.ai 自动验证+DeepSeek-R1 内部知识检查),确保答案无法通过搜索引擎直接获取
    • 设计动机:现有基准(GAIA、BrowseComp)不区分 UIS,导致 Agent 评估"虚高"。UIS-QA 覆盖政府公告、产品介绍、代码仓库、游戏、公司年报等领域(84 中文+26 英文),要求答案客观、权威、时间稳定
    • 双模式浏览器(Web Surfer)

    • 功能:在文本模式与视觉模式间动态切换以理解不同类型的网页内容

    • 核心思路:文本模式高效处理结构化文本,视觉模式(截图)理解复杂 UI 布局(日期选择器、图表等),两种模式共享记忆和浏览器状态,消除同步开销
    • 设计动机:纯文本 Agent 无法处理需要视觉理解的交互元素,而纯视觉模式效率低下。动态切换实现了功能性与效率的最优平衡
    • 动作空间:点击、滚动、输入、选择下拉框、导航、提交表单、下载文件、截图等
    • 并行工具执行与文件解析

    • Web Searcher 可同时调用搜索引擎和爬虫工具

    • File Reader 支持 PDF/XLSX/DOCX 格式解析,超长文件按块增量读取(参考 Yu et al., 2025b)

训练策略

两阶段合成数据+训练: - 数据构造:(a) 从 100+ 真实网站深层浏览收集信息→LLM 生成 QA 对→LLM Judge 过滤;(b) 构建三类虚拟网站(航班预订、统计查询场景),针对日期选择器、单选按钮、过滤器等交互弱点定向生成训练数据 - SFT 阶段:使用强教师模型 \(\mathcal{X}^*\)(temperature=0)解题产生一条轨迹/题,LLM Judge 验证正确性和非平凡性后进行 reject sampling - RFT 阶段:SFT 模型 \(\mathcal{X}^s\)(temp=0.4, 每题采样 4 条轨迹)自我采样,同样 reject sampling,按难度加权——困难问题(正确次数少)的轨迹优先保留,最终得到 \(\mathcal{X}^r\)

实验关键数据

主实验

系统 骨干模型 UIS-QA GAIA BrowseComp-zh
GPT-5 直接推理 GPT-5 0.9% - -
WebSailor 32B 7.3% 53.2% 25.5%
OWL GPT-4.1 25.45% 70.90% 46.70%
DDv2 - 24.55% - -
UIS-Digger ~30B 27.27% - -

训练策略消融

配置 UIS-QA 准确率 说明
仅搜索(无浏览) ~7% 动作空间不足导致理论不可解
文本模式 only ~20% 缺少视觉模式处理动态 UI
完整系统(无训练) ~18% 基础模型无法有效利用工具
SFT only ~23% 冷启动有效但未充分探索
SFT + RFT 27.27% 难度加权 RFT 带来最终 4pp 提升

关键发现

  • SOTA Agent 在 UIS-QA 上经历剧烈性能下降(GAIA 70% → UIS-QA 25%),证明 UIS 是独立且严峻的挑战
  • ~30B 参数模型通过专项训练超越集成 O3/GPT-4.1 的通用系统,说明 UIS 需要专门优化
  • 失败模式分析:错误搜索策略 42%、工具使用错误 28%、推理错误 30%
  • 双模式浏览器和文件解析是区分 UIS 解题能力的关键能力差异

亮点与洞察

  • 首次形式化 UIS 问题:将互联网信息集合 \(\mathcal{P}\) 严格分为索引 \(\mathcal{II}\) 和未索引 \(\mathcal{UI}\),并区分理想定义与实际近似,为这一被忽视的方向奠定理论基础
  • 双模式浏览策略的共享状态设计非常巧妙——避免了多模态Agent中常见的模式切换同步问题,可迁移到其他需要多模态感知的Agent
  • 虚拟网站数据生成策略值得借鉴:直接针对 Agent 弱点(如日期选择器交互)设计训练环境,用模拟取代昂贵的真实标注
  • 难度加权的 RFT 策略简单有效——困难问题的正确轨迹信号更强,优先保留能更高效地提升 Agent 的弱能力

局限与展望

  • UIS-QA 仅 110 题,规模偏小且 84/110 为中文,语言和领域覆盖有限
  • 绝对准确率仅 27.27%,UIS 问题远未解决——需要更强的基础模型和更完善的工具链
  • 未考虑需要登录/CAPTCHA 的网站,真实场景中这类情况非常常见
  • 评估仅限于准确率,缺乏对交互步数、时间成本等效率指标的分析
  • 训练数据构造依赖特定教师模型,泛化性存疑

相关工作与启发

  • vs GAIA/BrowseComp:这些基准不区分 UIS,高分可能仅反映搜索引擎索引范围内的检索能力
  • vs WebArena/Mind2Web:聚焦浏览器操作但在受控环境中评估,UIS-QA 在真实开放互联网中评估
  • vs ReAct/Reflexion:单 Agent 动作空间有限,UIS-Digger 的多 Agent 架构覆盖搜索+浏览+文件解析的完整空间
  • 启发:Agent 评估需要按信息来源细分(索引 vs 未索引),才能真实反映 Agent 能力边界

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次识别和形式化 UIS 问题,开创性贡献
  • 实验充分度: ⭐⭐⭐⭐ 多系统对比全面,但 UIS-QA 规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,形式化完整
  • 价值: ⭐⭐⭐⭐⭐ 揭示信息检索 Agent 的根本评估盲区,奠定 UIS 研究基础