UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking¶

会议: ICLR 2026
arXiv: 2603.08117
代码: https://huggingface.co/datasets/UIS-Digger/UIS-QA
领域: LLM评测
关键词: 未索引信息检索, 多Agent框架, 双模式浏览器, SFT+RFT训练, 信息检索基准

一句话总结¶

识别并形式化"未索引信息检索"(UIS) 问题——搜索引擎无法直接检索的动态网页/嵌入文件/交互式内容，提出首个 UIS 基准 UIS-QA（110 题）和多 Agent 框架 UIS-Digger，以 ~30B 参数模型经 SFT+RFT 训练后达到 27.27% 准确率，超越集成 O3/GPT-4.1 的系统。

研究背景与动机¶

领域现状：LLM 信息检索 Agent（WebSailor、OWL、DDv2 等）在 GAIA（70.90%）和 BrowseComp-zh（46.70%）上取得了极高成绩，但这些基准主要考察通过搜索引擎可直接获取的索引信息。

关键痛点：互联网上大量关键信息属于未索引信息（UIS）：政府公告的深层页面、需要多次导航才能到达的产品规格、嵌入在 PDF/XLSX 文件中的数据、需要日期选择器或过滤器交互才能显示的动态内容。当前 Agent 对这些信息无能为力。

核心矛盾：现有评估体系不区分索引与未索引信息，导致 Agent 能力被高估。SOTA Agent 在 UIS-QA 上准确率从 GAIA 的 70% 骤降至 24.55%，暴露出两个瓶颈：(a) 动作空间不足——搜索引擎 Agent 缺乏网页交互能力；(b) 基础模型能力受限——模型难以在大动作空间中正确决策。

本文切入点：UIS 不是边缘问题，而是信息检索 Agent 评估体系的根本盲区。作者将互联网信息严格划分为索引信息 \(\mathcal{II}\) 和未索引信息 \(\mathcal{UI}\)，给出数学定义，并提出首个 UIS-QA 基准和 UIS-Digger 系统。

核心idea：通过首个专门的 UIS 基准暴露问题严重性，并用多 Agent 系统 + 领域专项训练来应对 UIS 挑战。

方法详解¶

整体框架¶

UIS-Digger 是四 Agent 协作系统，基于 ReAct 范式通过请求-响应消息通信。输入为用户查询，输出为最终答案。Planner 分解查询为子任务，协调三个下属 Agent：Web Searcher（索引信息检索）、Web Surfer（深层网页浏览）、File Reader（文件解析）。

关键设计¶

UIS-QA 基准（110 题）：
- 功能：首个专门评估 Agent 获取未索引信息能力的基准
- 核心思路：专家组导航深层网站→标注 QA 对→三重 UIS 过滤（人工 Google 搜索验证+z.ai 自动验证+DeepSeek-R1 内部知识检查），确保答案无法通过搜索引擎直接获取
- 设计动机：现有基准（GAIA、BrowseComp）不区分 UIS，导致 Agent 评估"虚高"。UIS-QA 覆盖政府公告、产品介绍、代码仓库、游戏、公司年报等领域（84 中文+26 英文），要求答案客观、权威、时间稳定
- 双模式浏览器（Web Surfer）：
- 功能：在文本模式与视觉模式间动态切换以理解不同类型的网页内容
- 核心思路：文本模式高效处理结构化文本，视觉模式（截图）理解复杂 UI 布局（日期选择器、图表等），两种模式共享记忆和浏览器状态，消除同步开销
- 设计动机：纯文本 Agent 无法处理需要视觉理解的交互元素，而纯视觉模式效率低下。动态切换实现了功能性与效率的最优平衡
- 动作空间：点击、滚动、输入、选择下拉框、导航、提交表单、下载文件、截图等
- 并行工具执行与文件解析：
- Web Searcher 可同时调用搜索引擎和爬虫工具
- File Reader 支持 PDF/XLSX/DOCX 格式解析，超长文件按块增量读取（参考 Yu et al., 2025b）

训练策略¶

两阶段合成数据+训练： - 数据构造：(a) 从 100+ 真实网站深层浏览收集信息→LLM 生成 QA 对→LLM Judge 过滤；(b) 构建三类虚拟网站（航班预订、统计查询场景），针对日期选择器、单选按钮、过滤器等交互弱点定向生成训练数据 - SFT 阶段：使用强教师模型 \(\mathcal{X}^*\)（temperature=0）解题产生一条轨迹/题，LLM Judge 验证正确性和非平凡性后进行 reject sampling - RFT 阶段：SFT 模型 \(\mathcal{X}^s\)（temp=0.4, 每题采样 4 条轨迹）自我采样，同样 reject sampling，按难度加权——困难问题（正确次数少）的轨迹优先保留，最终得到 \(\mathcal{X}^r\)

实验关键数据¶

主实验¶

系统	骨干模型	UIS-QA	GAIA	BrowseComp-zh
GPT-5 直接推理	GPT-5	0.9%	-	-
WebSailor	32B	7.3%	53.2%	25.5%
OWL	GPT-4.1	25.45%	70.90%	46.70%
DDv2	-	24.55%	-	-
UIS-Digger	~30B	27.27%	-	-

训练策略消融¶

配置	UIS-QA 准确率	说明
仅搜索（无浏览）	~7%	动作空间不足导致理论不可解
文本模式 only	~20%	缺少视觉模式处理动态 UI
完整系统（无训练）	~18%	基础模型无法有效利用工具
SFT only	~23%	冷启动有效但未充分探索
SFT + RFT	27.27%	难度加权 RFT 带来最终 4pp 提升

关键发现¶

SOTA Agent 在 UIS-QA 上经历剧烈性能下降（GAIA 70% → UIS-QA 25%），证明 UIS 是独立且严峻的挑战
~30B 参数模型通过专项训练超越集成 O3/GPT-4.1 的通用系统，说明 UIS 需要专门优化
失败模式分析：错误搜索策略 42%、工具使用错误 28%、推理错误 30%
双模式浏览器和文件解析是区分 UIS 解题能力的关键能力差异

亮点与洞察¶

首次形式化 UIS 问题：将互联网信息集合 \(\mathcal{P}\) 严格分为索引 \(\mathcal{II}\) 和未索引 \(\mathcal{UI}\)，并区分理想定义与实际近似，为这一被忽视的方向奠定理论基础
双模式浏览策略的共享状态设计非常巧妙——避免了多模态Agent中常见的模式切换同步问题，可迁移到其他需要多模态感知的Agent
虚拟网站数据生成策略值得借鉴：直接针对 Agent 弱点（如日期选择器交互）设计训练环境，用模拟取代昂贵的真实标注
难度加权的 RFT 策略简单有效——困难问题的正确轨迹信号更强，优先保留能更高效地提升 Agent 的弱能力

局限与展望¶

UIS-QA 仅 110 题，规模偏小且 84/110 为中文，语言和领域覆盖有限
绝对准确率仅 27.27%，UIS 问题远未解决——需要更强的基础模型和更完善的工具链
未考虑需要登录/CAPTCHA 的网站，真实场景中这类情况非常常见
评估仅限于准确率，缺乏对交互步数、时间成本等效率指标的分析
训练数据构造依赖特定教师模型，泛化性存疑

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次识别和形式化 UIS 问题，开创性贡献
实验充分度: ⭐⭐⭐⭐ 多系统对比全面，但 UIS-QA 规模偏小
写作质量: ⭐⭐⭐⭐ 问题定义清晰，形式化完整
价值: ⭐⭐⭐⭐⭐ 揭示信息检索 Agent 的根本评估盲区，奠定 UIS 研究基础