SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables¶

会议: ICLR 2026
arXiv: 2602.23286
代码: github.com/pshlego/SPARTA
领域: 音频语音
关键词: 多跳推理, 表格-文本问答, 基准构建, SQL, 跨模态推理

一句话总结¶

提出 SPARTA，一个端到端自动构建大规模表格-文本多跳问答基准的框架，通过参考事实数据库、来源引导的修复和现实结构约束生成高质量嵌套 SQL 查询，SOTA 模型在 SPARTA 上 F1 下降超过 30 分。

研究背景与动机¶

现有基准的三大缺陷：
问题类型有限、推理浅：多数基准仅需 ≤2 跳推理，不支持聚合、分组等高级操作
标注噪声严重：审计 HybridQA 100 样本发现 21% 包含错误（冗余模态 52.4%、答案不完整 23.8%、错误/无法回答 23.8%）
仅依赖小规模 web 表格：平均 ~15 行，远不及真实数据库的千行规模
手动标注复杂性限制了基准的规模和质量，需要自动化方法

方法详解¶

整体框架：三阶段流水线¶

参考事实数据库构建 — 将源表格与接地表格合并为统一的关系数据库
查询生成 — LLM 生成嵌套 SQL 查询，深度匹配目标跳数
问题自然语言化 — 将验证通过的 SQL 转化为流畅的自然语言问题

参考事实数据库¶

源表格 \(\mathcal{S}_T\)：保留原始关系表（如 NBA 薪资、奖项、选秀等 6 张 Kaggle 公开表）
接地表格 \(\mathcal{G}_T\)：将非结构化文本分解为原子事实元组，存入 SQL 可查询的关系表
两种接地方法：(1) 利用已验证语料如 ROTOWIRE；(2) 基于模板的表到文本转换
共享实体属性（如 PLAYER_NAME）通过主外键约束保证联接可达性

查询生成的关键技术¶

后序遍历 + 现实结构约束¶

将嵌套 SQL 建模为查询图 \(G=(V,E)\)，节点=查询块，边=嵌套谓词
采用后序遍历构建：先生成验证通过的叶子查询，再递归封装为高层查询
优于自顶向下或广度优先：后序保证每个中间块在构建时即可执行验证

当查询返回空结果时： 1. 逆序剥离谓词直到返回非空结果 2. 从非空结果中采样元组 3. 运行 why-not provenance 工具定位阻塞谓词 4. 将诊断报告反馈给 LLM 重写问题子句

问题自然语言化¶

使用 AST-ICL（SOTA SQL-to-text 模型）将 SQL 转为流畅自然语言
3 名 CS 研究生进行轻量级验证，标注效率为 HybridQA 的 4 倍

领域无关性设计¶

框架可扩展到任意领域：指定源表格和接地表格，应用表到文本生成后，查询生成流水线不变。已扩展到电影和医疗领域。

实验关键数据¶

基准对比¶

基准	表格规模	问题生成	分组/Having	>3-Hop	标注错误率
HybridQA	4.4列×15.7行	手动	✗	✗	21%
OTT-QA	4.4列×15.7行	手动	✗	✗	21%
TAT-QA	4.0列×9.4行	手动	✗	✗	30%
SPARTA (NBA)	12.2列×3280行	自动+轻量验证	✓	✓	0%

SOTA 模型在 SPARTA 上的表现¶

模型	HybridQA F1	SPARTA F1	下降
最优现有模型	>70	<40	>30↓
OTT-QA 最优模型	>50	<20	>30↓

消融：查询生成策略¶

方法	执行成功率	查询多样性
One-Shot (无检查)	低	低
Post-Order (无 Provenance)	中	中
Post-Order + Provenance	高	高

关键发现¶

SOTA 模型（GPT-4、Claude 等）在 SPARTA 上 F1 大幅下降，暴露跨模态推理根本弱点
后序遍历 + 来源修复的组合显著提高了查询执行率和多样性
轻量级人工验证仅需 HybridQA 1/4 的标注时间
框架成功扩展到电影和医疗域，验证了领域无关性

亮点与洞察¶

从根本上重新设计 Table-Text QA 基准：SQL-centric 流水线解决了规模、噪声和逻辑深度三个核心问题
Provenance 修复是关键创新：将数据库技术（why-not provenance）引入 NLP 基准构建
高暴露性：SOTA 模型 F1 骤降 30+ 分，清晰指向现有跨模态推理能力的根本不足
可复现可扩展：代码、数据、模型全开源，方便后续研究

局限性¶

接地表格的原子事实提取依赖特定语料（如 ROTOWIRE），扩展到新领域需人工设计模板
自然语言化依赖 LLM，可能引入细微语义偏差
仅评估了提取式和生成式 QA 模型，尚未测试 Agent / Tool-augmented 方法

评分¶

新颖性: ⭐⭐⭐⭐ — SQL-centric 的自动基准构建思路新颖
技术深度: ⭐⭐⭐⭐ — Provenance 修复和后序遍历约束设计精巧
实验充分性: ⭐⭐⭐⭐ — 多领域、多模型、消融全面
实用性: ⭐⭐⭐⭐⭐ — 直接暴露 SOTA 的根本弱点，对社区价值高

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架：三阶段流水线¶

参考事实数据库¶

查询生成的关键技术¶

后序遍历 + 现实结构约束¶

来源引导的修复 (Provenance-based Refinement)¶

问题自然语言化¶

领域无关性设计¶

实验关键数据¶

基准对比¶

SOTA 模型在 SPARTA 上的表现¶

消融：查询生成策略¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作¶

评分¶

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架：三阶段流水线¶

参考事实数据库¶

查询生成的关键技术¶

后序遍历 + 现实结构约束¶

来源引导的修复 (Provenance-based Refinement)¶

问题自然语言化¶

领域无关性设计¶

实验关键数据¶

基准对比¶

SOTA 模型在 SPARTA 上的表现¶

消融：查询生成策略¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作¶

评分¶

相关论文¶