SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables¶
会议: ICLR 2026
arXiv: 2602.23286
代码: github.com/pshlego/SPARTA
领域: 音频语音
关键词: 多跳推理, 表格-文本问答, 基准构建, SQL, 跨模态推理
一句话总结¶
提出 SPARTA,一个端到端自动构建大规模表格-文本多跳问答基准的框架,通过参考事实数据库、来源引导的修复和现实结构约束生成高质量嵌套 SQL 查询,SOTA 模型在 SPARTA 上 F1 下降超过 30 分。
研究背景与动机¶
- 现有基准的三大缺陷:
- 问题类型有限、推理浅:多数基准仅需 ≤2 跳推理,不支持聚合、分组等高级操作
- 标注噪声严重:审计 HybridQA 100 样本发现 21% 包含错误(冗余模态 52.4%、答案不完整 23.8%、错误/无法回答 23.8%)
- 仅依赖小规模 web 表格:平均 ~15 行,远不及真实数据库的千行规模
- 手动标注复杂性限制了基准的规模和质量,需要自动化方法
方法详解¶
整体框架¶
SPARTA 要解决的是:现有表格-文本多跳问答基准要么推理太浅、要么标注噪声大、要么只用小规模 web 表格,而手动标注又贵到没法扩规模。它的破局思路是把基准构建完全建立在 SQL 之上——先把异构的表格和文本统一成一个可查询的关系数据库,再让 SQL 查询本身充当「带标准答案的推理题」,最后才把 SQL 翻译成自然语言问题。
整条流水线分三阶段:先构建参考事实数据库,把源表格和从文本抽出的接地表格合并成一个统一的关系库;再做查询生成,让 LLM 生成嵌套深度匹配目标跳数的 SQL,并保证每条都可执行;最后问题自然语言化,把验证通过的 SQL 转成流畅的自然语言问题。因为答案直接来自 SQL 在数据库上的执行结果,标注从「人去读两段材料拼答案」变成「机器执行查询」,规模、深度和正确率都由数据库引擎兜底。
关键设计¶
1. 参考事实数据库:把文本也变成可 SQL 查询的关系表
多跳问答的痛点在于答案散落在表格和非结构化文本两种模态里,没法统一检索。SPARTA 把两者都收进一个关系数据库:源表格 \(\mathcal{S}_T\) 直接保留原始关系表(如 NBA 薪资、奖项、选秀等 6 张 Kaggle 公开表);接地表格 \(\mathcal{G}_T\) 则把非结构化文本分解为原子事实元组,同样存进 SQL 可查询的关系表。文本接地有两条路:一是利用已验证语料(如 ROTOWIRE),二是基于模板做表到文本的转换。关键在于让两类表共享实体属性(如 PLAYER_NAME),并用主外键约束保证跨表联接可达——这样一条 SQL 才能真正横跨表格与文本两种来源做多跳。
2. 后序遍历 + 现实结构约束:让每一层嵌套查询都先验证再封装
要生成深嵌套的多跳 SQL,难点是直接让 LLM 一把生成往往整条不可执行、错在哪也说不清。SPARTA 把嵌套 SQL 建模为查询图 \(G=(V,E)\),节点是查询块、边是嵌套谓词,然后用后序遍历来构建:先生成并验证通过的叶子查询,再递归地把它们封装成更高层的查询。相比自顶向下或广度优先,后序的好处是每个中间块在被封装进上层之前就已经单独执行验证过,错误被局部隔离,整条查询的执行成功率随之提高;同时现实结构约束(千行规模的真实数据库、分组/Having 等高级算子)保证生成的题目逻辑深度真的够。
3. 来源引导的修复(Provenance-based Refinement):用数据库 why-not 技术救活空结果查询
后序构建里最棘手的是某条查询返回空结果——意味着这道题没有答案、整条就废了,但不知道是哪个谓词卡住的。SPARTA 借用数据库领域的 why-not provenance 来定位:先逆序剥离谓词,直到查询重新返回非空结果;再从非空结果中采样元组;然后运行 why-not provenance 工具,精确找出当初是哪个谓词阻塞了输出;最后把这份诊断报告反馈给 LLM,让它有针对性地重写问题子句。这是把成熟的数据库溯源技术第一次搬进 NLP 基准构建,让「修复一条坏查询」从盲猜变成有据可依。
4. 问题自然语言化:SQL 转流畅问句 + 轻量人工验证
验证通过的 SQL 还要变成人能读的问题。SPARTA 用 AST-ICL(SOTA 的 SQL-to-text 模型)把 SQL 转成流畅自然语言,再由 3 名 CS 研究生做轻量级验证。因为正确性已经由 SQL 执行保证,人工只需检查问句通顺与语义对齐,标注效率达到 HybridQA 的 4 倍。
5. 领域无关性设计:换个领域只换两张表的输入
整套流水线对领域无依赖——换领域只需指定新的源表格和接地表格,套用表到文本生成后,查询生成与修复流程原封不动复用。论文据此已把框架扩展到电影和医疗领域,验证了它不是为 NBA 单点调出来的。
实验关键数据¶
基准对比¶
| 基准 | 表格规模 | 问题生成 | 分组/Having | >3-Hop | 标注错误率 |
|---|---|---|---|---|---|
| HybridQA | 4.4列×15.7行 | 手动 | ✗ | ✗ | 21% |
| OTT-QA | 4.4列×15.7行 | 手动 | ✗ | ✗ | 21% |
| TAT-QA | 4.0列×9.4行 | 手动 | ✗ | ✗ | 30% |
| SPARTA (NBA) | 12.2列×3280行 | 自动+轻量验证 | ✓ | ✓ | 0% |
SOTA 模型在 SPARTA 上的表现¶
| 模型 | HybridQA F1 | SPARTA F1 | 下降 |
|---|---|---|---|
| 最优现有模型 | >70 | <40 | >30↓ |
| OTT-QA 最优模型 | >50 | <20 | >30↓ |
消融:查询生成策略¶
| 方法 | 执行成功率 | 查询多样性 |
|---|---|---|
| One-Shot (无检查) | 低 | 低 |
| Post-Order (无 Provenance) | 中 | 中 |
| Post-Order + Provenance | 高 | 高 |
关键发现¶
- SOTA 模型(GPT-4、Claude 等)在 SPARTA 上 F1 大幅下降,暴露跨模态推理根本弱点
- 后序遍历 + 来源修复的组合显著提高了查询执行率和多样性
- 轻量级人工验证仅需 HybridQA 1/4 的标注时间
- 框架成功扩展到电影和医疗域,验证了领域无关性
亮点与洞察¶
- 从根本上重新设计 Table-Text QA 基准:SQL-centric 流水线解决了规模、噪声和逻辑深度三个核心问题
- Provenance 修复是关键创新:将数据库技术(why-not provenance)引入 NLP 基准构建
- 高暴露性:SOTA 模型 F1 骤降 30+ 分,清晰指向现有跨模态推理能力的根本不足
- 可复现可扩展:代码、数据、模型全开源,方便后续研究
局限性¶
- 接地表格的原子事实提取依赖特定语料(如 ROTOWIRE),扩展到新领域需人工设计模板
- 自然语言化依赖 LLM,可能引入细微语义偏差
- 仅评估了提取式和生成式 QA 模型,尚未测试 Agent / Tool-augmented 方法
相关工作¶
- Table-Text QA 基准:HybridQA, OTT-QA, TAT-QA, FinQA, MultiHiertt 等
- 合成基准生成:ERBench, TDBench 等(多为单模态或浅层)
- PEEL:模板化 NL-嵌套 SQL 对生成
评分¶
- 新颖性: ⭐⭐⭐⭐ — SQL-centric 的自动基准构建思路新颖
- 技术深度: ⭐⭐⭐⭐ — Provenance 修复和后序遍历约束设计精巧
- 实验充分性: ⭐⭐⭐⭐ — 多领域、多模型、消融全面
- 实用性: ⭐⭐⭐⭐⭐ — 直接暴露 SOTA 的根本弱点,对社区价值高