FACTS: Table Summarization via Offline Template Generation with Agentic Workflows¶

会议: ACL 2026
arXiv: 2510.13920
代码: GitHub
领域: 数据分析 / 表格理解
关键词: 表格摘要, 离线模板, Agentic工作流, SQL生成, 隐私合规

一句话总结¶

本文提出 FACTS（Fast, Accurate, and Privacy-Compliant Table Summarization），通过三阶段 Agentic 工作流自动生成可复用的离线模板（SQL 查询 + Jinja2 模板），实现快速、准确、隐私合规的查询聚焦表格摘要，在 FeTaQA、QTSumm 和 QFMTS 三个基准上全面超越基线。

研究背景与动机¶

领域现状：查询聚焦表格摘要（query-focused table summarization）要求根据用户查询从表格数据生成自然语言摘要，不同于简单的表格问答（返回短答案）和通用表格摘要（捕捉所有重要内容）。在金融、医疗、法律等领域，专业人员依赖定制化摘要做决策。

现有痛点：(1) 表格到文本模型（如 TAPEX、ReasTAP）需要昂贵的微调，且在数值推理和逻辑忠实度上表现不佳；(2) 基于提示的方法（如 DirectSumm）直接查询 LLM，受 token 限制，暴露敏感数据，且需为每张新表重新生成；(3) 现有 Agentic 框架（如 Binder、Dater）依赖分解规划或手工模板，缺乏鲁棒性和可扩展性。

核心矛盾：实用方案必须同时满足四个属性——快速（可复用）、准确（基于执行而非自由生成）、可扩展（不需传递所有行）、隐私合规（不暴露原始数据给 LLM）——但现有方法无一满足全部。

本文目标：设计首个自动化离线模板生成的 Agentic 框架，一次生成、多次复用，满足所有四个属性。

切入角度：将表格摘要分解为 SQL 查询（提取精确值）+ Jinja2 模板（渲染自然语言），形成可独立于数据值的离线模板。

核心 idea：离线模板绑定于表格 schema 和查询语义而非具体数据值——一旦生成，可直接应用于任何共享相同 schema 的新表格，避免重复 LLM 推理。

方法详解¶

整体框架¶

FACTS 由三个互联阶段组成，每个阶段的输出由 LLM Council（多模型集成验证）迭代验证和改进。最终产出为离线模板——SQL 查询集 + Jinja2 渲染模板。LLM 全程仅接触 schema 信息，从不暴露原始数据。

关键设计¶

Schema-Guided Specification and Filtering（模式引导规范和过滤）:
- 功能：明确用户查询意图并生成过滤规则
- 核心思路：给定用户查询和表格 schema，Agent 生成两类输出：(a) 引导问题（guided questions）——识别哪些列、关系和操作相关；(b) 过滤规则（filtering rules）——指定需排除的行或类别值。LLM 不接触原始数据，仅基于 schema 提出抽象过滤规则（如"exclude rows where category='expense'"），后续转化为 SQL WHERE 子句
- 设计动机：用户查询通常是高层次的自然语言，需要先"翻译"为 schema 级别的具体操作规范
SQL Queries Generation（SQL 查询生成）:
- 功能：生成可执行的 SQL 查询以精确提取数据
- 核心思路：基于 Stage 1 的规范，Agent 生成候选 SQL 查询，将过滤规则转化为约束条件。每条查询在本地数据库上执行验证——若失败或返回空结果，错误信息传递给 LLM Council 反馈，Agent 迭代修正直到可执行。最大 patience 设为 3 轮
- 设计动机：将摘要建立在可执行程序而非自由文本生成之上，从根本上消除幻觉
Jinja2 Template Generation and Alignment（Jinja2 模板生成与对齐）:
- 功能：将 SQL 结果渲染为自然语言摘要
- 核心思路：Agent 生成 Jinja2 模板，要求引用精确列名、正确迭代返回行、优雅处理空结果。LLM Council 检查 SQL 输出与模板引用的对齐——若存在字段缺失或形状不兼容，SQL 和模板协同修正
- 设计动机：分离数据提取（SQL）和文本渲染（Jinja2），使两者都可独立验证和复用

损失函数 / 训练策略¶

FACTS 为无训练方法。主 Agent 使用 GPT-4o-mini 作为骨干。LLM Council 由 GPT-4o-mini、Claude-4 Sonnet 和 DeepSeek v3 组成，通过多数投票决定接受/拒绝，聚合反馈指导改进。每样本平均 2.47 个引导问题/过滤规则、1.36 轮 SQL 修正、1.84 轮模板修正。

实验关键数据¶

主实验¶

方法	FeTaQA BLEU/RL/MET	QTSumm BLEU/RL/MET	QFMTS BLEU/RL/MET
CoT	28.2/51.0/56.9	19.3/39.0/47.2	31.5/54.3/58.1
DirectSumm	29.8/51.7/58.2	20.7/40.2/50.3	33.6/57.0/62.8
SPaGe	33.8/55.7/62.3	20.9/41.3/47.7	45.7/68.3/73.4
FACTS (GPT-Only)	30.8/55.7/66.0	20.1/43.1/50.5	45.4/70.5/73.2
FACTS	32.6/58.9/67.7	21.9/45.8/51.3	46.0/70.8/73.2

消融实验¶

评估维度	FACTS 得分
意图匹配	97%
SQL 执行准确率	94%
模板渲染准确率	98%
Council 共识错误率	~3%
整体事实正确率	~92%

关键发现¶

FACTS 在所有三个数据集上均达到最佳或次佳结果，尤其在 ROUGE-L 和 METEOR 上优势明显
人类偏好研究：FACTS vs SPaGe——55% 偏好 FACTS 的完整性，59% 偏好正确性，60% 偏好减少幻觉
复用性测试：100 张同 schema 表时，FACTS 因模板复用大幅加速（仅需 SQL 执行 + Jinja2 渲染）
GPT-Only 变体仍超越大多数基线，证明核心工作流本身有效，Council 多样性进一步增强
每样本平均消耗 9,922 输入 token 和 1,045 输出 token，计算成本可控

亮点与洞察¶

"离线模板"概念是工程上的优雅创新——将一次性的 LLM 推理成本摊薄到无限次复用中，特别适合企业场景（如每年重复的财务报告摘要）
LLM Council 的多数投票 + 聚合反馈机制提供了轻量级的自我修正能力，~3% 的共识错误率表明多模型集成有效
隐私合规设计是该方法的核心优势——LLM 仅接触 schema，原始数据值完全留在本地 SQL 引擎中
SQL + Jinja2 的组合将"正确性"和"可读性"解耦——前者由程序执行保证，后者由模板渲染实现

局限与展望¶

假设模板在相同 schema 下完全复用，未考虑 schema 漂移或列重命名
对复杂的多表 JOIN 和嵌套查询可能需要更多修正轮次
SQL 执行准确率 94% 意味着仍有 6% 的错误——对高风险决策可能不够
Jinja2 模板的自然语言表达可能在不同语言/文化背景下需要调整

评分¶

新颖性: ⭐⭐⭐⭐ 离线模板生成概念新颖且实用，但各组件（SQL 生成、Jinja2、LLM Council）有先例
实验充分度: ⭐⭐⭐⭐⭐ 三个基准、自动+人类评估、复用性/可扩展性分析、消融全面
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，四个属性对比表直观，示例具体
价值: ⭐⭐⭐⭐⭐ 高度实用——隐私合规+可复用的设计直接解决企业部署痛点