Language Models and Logic Programs for Trustworthy Tax Reasoning¶

会议: AAAI 2026
arXiv: 2508.21051
代码: GitHub
领域: NLP理解 / 法律AI
关键词: 法规推理, 税法计算, 神经符号系统, Prolog, 语义解析, LLM+符号求解器

一句话总结¶

将税法推理重新定义为语义解析任务，让LLM将法规文本和纳税案例翻译为Prolog逻辑程序，由符号求解器执行计算，通过金标准法规+智能检索案例示例+自一致性检查，在SARA数据集上实现86/100的正确率，并将预计部署成本降至15.78美元/人（低于美国人均报税成本的6%）。

研究背景与动机¶

领域现状：全球几乎每个成年人每年都需要报税。在美国，平均每人花费270美元和13小时来完成报税。税法推理需要组合应用重叠规则并进行数值计算，错误会导致罚款。现有LLM虽然能做一般的数学推理，但税法推理需要应用推理时才给定的contingent规则（而非训练时学到的通用算术）。

现有痛点： - LLM直接计算不可靠：即使GPT-4/o3直接计算税务义务，也只有56-76%的正确率，错误会产生实际经济损失 - 缺乏可审计性：LLM的思维链(CoT)与最终答案之间的因果关系不可靠，无法作为审计依据 - 无法识别不确定性：LLM总是给出答案，不会在不确定时拒绝回答

核心矛盾：税法推理需要高准确性+可审计性+不确定时的抛弃能力，这三点恰好是LLM的短板。

本文目标 如何整合LLM和符号推理，使自动报税系统同时满足高准确性、可审计性和成本效益？

切入角度：将税法推理重新定义为语义解析(semantic parsing)——LLM负责将自然语言翻译为Prolog代码，Prolog引擎负责精确计算和推理追踪。

核心 idea：LLM做翻译（自然语言→Prolog），符号求解器做推理，两者分工协作+自一致性检查+失败时拒绝回答。

方法详解¶

整体框架¶

三种方法逐步递进：(1) Direct——LLM直接计算税务义务；(2) Parsed——LLM零样本将法规和案例翻译为Prolog，由SWI-Prolog执行；(3) Few-Shot——提供金标准法规Prolog + 智能检索的案例翻译示例。可叠加自一致性检查（两次独立推理必须得出相同答案才接受）。

关键设计¶

零样本解析(Zero-Shot Parsed):
- 功能：LLM在无示例的情况下将法规文本+案例事实翻译为Prolog程序
- 核心思路：给LLM法规全文和案例描述，指示其生成可计算目标人税务义务的Prolog程序。SWI-Prolog执行该程序，10秒超时则视为拒绝回答
- 设计动机：Prolog执行提供天然的拒绝机制——程序不能执行=系统不确定，比LLM"总是回答"更安全。执行路径本身就是可审计的推理过程
少样本解析+金标准法规(Few-Shot with Gold Statutes):
- 功能：给LLM预先人工翻译好的法规Prolog，加上与当前案例最相关的5个已翻译案例作为示例
- 核心思路：用指令式检索系统（让o4-mini对其他99个案例按逻辑结构相似性排序）找到5个最相关的"先例"案例，连同其金标准Prolog翻译作为few-shot示例。任务简化为：参照这些示例，将当前案例的事实翻译为Prolog谓词
- 设计动机：(1) 法规翻译是一次性投入，之后无数案例都可以复用；(2) 相关案例示例教会LLM该法规体系特有的形式化约定（Neo-Davidsonian事件语义，61种谓词）；(3) 将复杂的法规+案例联合解析简化为纯粹的案例事实提取
自一致性检查(Self-Consistency):
- 功能：要求两次独立推理得出相同答案才接受
- 核心思路：可以是同方法两次(Parsed+Parsed)、不同方法交叉(Direct+Parsed, Direct+Few-Shot)。任何不一致均拒绝回答，转交人工
- 设计动机：以覆盖率换准确率，错误成本远高于人工报税成本(270美元)，所以宁可拒绝也不能出错

损失函数 / 评估方法¶

Break-Even Price（盈亏平衡价格）：一个创新的经济评估指标 - 低报实际税额超过max($5000, 10%×实际税额)：罚款=低报额×20% - 多报：成本=多报金额 - 拒绝回答：成本=$270（美国人均报税费用） - 其他情况：$0 - Break-Even Price = 所有案例平均成本，代表部署该系统不亏损的最低服务定价

实验关键数据¶

主实验¶

无金标准法规时（零样本解析+直接计算）：

模型	方法	正确	错误	拒绝	Break-Even Price
DeepSeek-R1	Direct	74	26	0	$304.29
DeepSeek-R1	Parsed	38	10	52	$249.64
DeepSeek-R1	Direct+Direct	66	12	22	$94.20
o3	Parsed	75	15	10	$47.43
GPT-5	Direct	76	24	0	$299.11

有金标准法规+智能检索示例时：

模型	方法	正确	错误	拒绝	Break-Even Price
GPT-4.1	Few-Shot	87	8	5	$247.99
GPT-4.1	Few-Shot+Few-Shot	81	5	14	$40.08
GPT-5	Few-Shot	86	9	5	$15.78
o3	Few-Shot	81	13	6	$60.26
DeepSeek-V3 (chat)	Few-Shot	78	18	4	$468.66

消融实验¶

对比维度	Chat模型	Reasoning模型	说明
Direct Solving	较差	更好	推理模型更擅长直接计算
Zero-Shot Parsing	较差	更好	推理模型更擅长零样本翻译
Few-Shot Parsing	更好	较差	Chat模型在有示例时反而更好！

关键发现¶

Chat vs Reasoning模型的分化：推理模型在直接计算和零样本解析上更强，但在few-shot解析上chat模型反而更好。可能因为长CoT在简单的模式匹配翻译任务上反而是干扰
GPT-5的Few-Shot是最佳方案：86/100正确，break-even price仅$15.78，为美国人均报税成本的~6%
自一致性检查大幅降低成本：GPT-4.1 Few-Shot+Few-Shot将break-even从$247.99降到$40.08（84%降幅），以牺牲覆盖率(87→81)换取错误率大幅下降(8→5)
符号求解器提供天然的质量控制：Parsed方法中大量程序执行失败自动拒绝，虽然正确数少但错误数也极少
模型规模的影响：小模型(Qwen-32B, Llama-70B)在零样本解析上几乎完全失败，但大模型(o3)在该设置下达到最佳。解析能力随规模急剧提升

亮点与洞察¶

Break-Even Price指标：将AI准确率转化为实际美元成本，直观展示了系统的经济可行性。这种将税法罚则直接融入评估的思路非常实用，应推广到其他高stakes任务的评估中
Prolog执行失败=拒绝机制：巧妙利用程序不可执行这一信号作为置信度指标，无需额外的不确定性估计模块
Chat模型在few-shot解析上反超推理模型：这个反直觉发现对模型选择有实际指导意义——不是所有任务都需要推理模型
分阶段投入的经济学分析：金标准法规翻译是一次性固定成本，之后每个案例的边际成本极低。这与现实中税务软件公司的商业模式高度一致

局限与展望¶

SARA数据集的局限性：仅9个简化后的税法条款+100个人工案例，远非真实税法的复杂度。真实美国税法有上千条款和无数例外
依赖金标准法规翻译：最佳性能需要预先人工翻译法规为Prolog，这在真实法律体系中是巨大工程
仅处理数值计算案例：SARA的376个案例中只取了100个需要数值计算的（更难的），其余276个二元判断案例未评估
闭源模型依赖：最佳结果来自GPT-5和o3，开源模型差距明显
未考虑法规变更：税法每年修改，需要持续维护Prolog翻译

评分¶

新颖性: ⭐⭐⭐⭐ 将税法推理重新定义为语义解析任务，break-even price经济评估新颖
实验充分度: ⭐⭐⭐⭐⭐ 8+模型×5+方法×多种组合，消融详尽，经济分析完整
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法递进合理，经济学视角引入自然
价值: ⭐⭐⭐⭐ 对法律AI和神经符号系统有重要启示，break-even price框架可推广