Language Models and Logic Programs for Trustworthy Tax Reasoning¶
会议: AAAI 2026
arXiv: 2508.21051
代码: GitHub
领域: NLP理解 / 法律AI
关键词: 法规推理, 税法计算, 神经符号系统, Prolog, 语义解析, LLM+符号求解器
一句话总结¶
将税法推理重新定义为语义解析任务,让LLM将法规文本和纳税案例翻译为Prolog逻辑程序,由符号求解器执行计算,通过金标准法规+智能检索案例示例+自一致性检查,在SARA数据集上实现86/100的正确率,并将预计部署成本降至15.78美元/人(低于美国人均报税成本的6%)。
研究背景与动机¶
领域现状:全球几乎每个成年人每年都需要报税。在美国,平均每人花费270美元和13小时来完成报税。税法推理需要组合应用重叠规则并进行数值计算,错误会导致罚款。现有LLM虽然能做一般的数学推理,但税法推理需要应用推理时才给定的contingent规则(而非训练时学到的通用算术)。
现有痛点: - LLM直接计算不可靠:即使GPT-4/o3直接计算税务义务,也只有56-76%的正确率,错误会产生实际经济损失 - 缺乏可审计性:LLM的思维链(CoT)与最终答案之间的因果关系不可靠,无法作为审计依据 - 无法识别不确定性:LLM总是给出答案,不会在不确定时拒绝回答
核心矛盾:税法推理需要高准确性+可审计性+不确定时的抛弃能力,这三点恰好是LLM的短板。
本文目标 如何整合LLM和符号推理,使自动报税系统同时满足高准确性、可审计性和成本效益?
切入角度:将税法推理重新定义为语义解析(semantic parsing)——LLM负责将自然语言翻译为Prolog代码,Prolog引擎负责精确计算和推理追踪。
核心 idea:LLM做翻译(自然语言→Prolog),符号求解器做推理,两者分工协作+自一致性检查+失败时拒绝回答。
方法详解¶
整体框架¶
三种方法逐步递进:(1) Direct——LLM直接计算税务义务;(2) Parsed——LLM零样本将法规和案例翻译为Prolog,由SWI-Prolog执行;(3) Few-Shot——提供金标准法规Prolog + 智能检索的案例翻译示例。可叠加自一致性检查(两次独立推理必须得出相同答案才接受)。
关键设计¶
-
零样本解析(Zero-Shot Parsed):
- 功能:LLM在无示例的情况下将法规文本+案例事实翻译为Prolog程序
- 核心思路:给LLM法规全文和案例描述,指示其生成可计算目标人税务义务的Prolog程序。SWI-Prolog执行该程序,10秒超时则视为拒绝回答
- 设计动机:Prolog执行提供天然的拒绝机制——程序不能执行=系统不确定,比LLM"总是回答"更安全。执行路径本身就是可审计的推理过程
-
少样本解析+金标准法规(Few-Shot with Gold Statutes):
- 功能:给LLM预先人工翻译好的法规Prolog,加上与当前案例最相关的5个已翻译案例作为示例
- 核心思路:用指令式检索系统(让o4-mini对其他99个案例按逻辑结构相似性排序)找到5个最相关的"先例"案例,连同其金标准Prolog翻译作为few-shot示例。任务简化为:参照这些示例,将当前案例的事实翻译为Prolog谓词
- 设计动机:(1) 法规翻译是一次性投入,之后无数案例都可以复用;(2) 相关案例示例教会LLM该法规体系特有的形式化约定(Neo-Davidsonian事件语义,61种谓词);(3) 将复杂的法规+案例联合解析简化为纯粹的案例事实提取
-
自一致性检查(Self-Consistency):
- 功能:要求两次独立推理得出相同答案才接受
- 核心思路:可以是同方法两次(Parsed+Parsed)、不同方法交叉(Direct+Parsed, Direct+Few-Shot)。任何不一致均拒绝回答,转交人工
- 设计动机:以覆盖率换准确率,错误成本远高于人工报税成本(270美元),所以宁可拒绝也不能出错
损失函数 / 评估方法¶
Break-Even Price(盈亏平衡价格):一个创新的经济评估指标 - 低报实际税额超过max(\(5000, 10%×实际税额):罚款=低报额×20% - 多报:成本=多报金额 - 拒绝回答:成本=\)270(美国人均报税费用) - 其他情况:$0 - Break-Even Price = 所有案例平均成本,代表部署该系统不亏损的最低服务定价
实验关键数据¶
主实验¶
无金标准法规时(零样本解析+直接计算):
| 模型 | 方法 | 正确 | 错误 | 拒绝 | Break-Even Price |
|---|---|---|---|---|---|
| DeepSeek-R1 | Direct | 74 | 26 | 0 | $304.29 |
| DeepSeek-R1 | Parsed | 38 | 10 | 52 | $249.64 |
| DeepSeek-R1 | Direct+Direct | 66 | 12 | 22 | $94.20 |
| o3 | Parsed | 75 | 15 | 10 | $47.43 |
| GPT-5 | Direct | 76 | 24 | 0 | $299.11 |
有金标准法规+智能检索示例时:
| 模型 | 方法 | 正确 | 错误 | 拒绝 | Break-Even Price |
|---|---|---|---|---|---|
| GPT-4.1 | Few-Shot | 87 | 8 | 5 | $247.99 |
| GPT-4.1 | Few-Shot+Few-Shot | 81 | 5 | 14 | $40.08 |
| GPT-5 | Few-Shot | 86 | 9 | 5 | $15.78 |
| o3 | Few-Shot | 81 | 13 | 6 | $60.26 |
| DeepSeek-V3 (chat) | Few-Shot | 78 | 18 | 4 | $468.66 |
消融实验¶
| 对比维度 | Chat模型 | Reasoning模型 | 说明 |
|---|---|---|---|
| Direct Solving | 较差 | 更好 | 推理模型更擅长直接计算 |
| Zero-Shot Parsing | 较差 | 更好 | 推理模型更擅长零样本翻译 |
| Few-Shot Parsing | 更好 | 较差 | Chat模型在有示例时反而更好! |
关键发现¶
- Chat vs Reasoning模型的分化:推理模型在直接计算和零样本解析上更强,但在few-shot解析上chat模型反而更好。可能因为长CoT在简单的模式匹配翻译任务上反而是干扰
- GPT-5的Few-Shot是最佳方案:86/100正确,break-even price仅$15.78,为美国人均报税成本的~6%
- 自一致性检查大幅降低成本:GPT-4.1 Few-Shot+Few-Shot将break-even从\(247.99降到\)40.08(84%降幅),以牺牲覆盖率(87→81)换取错误率大幅下降(8→5)
- 符号求解器提供天然的质量控制:Parsed方法中大量程序执行失败自动拒绝,虽然正确数少但错误数也极少
- 模型规模的影响:小模型(Qwen-32B, Llama-70B)在零样本解析上几乎完全失败,但大模型(o3)在该设置下达到最佳。解析能力随规模急剧提升
亮点与洞察¶
- Break-Even Price指标:将AI准确率转化为实际美元成本,直观展示了系统的经济可行性。这种将税法罚则直接融入评估的思路非常实用,应推广到其他高stakes任务的评估中
- Prolog执行失败=拒绝机制:巧妙利用程序不可执行这一信号作为置信度指标,无需额外的不确定性估计模块
- Chat模型在few-shot解析上反超推理模型:这个反直觉发现对模型选择有实际指导意义——不是所有任务都需要推理模型
- 分阶段投入的经济学分析:金标准法规翻译是一次性固定成本,之后每个案例的边际成本极低。这与现实中税务软件公司的商业模式高度一致
局限与展望¶
- SARA数据集的局限性:仅9个简化后的税法条款+100个人工案例,远非真实税法的复杂度。真实美国税法有上千条款和无数例外
- 依赖金标准法规翻译:最佳性能需要预先人工翻译法规为Prolog,这在真实法律体系中是巨大工程
- 仅处理数值计算案例:SARA的376个案例中只取了100个需要数值计算的(更难的),其余276个二元判断案例未评估
- 闭源模型依赖:最佳结果来自GPT-5和o3,开源模型差距明显
- 未考虑法规变更:税法每年修改,需要持续维护Prolog翻译
相关工作与启发¶
- vs GPT-4 Direct (Blair-Stanek et al. 2024): GPT-4的SARA showcase只做了直接计算,本文通过符号求解器+few-shot大幅超越
- vs 法律AI系统 (Sergot et al. 1986): 经典法律专家系统全部手工编码规则,本文用LLM自动解析案例事实,大幅减少人工
- vs Catala (Merigoux et al. 2021): Catala设计了专门的法律编程语言编码法国税法,本文用Prolog+LLM翻译的方式更通用
评分¶
- 新颖性: ⭐⭐⭐⭐ 将税法推理重新定义为语义解析任务,break-even price经济评估新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 8+模型×5+方法×多种组合,消融详尽,经济分析完整
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法递进合理,经济学视角引入自然
- 价值: ⭐⭐⭐⭐ 对法律AI和神经符号系统有重要启示,break-even price框架可推广