跳转至

Language Models and Logic Programs for Trustworthy Tax Reasoning

会议: AAAI 2026
arXiv: 2508.21051
代码: GitHub
领域: NLP理解 / 法律AI
关键词: 法规推理, 税法计算, 神经符号系统, Prolog, 语义解析, LLM+符号求解器

一句话总结

将税法推理重新定义为语义解析任务,让LLM将法规文本和纳税案例翻译为Prolog逻辑程序,由符号求解器执行计算,通过金标准法规+智能检索案例示例+自一致性检查,在SARA数据集上实现86/100的正确率,并将预计部署成本降至15.78美元/人(低于美国人均报税成本的6%)。

研究背景与动机

领域现状:全球几乎每个成年人每年都需要报税。在美国,平均每人花费270美元和13小时来完成报税。税法推理需要组合应用重叠规则并进行数值计算,错误会导致罚款。现有LLM虽然能做一般的数学推理,但税法推理需要应用推理时才给定的contingent规则(而非训练时学到的通用算术)。

现有痛点: - LLM直接计算不可靠:即使GPT-4/o3直接计算税务义务,也只有56-76%的正确率,错误会产生实际经济损失 - 缺乏可审计性:LLM的思维链(CoT)与最终答案之间的因果关系不可靠,无法作为审计依据 - 无法识别不确定性:LLM总是给出答案,不会在不确定时拒绝回答

核心矛盾:税法推理需要高准确性+可审计性+不确定时的抛弃能力,这三点恰好是LLM的短板。

本文目标 如何整合LLM和符号推理,使自动报税系统同时满足高准确性、可审计性和成本效益?

切入角度:将税法推理重新定义为语义解析(semantic parsing)——LLM负责将自然语言翻译为Prolog代码,Prolog引擎负责精确计算和推理追踪。

核心 idea:LLM做翻译(自然语言→Prolog),符号求解器做推理,两者分工协作+自一致性检查+失败时拒绝回答。

方法详解

整体框架

三种方法逐步递进:(1) Direct——LLM直接计算税务义务;(2) Parsed——LLM零样本将法规和案例翻译为Prolog,由SWI-Prolog执行;(3) Few-Shot——提供金标准法规Prolog + 智能检索的案例翻译示例。可叠加自一致性检查(两次独立推理必须得出相同答案才接受)。

关键设计

  1. 零样本解析(Zero-Shot Parsed):

    • 功能:LLM在无示例的情况下将法规文本+案例事实翻译为Prolog程序
    • 核心思路:给LLM法规全文和案例描述,指示其生成可计算目标人税务义务的Prolog程序。SWI-Prolog执行该程序,10秒超时则视为拒绝回答
    • 设计动机:Prolog执行提供天然的拒绝机制——程序不能执行=系统不确定,比LLM"总是回答"更安全。执行路径本身就是可审计的推理过程
  2. 少样本解析+金标准法规(Few-Shot with Gold Statutes):

    • 功能:给LLM预先人工翻译好的法规Prolog,加上与当前案例最相关的5个已翻译案例作为示例
    • 核心思路:用指令式检索系统(让o4-mini对其他99个案例按逻辑结构相似性排序)找到5个最相关的"先例"案例,连同其金标准Prolog翻译作为few-shot示例。任务简化为:参照这些示例,将当前案例的事实翻译为Prolog谓词
    • 设计动机:(1) 法规翻译是一次性投入,之后无数案例都可以复用;(2) 相关案例示例教会LLM该法规体系特有的形式化约定(Neo-Davidsonian事件语义,61种谓词);(3) 将复杂的法规+案例联合解析简化为纯粹的案例事实提取
  3. 自一致性检查(Self-Consistency):

    • 功能:要求两次独立推理得出相同答案才接受
    • 核心思路:可以是同方法两次(Parsed+Parsed)、不同方法交叉(Direct+Parsed, Direct+Few-Shot)。任何不一致均拒绝回答,转交人工
    • 设计动机:以覆盖率换准确率,错误成本远高于人工报税成本(270美元),所以宁可拒绝也不能出错

损失函数 / 评估方法

Break-Even Price(盈亏平衡价格):一个创新的经济评估指标 - 低报实际税额超过max(\(5000, 10%×实际税额):罚款=低报额×20% - 多报:成本=多报金额 - 拒绝回答:成本=\)270(美国人均报税费用) - 其他情况:$0 - Break-Even Price = 所有案例平均成本,代表部署该系统不亏损的最低服务定价

实验关键数据

主实验

无金标准法规时(零样本解析+直接计算):

模型 方法 正确 错误 拒绝 Break-Even Price
DeepSeek-R1 Direct 74 26 0 $304.29
DeepSeek-R1 Parsed 38 10 52 $249.64
DeepSeek-R1 Direct+Direct 66 12 22 $94.20
o3 Parsed 75 15 10 $47.43
GPT-5 Direct 76 24 0 $299.11

有金标准法规+智能检索示例时:

模型 方法 正确 错误 拒绝 Break-Even Price
GPT-4.1 Few-Shot 87 8 5 $247.99
GPT-4.1 Few-Shot+Few-Shot 81 5 14 $40.08
GPT-5 Few-Shot 86 9 5 $15.78
o3 Few-Shot 81 13 6 $60.26
DeepSeek-V3 (chat) Few-Shot 78 18 4 $468.66

消融实验

对比维度 Chat模型 Reasoning模型 说明
Direct Solving 较差 更好 推理模型更擅长直接计算
Zero-Shot Parsing 较差 更好 推理模型更擅长零样本翻译
Few-Shot Parsing 更好 较差 Chat模型在有示例时反而更好!

关键发现

  • Chat vs Reasoning模型的分化:推理模型在直接计算和零样本解析上更强,但在few-shot解析上chat模型反而更好。可能因为长CoT在简单的模式匹配翻译任务上反而是干扰
  • GPT-5的Few-Shot是最佳方案:86/100正确,break-even price仅$15.78,为美国人均报税成本的~6%
  • 自一致性检查大幅降低成本:GPT-4.1 Few-Shot+Few-Shot将break-even从\(247.99降到\)40.08(84%降幅),以牺牲覆盖率(87→81)换取错误率大幅下降(8→5)
  • 符号求解器提供天然的质量控制:Parsed方法中大量程序执行失败自动拒绝,虽然正确数少但错误数也极少
  • 模型规模的影响:小模型(Qwen-32B, Llama-70B)在零样本解析上几乎完全失败,但大模型(o3)在该设置下达到最佳。解析能力随规模急剧提升

亮点与洞察

  • Break-Even Price指标:将AI准确率转化为实际美元成本,直观展示了系统的经济可行性。这种将税法罚则直接融入评估的思路非常实用,应推广到其他高stakes任务的评估中
  • Prolog执行失败=拒绝机制:巧妙利用程序不可执行这一信号作为置信度指标,无需额外的不确定性估计模块
  • Chat模型在few-shot解析上反超推理模型:这个反直觉发现对模型选择有实际指导意义——不是所有任务都需要推理模型
  • 分阶段投入的经济学分析:金标准法规翻译是一次性固定成本,之后每个案例的边际成本极低。这与现实中税务软件公司的商业模式高度一致

局限与展望

  • SARA数据集的局限性:仅9个简化后的税法条款+100个人工案例,远非真实税法的复杂度。真实美国税法有上千条款和无数例外
  • 依赖金标准法规翻译:最佳性能需要预先人工翻译法规为Prolog,这在真实法律体系中是巨大工程
  • 仅处理数值计算案例:SARA的376个案例中只取了100个需要数值计算的(更难的),其余276个二元判断案例未评估
  • 闭源模型依赖:最佳结果来自GPT-5和o3,开源模型差距明显
  • 未考虑法规变更:税法每年修改,需要持续维护Prolog翻译

相关工作与启发

  • vs GPT-4 Direct (Blair-Stanek et al. 2024): GPT-4的SARA showcase只做了直接计算,本文通过符号求解器+few-shot大幅超越
  • vs 法律AI系统 (Sergot et al. 1986): 经典法律专家系统全部手工编码规则,本文用LLM自动解析案例事实,大幅减少人工
  • vs Catala (Merigoux et al. 2021): Catala设计了专门的法律编程语言编码法国税法,本文用Prolog+LLM翻译的方式更通用

评分

  • 新颖性: ⭐⭐⭐⭐ 将税法推理重新定义为语义解析任务,break-even price经济评估新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 8+模型×5+方法×多种组合,消融详尽,经济分析完整
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法递进合理,经济学视角引入自然
  • 价值: ⭐⭐⭐⭐ 对法律AI和神经符号系统有重要启示,break-even price框架可推广