跳转至

MAD-Logic: Multi-Agent Debate Enhances Symbolic Translation and Reasoning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=rdE9qxGfIv
代码: https://github.com/yhc-666/MAD-Logic
领域: 神经符号推理 / 多智能体辩论 / 逻辑问答
关键词: 逻辑推理, 符号翻译, 多智能体辩论, 稀疏通信, 多数投票

一句话总结

让多个智能体把同一道逻辑题翻译成 LP/FOL/SAT 三种符号语言、再让"求解器派"和"自然语言派"多轮辩论后多数投票,并用基于置信度与信息增益的稀疏通信剪掉无用交流,从而在逻辑问答上同时拿到强推理与强鲁棒,还更省 token。

研究背景与动机

领域现状:让 LLM 做复杂逻辑推理目前有两条主流管线——一条是把自然语言(NL)翻译成符号语言(SL,如逻辑编程 LP、一阶逻辑 FOL、布尔可满足 SAT)再交给外部求解器(Pyke/Prover9/Z3)严格推理;另一条是直接用 prompting 或微调让 LLM 在自然语言里推理(CoT、ToP、Plan-and-Solve 等)。

现有痛点:翻译阶段,已有工作通常只把问题翻译成单一预定义的 SL,但每种 SL 表达力各异——LP 擅长规则演绎但只能处理规则型问题,FOL 表达力强却在大规模问题上计算复杂,SAT 求解极快却无法刻画非布尔的复杂关系;只押一种 SL 经常抓不住原文不同侧面的关键特征,造成信息丢失或翻译错误。推理阶段则存在权衡:求解器推理强但鲁棒性弱(翻译稍有瑕疵就拒绝输出甚至无解),LLM 直接推理鲁棒性强但推理弱(容忍不完美翻译,却易幻觉、逻辑不自洽)。

核心矛盾:单智能体范式无法同时拿到"严格的符号推理能力"和"对翻译错误的鲁棒性"——选求解器就怕翻译崩、选 LLM 就怕幻觉,二者本质互补却被割裂使用。

本文目标:构建一个能同时吸收"多种 SL 之长"与"SL/NL 两种推理范式之长"的框架,在翻译和推理两个阶段都做得更好,同时把多智能体辩论固有的高 token 开销压下来。

核心 idea首次把逻辑问答建模成多智能体辩论——翻译阶段让每个 agent 负责一种 SL 并通过辩论互相纠错,推理阶段让 SL 求解器派和 NL 派多轮辩论后多数投票;再叠加一个自适应稀疏通信机制,按置信度比和信息增益动态剪枝无价值的 agent 间交流。

方法详解

整体框架

MAD-Logic 把逻辑问答拆成"符号翻译辩论 → SL/NL 推理辩论 → 多数投票"三段,并贯穿一个稀疏通信调度器。原始 NL 问题先被并行翻译成 LP、FOL、SAT 三种 SL,agent 辩论精修翻译;随后 LP/FOL/SAT 交给对应求解器得到符号推理轨迹,同时 LLM 用 CoT 与 Plan-and-Solve 直接在 NL 里求解;所有"叙事化"的推理结果再进入多轮辩论互相校准,最后由多数投票定答案。稀疏通信机制在辩论的每一轮动态剪掉低价值的信息传递,控制开销。

flowchart TD
    NL[自然语言逻辑问题] --> T{翻译辩论}
    T --> LP[LP 翻译]
    T --> FOL[FOL 翻译]
    T --> SAT[SAT 翻译]
    LP --> S1[Pyke 求解器]
    FOL --> S2[Prover9 求解器]
    SAT --> S3[Z3 求解器]
    NL --> N1[CoT / Plan-and-Solve]
    S1 --> D[推理辩论<br/>叙事化+多轮互改]
    S2 --> D
    S3 --> D
    N1 --> D
    D --> V[多数投票 → 最终答案]
    SP[稀疏通信门控] -.剪枝.-> D

关键设计

1. 多 SL 并行翻译 + 辩论纠错:用语言异构性换翻译鲁棒性。 这一步的出发点是单一 SL 必然偏科,于是把同一道题同时翻译成 LP、FOL、SAT 三套表示并行展开——LP 给出规则链式演绎(如 has_parent(x,y) ∧ has_parent(y,z) → has_grandparent(x,z)),FOL 用量词刻画复杂关系(如 \(\forall x\forall y(\text{Loves}(x,y)\to\neg\text{Hates}(x,y))\)),SAT 把问题压成布尔变量与约束交给高度优化的求解器。三个 agent 各管一种语言,再通过多智能体辩论互相参照、修正翻译错误,让最终送进求解器的符号表达比单语言翻译更准,从源头缓解"翻译一崩、求解器就废"的脆弱性。

2. SL/NL 混合推理辩论:让求解器与 LLM 取长补短。 求解器派和 prompt 派天然互补——前者严格但脆、后者鲁棒但弱,单独用都不够。方法先把求解器的符号推理过程(规则、步骤、结论,例如 Pyke 跑出的一串 implied facts)叙事化成自然语言描述,让它和 LLM 直接产出的 CoT/Plan-and-Solve 叙事处在同一可比的文本空间;接着进入由 LLM 驱动的迭代精修循环:每一轮 LLM 以"所有其它叙事"为上下文重写每条推理叙事,重复 \(N\) 轮做深度交互与互相校准,最后对所有精修后叙事的结论做多数投票。这样求解器的严谨性和 LLM 的容错性被融到同一个投票池里,谁错谁被多数纠正。

3. 自适应稀疏通信:用偏好分数剪掉无用辩论。 全连接辩论 token 开销巨大且充斥重复交换,于是引入一个偏好分数衡量"agent i 在第 d 轮把输出传给 agent j"到底值不值:

\[\text{Pre}^d_{i\to j} = \frac{C^d_i}{C^d_j} + \lambda\big(1 - \cos(A^d_j, A^d_i)\big)\]

第一项是源/收信 agent 的置信度比 \(C^d_i/C^d_j\)(每个 agent 在输出预测标签和推理轨迹的同一回合给出 \([0,1]\) 的置信度),第二项 \(1-\cos(A^d_j,A^d_i)\) 度量两份输出的差异即信息增益,\(\lambda\) 调权。通信是否放行由二值门 \(O^d_{i\to j}\) 决定,阈值取该对 agent 的历史平均偏好:

\[O^d_{i\to j} = \begin{cases} 1, & \text{Pre}^d_{i\to j} \ge \alpha\cdot\text{Pre}^{d-1}_{i\to j} \\ 0, & \text{otherwise} \end{cases}\]

即只有当本次交互至少和历史平均一样有益时才允许传递。配合选择性记忆更新:第一轮全连接、各 agent 记忆为空 \(M^1_s\leftarrow\emptyset\),从第二轮起门控生效,每轮结束 agent 只把门开着(\(O^d_{i\to j}=1\))的那些 agent 输出并入自己的个性化记忆 \(M^{d+1}_s\),再据此生成下一轮输出;\(D\) 轮后所有 agent 的最终输出多数投票定答案。

4. 多数投票的精度下界保证:从理论上说明异构 agent 为何有效。 把逻辑问答建成 \(k\) 类分类,\(m\) 个 agent 每个都优于随机猜(准确率 \(p>1/k\)),用平均成对类间相关 \(\rho\) 刻画 agent 间错误的相关程度,作者给出多数投票集成的准确率下界 \(P(H(x)=y)\ge 1-(k-1)\frac{\sigma^2[1+(m-1)\rho]}{m\delta^2}\)(其中 \(\delta=\frac{p-1-p}{k-1}\) 这类量由 \(p,k\) 决定)。结论是:若 agent 错误独立(\(\rho=0\))则 \(m\to\infty\) 时下界趋于 1;若错误正相关但适中(\(\rho>0\))下界收敛到 \(1-(k-1)\rho\sigma^2/\delta^2\)。这正好解释了为什么要让 SL/NL 异构 agent 来辩论——异构性带来足够低的错误相关,避免"大家一起错"的虚假共识,让多数投票真正有增益。

实验关键数据

主实验

三个合成基准(ProntoQA / ProofWriter / LogicalDeduction)与三个真实基准(AR-LSAT / FOLIO / Chinese LogiQA-V2),覆盖 GPT-4、Claude 3.7 Sonnet、DeepSeek-V3、Qwen2.5-7B 多个 backbone,温度设 0。

方法 ProntoQA(GPT-4) ProofWriter(GPT-4) LogiDeduct(GPT-4)
Direct 75.40% 53.50% 59.00%
1-shot COT 81.20% 67.17% 69.67%
SymbCOT 96.00% 82.33% 86.33%
CortexDebate 99.60% 90.83% 92.33%
Ours (w/o sparse) 99.40% 90.17% 94.00%
Ours (w/ sparse) 100.00% 92.00% 94.33%

真实基准(GPT-4)上同样领先,AR-LSAT 53.25%、FOLIO 86.27%、Chinese LogiQA-V2 74.76%,均超过最强多智能体基线 CortexDebate(51.08% / 84.80% / 74.13%)。小模型 Qwen2.5-7B 上 w/ sparse 也在多数数据集胜出(ProofWriter 76.50%、ProntoQA 86.40%)。

消融实验

配置 ProntoQA ProofWriter LogiDeduct (GPT-4)
w/o 多 agent 翻译 99.40% 89.17% 90.00%
w/o SL 推理辩论 95.60% 79.33% 84.67%
w/o NL 推理辩论 99.20% 90.67% 94.00%
Ours 100.00% 92.00% 94.33%

去掉 SL 推理辩论掉点最猛(ProofWriter 92→79),说明符号求解器派是精度主力;翻译辩论与 NL 辩论各有贡献。agent 组成上 SAT+FOL+LP+(CoT+P&S)的全配置最佳,逐步加 SL 种类和 NL 方法都在涨点。稀疏门控的 \(\lambda\) 越大、token 节省率越高(ProntoQA 上 \(\lambda{=}1.0\) 节省 22.89% token 且精度不降反升)。

关键发现

  • 稀疏通信不是单纯省钱:带误差棒的实验里 w/ sparse 多处显著优于 w/o sparse 与 CortexDebate(标 * 为 t-test p<0.05),剪枝在降本的同时还提精度。
  • 求解器执行率随辩论轮数先升后降,在 2-3 轮达峰,提示辩论轮数存在甜点。
  • 多 SL 互补是真实增益来源:单 FOL → SAT+FOL → SAT+FOL+LP 逐级提升,验证语言异构性假设。

亮点与洞察

  • 把"选 SL 求解器还是选 LLM"这个老二选一,重构成"让它们当 agent 一起辩论再投票",是对神经符号推理范式的一次干净的范式转换。
  • 稀疏通信用置信度比 × 信息增益做门控阈值、且阈值取历史平均自适应,既有直觉又便宜,把多智能体辩论最被诟病的 token 开销问题正面解决。
  • 配了多数投票精度下界定理,把"异构 agent 错误相关低 → 投票有效"讲成可量化的结论,理论与"为何要混 SL/NL"的设计动机对得很齐。

局限与展望

  • 翻译成三种 SL + 多轮辩论 + 多求解器,即便稀疏化后整体 pipeline 仍比单 agent 重,端到端延迟与工程复杂度偏高。
  • 依赖外部求解器(Pyke/Prover9/Z3)与对应翻译质量,超出 LP/FOL/SAT 可表达范围的逻辑(如概率、时序、模态推理)尚未覆盖。
  • 置信度由 LLM 自报,稀疏门控的可靠性受 LLM 置信度校准好坏影响;评测仍以逻辑 QA 准确率为主,未触及更开放的推理场景。

相关工作与启发

  • SL-based 求解器路线:LINC、LogicLM、Aristotle、SymbCoT 等先翻译再交求解器,强在严谨弱在脆;本文把它们当辩论中的一派而非唯一答案。
  • NL 直接推理路线:CoT、ToT、Plan-and-Solve 等鲁棒但易幻觉;本文用它补求解器的容错短板。
  • 多智能体辩论:相比 CortexDebate / SparseMAD 等只在 NL 里辩论或固定拓扑,本文跨 SL/NL 异构辩论 + 自适应稀疏拓扑是主要区别,也是消融里领先它们的来源。
  • 启发:当一个任务存在"严谨但脆"与"鲁棒但弱"的互补范式时,与其二选一,不如把它们叙事化到同一空间做投票辩论,并用信息增益门控控制成本——这套思路可迁移到代码推理、数学证明等同样有"形式化 vs 自然语言"张力的任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次把多 SL 翻译 + SL/NL 异构辩论统一进多智能体框架,稀疏通信门控设计巧妙,范式转换清晰。
  • 实验充分度: ⭐⭐⭐⭐ 6 个基准 × 4 个 backbone,含误差棒、显著性检验、丰富消融(组件/agent 组成/轮数/\(\lambda\)),证据扎实。
  • 写作质量: ⭐⭐⭐⭐ 动机—方法—理论—实验逻辑连贯,图表清楚,理论下界与设计动机呼应;公式符号略密。
  • 价值: ⭐⭐⭐⭐ 在逻辑 QA 上同时提精度与省 token,方法可迁移到其它"形式化 vs 自然语言"互补的推理任务,工程与理论双落点。