Debating the Unspoken: Role-Anchored Multi-Agent Reasoning for Half-Truth Detection¶

会议: ACL 2026
arXiv: 2604.19005
代码: https://github.com/tangyixuan/RADAR
领域: 事实验证 / 虚假信息检测
关键词: 半真半假检测, 多智能体辩论, 遗漏推理, 角色锚定, 自适应终止

一句话总结¶

提出RADAR框架，通过角色锚定（政客 vs 科学家）的多智能体辩论来检测基于遗漏上下文的半真半假信息，配合双阈值自适应早停机制，在噪声检索条件下一致超越单智能体和传统多智能体基线。

研究背景与动机¶

领域现状：事实验证系统在检测显式虚假信息上取得进展，但对半真半假（half-truth）——事实上正确但因遗漏关键上下文而具有误导性的声明——仍是盲区。例如"某政客减少了15%的国债"本身正确，但隐藏了同期先增加了20%的事实。

现有痛点：（1）单智能体方法（编码器分类器、指令LLM）执行单次推理，当关键上下文缺失时容易误判；（2）传统多智能体辩论（MAD）使用固定的正/反方角色，针对显式矛盾设计，不适合遗漏推理——核心问题是缺失的上下文而非对立的声明；（3）TRACER虽首次显式建模遗漏，但假设有黄金证据且为单智能体流水线。

核心矛盾：遗漏检测需要推理"什么没被说出来"，而非"什么是错的"——现有验证系统都在寻找矛盾而非缺失。

本文目标：在现实的噪声检索条件下，设计能发现缺失上下文的事实验证框架。

切入角度：将验证建模为互补角色间的结构化辩论——一方构建最佳叙事（暴露选择性框架的动机），另一方探查遗漏（揭示缺失的上下文）。

核心 idea：用"政客"和"科学家"的角色锚定替代正/反方辩论，将遗漏检测从矛盾寻找转化为缺失上下文的主动探查。

方法详解¶

整体框架¶

RADAR分两阶段：（1）在噪声检索条件下构建共享证据池；（2）在角色锚定的多轮辩论中通过自适应早停推理。三个智能体参与：政客（构建支持叙事）、科学家（探查遗漏）、法官（裁决+终止控制）。

关键设计¶

角色锚定辩论协议:
- 功能：通过互补推理角色发现遗漏上下文
- 核心思路：政客智能体从证据中构建最具说服力的支持叙事（倾向确认性推理），科学家智能体审查同一证据中缺失、薄弱或选择性呈现的信息（倾向分析性推理）。辩论协议包含开场陈述→反驳轮→结辩总结，法官综合辩论记录和证据做出三分类判断（true/half-true/false）
- 设计动机：政客的角色天然倾向于选择性呈现，科学家的角色天然倾向于质疑遗漏，两者的对抗恰好模拟了半真半假的产生和检测机制
双阈值自适应早停控制器:
- 功能：在保证推理深度的同时减少不必要的辩论轮数
- 核心思路：每轮结束后法官计算停止边际 \(s = p(\text{STOP}) - p(\text{CONTINUE})\) 和最大标签置信度 \(c = \max_y p(y)\)。仅当 \(s \geq \tau_s\) 且 \(c \geq \tau_v\) 时终止辩论。两个阈值在开发集上校准
- 设计动机：单阈值可能在不确定案例（尤其是半真半假）上过早停止，双阈值要求同时满足"已有足够信息"和"已有高置信判断"
检索锚定的证据共享:
- 功能：在现实检索条件下约束辩论的基础
- 核心思路：所有智能体共享同一证据池（top-m检索结果），辩论中的论点必须引用检索证据而非模型内部知识。不同结论源于推理差异而非信息不对称
- 设计动机：与依赖模型内部知识的传统MAD不同，检索锚定提高了透明性和可追溯性

损失函数 / 训练策略¶

RADAR是无监督推理框架，不涉及训练。阈值在开发集上校准。

实验关键数据¶

主实验¶

在PolitiFact-Hidden基准上（检索证据条件下）：

方法	Accuracy	F1_macro	F1_HalfTrue
FIRE	60.3	46.9	34.1
D2D (MAD)	63.0	50.9	39.7
RADAR_single	58.4	51.0	41.5
RADAR_multi	77.7	63.3	56.5

消融实验¶

配置	Accuracy	说明
黄金证据+RADAR	83.6	完美检索的上限
检索证据+RADAR	77.7	现实条件仍强
无早停	~76	轻微下降但成本增加
固定正反方	~65	角色设计关键

关键发现¶

RADAR在检索条件下比最佳传统方法D2D提升14.7%准确率，尤其在半真半假检测（F1从39.7到56.5）上优势巨大
角色锚定是核心贡献：替换为传统正/反方角色后性能大幅下降，验证了互补推理设计的必要性
自适应早停在不损失性能的情况下平均减少约30%的辩论轮数
在黄金证据和检索证据两种设定下都一致优于基线，说明框架的鲁棒性

亮点与洞察¶

"政客-科学家"角色隐喻非常巧妙：半真半假本身就是政治话语中的常见手法，用模拟这种话语策略的角色来检测它，形成了一种"以彼之道还施彼身"的设计理念。
双阈值早停机制是工程上的实用创新：在推理成本和质量之间取得了好的平衡，对半真半假这种本质上不确定的类别尤其重要。
从"寻找矛盾"转向"发现缺失"的范式转变，为事实验证领域开辟了新方向。

局限与展望¶

仅在政治事实验证数据集上测试，其他领域（科学、医疗）的半真半假检测有待验证
角色设计虽然有效但依赖手工定义的提示模板，可能限制了泛化性
检索质量仍是性能瓶颈——黄金证据和检索证据之间约6%的差距表明改善检索可带来进一步提升
三分类（true/half-true/false）可能过于粗糙，真实的半真半假程度应该是连续的

评分¶

新颖性: ⭐⭐⭐⭐⭐ 角色锚定+遗漏推理的新范式
实验充分度: ⭐⭐⭐⭐ 多基线对比+消融+效率分析
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，角色设计直觉明了
价值: ⭐⭐⭐⭐⭐ 填补了半真半假检测的重要空白