Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment¶

会议: ACL 2026
arXiv: 2604.19548
代码: https://unikcc.github.io/ReTAS/
领域: LLM推理
关键词: 行动者-观察者不对称, 归因偏差, 辩证对齐, 多Agent协作, 自我反思

一句话总结¶

发现 LLM Agent 在角色扮演中会表现出类人的"行动者-观察者不对称"（AOA）认知偏差——作为行动者倾向归因外部因素，作为观察者倾向归因内部错误，提出 ReTAS 通过辩证推理（正题-反题-合题）和 GRPO 对齐来消除这一偏差。

研究背景与动机¶

领域现状：LLM 多 Agent 框架通过角色扮演来分配专业能力（如执行者、审查者），利用自我反思和相互审计提升可靠性。但角色分配不仅是功能规范，也充当了认知先验来塑造推理。

现有痛点：当 Agent 作为"行动者"（自我反思时）面对失败，倾向将原因归结于外部因素（如服务器问题）；而作为"观察者"（审计他人时），则倾向归结于内部错误（如代码逻辑错误）。这种矛盾的归因导致 Agent 间无法达成共识，削弱协作可靠性。

核心矛盾：角色扮演是多 Agent 系统的基础设计，但角色带来的认知偏差是其副作用。简单地指示 Agent"保持客观"无效（角色惯性导致防御性辩护），强制对立视角则导致过度纠正和无根据的自我指责。

本文目标：量化 LLM 中的 AOA 偏差，并设计一种结构化推理方法来消除这种视角依赖性的归因不一致。

切入角度：借鉴费希特辩证法（正题→反题→合题）——稳健的归因需要先表达立场、再面对否定、最后综合为统一真理。

核心 idea：训练 ReTAS 模型，将反思分解为三个显式阶段：正题（角色一致的解释）、反题（模拟对立视角暴露盲点）、合题（调和冲突观点得出视角不变的结论），并用 GRPO 的归因奖励对齐模型。

方法详解¶

整体框架¶

框架包含三步：（1）构建歧义失败基准（AFB）量化 AOA 偏差；（2）辩证合成——为每个归因场景生成正题-反题-合题的推理轨迹；（3）辩证对齐——用 GRPO 和归因一致性奖励训练 ReTAS 模型。

关键设计¶

歧义失败基准（AFB）:
- 功能：精确量化 LLM 中 AOA 偏差的程度
- 核心思路：构建200个本质上模糊的失败场景，其中单一失败信号合理支持矛盾的根因（如超时既可能是基础设施延迟也可能是配置激进）。用配对反事实探针——对同一场景分别以行动者和观察者系统提示查询模型，强制二选一归因（内部/外部），统计归因翻转率。结果：大多数模型在 >20% 的场景中发生 AOA 翻转
- 设计动机：需要不含确定性根因的场景——如果有明确对错，则归因差异反映的是能力差异而非偏差
辩证推理（正题-反题-合题）:
- 功能：通过结构化推理消除视角依赖性
- 核心思路：正题（Thesis）——生成角色一致的解释，表达特定专业知识；反题（Antithesis）——模拟对立视角暴露当前归因的盲点和反证；合题（Synthesis）——调和冲突观点，基于客观证据而非角色先验得出视角不变的结论。这三阶段作为 CoT 的显式结构化框架
- 设计动机：朴素的"保持客观"指令因角色惯性而无效，需要一种强制性的结构来确保多视角被考虑
GRPO 辩证对齐训练:
- 功能：将辩证推理能力内化为模型参数
- 核心思路：用归因奖励训练——惩罚在行动者和观察者视角下给出不一致归因的推理轨迹，奖励收敛于真实根因的轨迹。基于 GRPO 框架，使模型学会生成视角不变的辩证推理链
- 设计动机：仅提示难以稳定执行辩证推理，通过 RL 对齐将这一能力内化

损失函数 / 训练策略¶

GRPO 优化框架，归因一致性作为奖励信号。在 AFB 基准和多种下游任务上评估。模型包括 GPT-5 系列、DeepSeek-V3.2、Qwen3-4B 等。

实验关键数据¶

主实验¶

模型	Human-Agent AOA翻转率	Agent-Agent AOA翻转率
GPT-5.1	6%	26%
GPT-5	23%	33%
DeepSeek-V3.2	15%	39%
Qwen3-4B	33%	-
QwQ-32B	21%	-

消融实验¶

配置	归因一致性	任务性能	说明
标准角色扮演	低	基线	存在 AOA 偏差
+ "保持客观"指令	微提升	无变化	角色惯性抵消
+ 辩证提示（无训练）	中等提升	提升	结构化但不稳定
ReTAS（辩证对齐）	显著提升	显著提升	内化辩证推理

关键发现¶

AOA 偏差在所有测试模型中普遍存在，Agent-Agent 场景（39% 翻转率 for DeepSeek）比 Human-Agent 更严重
ReTAS 有效降低归因不一致性，同时显著提升歧义场景下的故障解决率
辩证推理的三阶段结构比简单的"多角度思考"更有效
偏差程度与模型能力成正比——更强的模型通常更一致（GPT-5.1 最低翻转率6%）

亮点与洞察¶

将社会心理学的经典理论引入 AI Agent 分析：AOA 作为人类认知偏差被系统地验证存在于 LLM 中，这一发现对多 Agent 系统的可靠性设计有重要启示
辩证法作为去偏工具的应用很有创意：正题-反题-合题的结构天然适合调和冲突视角，比"保持客观"的指令更有操作性
AFB 基准的设计巧妙：故意构造无确定性根因的歧义场景，使得任何系统性偏差都可归因于认知偏差而非能力差异

局限与展望¶

AFB 基准规模较小（200场景），可能未覆盖所有偏差模式
辩证对齐训练的泛化性——是否能迁移到 AFB 未覆盖的领域
合题阶段仍可能被某一视角主导，未完全消除偏差
未探索 AOA 偏差在非失败场景（如成功归因）中的表现

评分¶

新颖性: ⭐⭐⭐⭐⭐ AOA 在 LLM 中的发现是原创性贡献，辩证对齐的解决方案有创意
实验充分度: ⭐⭐⭐⭐ 多模型+专门基准+消融分析，但基准规模可以更大
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，社会心理学理论与 AI 方法的结合自然代码: 待确认
领域: llm_reasoning
关键词: 待补充

一句话总结¶

待深读论文后补充

研究背景与动机¶

待深读论文后补充

方法详解¶

待深读论文后补充

实验关键数据¶

待深读论文后补充

亮点与洞察¶

待深读论文后补充

局限性 / 可改进方向¶

待深读论文后补充

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

实验关键数据¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶