Enhancing Conversational Agents with Theory of Mind: Aligning Beliefs, Desires, and Intentions for Human-Like Interaction¶

会议: ACL 2025 (Findings)
arXiv: 2502.14171
代码: 有（论文提及代码仓库）
领域: 其他
关键词: Theory of Mind, BDI 框架, 对话对齐, LLM 可解释性, LatentQA

一句话总结¶

本文探索了从开源 LLM（LLaMA）内部表征中提取心智理论（ToM）相关信息的可行性，并利用 BDI（信念-愿望-意图）框架操纵这些表征来生成更符合人类社交认知的对话回复，ToM 对齐后的模型在 3B 和 8B 上分别达到 67% 和 63% 的胜率。

随着 LLM 驱动的对话助手在各个领域的深入应用，它们在社交语境理解和非字面语言对齐方面的不足逐渐暴露。人类在交流中本能地依赖心智理论（Theory of Mind, ToM）——即推断对话者的信念、愿望和意图——来调整自己的表达。然而，当前 LLM 在这方面的能力还存在很大争议：

ToM 缺失问题：现有 LLM 在谈判、博弈等需要推理对方心智状态的场景中常常表现不佳，生成不符合语境的回复

对齐层面的挑战：传统对齐方法（RLHF、DPO 等）在语用层面的对齐效果有限，无法捕捉到对话的语用和社交细微差别

研究空白：虽然已有工作评估 LLM 的 ToM 能力或设计 mind module，但尚无研究尝试从 LLM 内部提取 ToM 表征并将其应用于对齐回复生成

本文的核心动机是：如果 LLM 在因果语言建模过程中确实保留了 ToM 相关线索，那么能否利用这些线索来改善对话回复的社交对齐性？

本文围绕三个研究问题，设计了三组互补实验： - RQ1（读取 ToM）：LLM 内部表征中编码了多少 ToM 信息？ - RQ2（ToM 一致性）：提取的 ToM 信息是否可靠、非幻觉性的？ - RQ3（ToM 可控生成）：能否利用 ToM 表征来增强回复对齐？

ToM 信息读取（RQ1）：
- 线性探测（Linear Probing）：从 LLM 残差流中提取最后一个 token 的隐藏状态 \(h(S)\)，学习权重矩阵 \(W\) 和偏置 \(b\) 映射到 ToM 标签空间：\(\hat{y} = \text{softmax}(Wh(S) + b)\)
- LatentQA：将对话输入冻结的目标模型获取内部表征 \(R(S)\)，然后由解码器模型接收 ToM 问题和 \(R(S)\) 生成答案——这种方法能利用整个激活序列而非单一嵌入
- 多层深度实验：分别在浅层、中间层和深层提取表征，研究层深度对 ToM 读取准确率的影响
ToM 一致性验证（RQ2）：
- 使用 FanToM 和 NegotiationToM 等专门设计的一致性评估数据集
- 评估时要求模型对相同 ToM 场景的不同类型问题给出逻辑一致的答案——如果多选题答对但事实问答矛盾，则不算正确
- 比较 LatentQA、微调和 CoT 推理三种方法的一致性
ToM 可控生成（RQ3）：
- 核心思路：将目标模型的内部表征从 \(R(S)\) 修改为 \(R'(S)\)，针对性地操纵特定角色的信念、愿望或意图
- 梯度流通过比较生成答案与实际 ToM 答案来优化解码器，然后用该梯度 boost 目标表征中的特定 ToM 组件
- 修改后仅使用目标模型生成对齐回复 \(C''\)，与未修改模型的回复 \(C'\) 对比

模型	层深度	CaSiNo（精确匹配，Both-A1-A2）	CRAIGSLISTBARGAIN（R²，Seller-Buyer）
LLaMA3-1B	中间	LP: 02-16-13 / LQA: 20-42-39	LP: 0.26-0.26 / LQA: 0.89-0.92
LLaMA3-3B	中间	LP: 05-23-21 / LQA: 29-60-44	LP: 0.19-0.27 / LQA: 0.96-0.98
LLaMA3-8B	中间	LP: 02-10-23 / LQA: 46-62-70	LP: 0.36-0.40 / LQA: 0.93-0.91

LP = Linear Probing, LQA = LatentQA。LatentQA 在中间层表现最佳，远超线性探测。

模型	方法	FanToM ALL*	NegotiationToM ALL
LLaMA3-3B	LatentQA	11.9	6.2
LLaMA3-3B	微调	8.2	11.2
LLaMA3-8B	LatentQA	16.4	15.2
LLaMA3-8B	微调	12.8	17.7
GPT-4o-mini	CoT	0.5	4.8

ToM 一致性整体仍较低，但 LatentQA 比 CoT 推理有明显改善。