Enhancing Conversational Agents with Theory of Mind: Aligning Beliefs, Desires, and Intentions for Human-Like Interaction¶
会议: ACL 2025 (Findings)
arXiv: 2502.14171
代码: 有(论文提及代码仓库)
领域: 其他
关键词: Theory of Mind, BDI 框架, 对话对齐, LLM 可解释性, LatentQA
一句话总结¶
本文探索了从开源 LLM(LLaMA)内部表征中提取心智理论(ToM)相关信息的可行性,并利用 BDI(信念-愿望-意图)框架操纵这些表征来生成更符合人类社交认知的对话回复,ToM 对齐后的模型在 3B 和 8B 上分别达到 67% 和 63% 的胜率。
研究背景与动机¶
随着 LLM 驱动的对话助手在各个领域的深入应用,它们在社交语境理解和非字面语言对齐方面的不足逐渐暴露。人类在交流中本能地依赖心智理论(Theory of Mind, ToM)——即推断对话者的信念、愿望和意图——来调整自己的表达。然而,当前 LLM 在这方面的能力还存在很大争议:
ToM 缺失问题:现有 LLM 在谈判、博弈等需要推理对方心智状态的场景中常常表现不佳,生成不符合语境的回复
对齐层面的挑战:传统对齐方法(RLHF、DPO 等)在语用层面的对齐效果有限,无法捕捉到对话的语用和社交细微差别
研究空白:虽然已有工作评估 LLM 的 ToM 能力或设计 mind module,但尚无研究尝试从 LLM 内部提取 ToM 表征并将其应用于对齐回复生成
本文的核心动机是:如果 LLM 在因果语言建模过程中确实保留了 ToM 相关线索,那么能否利用这些线索来改善对话回复的社交对齐性?
方法详解¶
整体框架¶
本文围绕三个研究问题,设计了三组互补实验: - RQ1(读取 ToM):LLM 内部表征中编码了多少 ToM 信息? - RQ2(ToM 一致性):提取的 ToM 信息是否可靠、非幻觉性的? - RQ3(ToM 可控生成):能否利用 ToM 表征来增强回复对齐?
关键设计¶
-
ToM 信息读取(RQ1):
- 线性探测(Linear Probing):从 LLM 残差流中提取最后一个 token 的隐藏状态 \(h(S)\),学习权重矩阵 \(W\) 和偏置 \(b\) 映射到 ToM 标签空间:\(\hat{y} = \text{softmax}(Wh(S) + b)\)
- LatentQA:将对话输入冻结的目标模型获取内部表征 \(R(S)\),然后由解码器模型接收 ToM 问题和 \(R(S)\) 生成答案——这种方法能利用整个激活序列而非单一嵌入
- 多层深度实验:分别在浅层、中间层和深层提取表征,研究层深度对 ToM 读取准确率的影响
-
ToM 一致性验证(RQ2):
- 使用 FanToM 和 NegotiationToM 等专门设计的一致性评估数据集
- 评估时要求模型对相同 ToM 场景的不同类型问题给出逻辑一致的答案——如果多选题答对但事实问答矛盾,则不算正确
- 比较 LatentQA、微调和 CoT 推理三种方法的一致性
-
ToM 可控生成(RQ3):
- 核心思路:将目标模型的内部表征从 \(R(S)\) 修改为 \(R'(S)\),针对性地操纵特定角色的信念、愿望或意图
- 梯度流通过比较生成答案与实际 ToM 答案来优化解码器,然后用该梯度 boost 目标表征中的特定 ToM 组件
- 修改后仅使用目标模型生成对齐回复 \(C''\),与未修改模型的回复 \(C'\) 对比
损失函数 / 训练策略¶
- 线性探测:标准交叉熵损失
- LatentQA 解码器训练:使用 ground-truth ToM 标注的监督学习
- ToM 可控生成:基于梯度的表征 boosting,无额外损失函数,而是通过反向传播路径增强目标表征
实验关键数据¶
主实验:ToM 读取准确率(表格)¶
| 模型 | 层深度 | CaSiNo(精确匹配,Both-A1-A2) | CRAIGSLISTBARGAIN(R²,Seller-Buyer) |
|---|---|---|---|
| LLaMA3-1B | 中间 | LP: 02-16-13 / LQA: 20-42-39 | LP: 0.26-0.26 / LQA: 0.89-0.92 |
| LLaMA3-3B | 中间 | LP: 05-23-21 / LQA: 29-60-44 | LP: 0.19-0.27 / LQA: 0.96-0.98 |
| LLaMA3-8B | 中间 | LP: 02-10-23 / LQA: 46-62-70 | LP: 0.36-0.40 / LQA: 0.93-0.91 |
LP = Linear Probing, LQA = LatentQA。LatentQA 在中间层表现最佳,远超线性探测。
ToM 一致性与可控性结果(表格)¶
| 模型 | 方法 | FanToM ALL* | NegotiationToM ALL |
|---|---|---|---|
| LLaMA3-3B | LatentQA | 11.9 | 6.2 |
| LLaMA3-3B | 微调 | 8.2 | 11.2 |
| LLaMA3-8B | LatentQA | 16.4 | 15.2 |
| LLaMA3-8B | 微调 | 12.8 | 17.7 |
| GPT-4o-mini | CoT | 0.5 | 4.8 |
ToM 一致性整体仍较低,但 LatentQA 比 CoT 推理有明显改善。
关键发现¶
- 中间层最优:LatentQA 在 6 组实验中有 5 组在中间层表现最佳,浅层语义不够丰富,深层可能受预训练自我中心偏差影响
- 模型越大效果越好:8B 模型在 ToM 读取上显著优于 1B 和 3B
- 可控生成有效:ToM 对齐后,3B 模型的加权平均胜率为 67.15%,8B 为 63.25%
- 3B 改善幅度更大:可能因为 8B 未对齐时基线已较强
- "共情表达"和"需求描述"效果最差:这些意图在预训练文本中已经很常见,模型天生就能表达
亮点与洞察¶
- 理论贡献突出:首次将 ToM 的 BDI 框架与 LLM 内部表征操控结合,建立了从"读取→验证→控制"的完整链路
- LatentQA 优势明显:相比线性探测只看单个激活向量,LatentQA 利用完整激活序列,能捕获更丰富的 ToM 信息
- 实用潜力:证明了即使 ToM 一致性不完美,通过增强正确的 ToM 信息仍能在实际中改善对齐效果
- 无需微调整个模型:通过操控内部表征即可实现对齐,计算效率远优于 RLHF/DPO
局限与展望¶
- 评估依赖 LLM 裁判:使用 GPT-4o、o1、Gemini 作为评判,缺乏人类评估
- 数据集单一:可控性实验仅在 NegotiationToM 一个数据集上进行
- 超参敏感:对齐生成过程高度依赖超参调优,影响稳定性和可复现性
- 模型家族有限:仅测试了 LLaMA3 家族,未验证不同架构的泛化性
- 实际部署差距:当前 ToM 问答对需人工设计,实际应用需要用 LLM 动态规划执行
- 伦理风险:ToM 能力可能被用于操纵用户心理状态,需要透明设计和知情同意
相关工作与启发¶
- LatentQA (Pan et al., 2024) 是本文方法的核心基础,将内部表征解读框架化为视觉问答问题
- NegotiationToM (Chan et al., 2024) 提供了带有 BDI 标注的谈判对话数据集
- 街头 ToM 对齐展望 (Street, 2024) 指出了将 ToM 用于 LLM 对齐的未来方向
- 本文启发:内部表征操控是一种有潜力的轻量级对齐手段,适合在对话系统中追求更细粒度的人格和社交行为控制
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | 4 | 首次将 ToM+BDI 与内部表征操控结合用于对话对齐 |
| 实验充分度 | 3.5 | 三组 RQ 实验设计完整,但数据集和模型家族偏少 |
| 写作质量 | 4 | 问题形式化清晰,实验结构条理分明 |
| 价值 | 4 | 为 LLM 对齐提供了新范式,兼具理论深度和实用潜力 |