HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns¶

会议: ACL 2026
arXiv: 2601.10198
代码: GitHub
领域: 角色扮演 / 人格模拟
关键词: 拟人化, 认知模式, 多模式动态, 角色扮演Agent, 心理学建模

一句话总结¶

本文提出 HumanLLM 框架，将 244 个心理学模式（100 个人格特质 + 144 个社会认知模式）建模为相互作用的因果力而非孤立标签，构建了 11,359 个包含 2-5 个模式交互的场景和多轮对话数据集，通过双层 checklist 评估实现与人类判断的高对齐（\(r=0.90\)），HumanLLM-8B 在多模式动态上以 4 倍小的参数量超越 Qwen3-32B。

研究背景与动机¶

领域现状：角色扮演语言 Agent（RPLA）已从概念框架发展为数字克隆、AI 伴侣和社会模拟等实际应用。现有人格注入方法包括：(1) 提示法——通过指令赋予人格标签；(2) 微调法——在角色特定数据上训练；(3) 激活转向——通过 persona vector 操纵内部表示。

现有痛点：(1) 现有方法将人格建模为孤立的标签→行为映射（"外向"→"健谈"），忽略了多个认知模式之间的动态交互——现实中一个健谈的人在"聚光灯效应"激活时可能沉默；(2) 这导致"人格幻觉"——模型在自我报告中声称具有某种特质但行为表现不一致；(3) 现有评估使用整体性指标（如 CoSER 的 Anthropomorphism），但这些指标隐式地将"好的拟人化"等同于"亲社会行为"，惩罚了真实但负面的人类特质（如防御性归因）。

核心矛盾：人类行为是多个认知模式动态交互的产物——自信的人可能在从众压力下让步，健谈的人在被关注时变得沉默。但现有方法只能模拟单一特质，无法捕捉这种"模式间的张力和调制"。

本文目标：(1) 构建大规模心理学模式数据集（每个模式基于约 50 篇学术论文）；(2) 设计多模式交互场景让模型学习模式间的动态关系；(3) 提出能区分"模拟准确性"和"社会期望性"的评估框架。

切入角度：基于 Lewin 场论——人的认知由两个维度组成：稳定的人格特质（Person）和情境触发的社会认知模式（Environment）。将模式视为相互作用的因果力而非孤立标签——通过让模型在多模式场景中训练，隐式学习模式间的增强、冲突和条件性调制。

核心 idea：将心理学模式建模为交互因果力，通过在多模式交互场景中训练 LLM，让模型学习"不只是人类做什么，更是产生这些行为的心理过程"——从行为模仿升级为认知建模。

方法详解¶

整体框架¶

HumanLLM 包含三个核心组件：(1) 模式数据构建——从约 12,000 篇学术论文中提取 244 个心理学模式的结构化表示（定义+机制+表现）；(2) 场景和对话生成——构建 11,359 个包含 2-5 个模式交互的场景，每个场景包含 2-6 个角色的多轮对话（含内心想法、行为、语言）；(3) 双层 checklist 评估——模式级（12-15 个通用行为指标）+ 场景级（2-6 个特定行为预期）。

关键设计¶

基于文献的心理学模式构建:
- 功能：为每个模式提供科学严格的结构化表示
- 核心思路：人格特质采用 Goldberg 的 100 个单极标记（Big Five 每个维度 20 个描述符）。社会认知模式从认知偏差（Tversky & Kahneman）、社会影响（Cialdini）、进化心理学和动机研究中策展，从 232 个候选中筛选出 144 个（要求充分实证验证+非冗余）。每个模式通过 Gemini Deep Search 检索约 50 篇学术论文，再由 Gemini 2.5 Pro 综合为三层结构：定义、核心机制、真实世界表现。人工验证显示平均评分 3.20-3.70（4 分制），Krippendorff \(\alpha\) = 0.58-0.76
- 设计动机：区别于现有工作从模型参数知识生成角色描述，本文每个模式都有约 50 篇学术论文支撑——确保心理学严谨性和科学效度
多模式交互场景生成:
- 功能：让模型学习模式间的动态关系（增强/冲突/条件调制）
- 核心思路：每个场景包含 2-5 个模式组合，涵盖三种交互类型：增强（如"自利偏差"强化"过度自信效应"）、冲突（如"自信"vs"从众"）、条件调制（如"健谈"被"聚光灯效应"抑制）。角色设计包含自我感知和他者感知以支持信息不对称。使用 DIAMONDS 模型确保情境多样性。每个场景还生成预期行为倾向作为评估标准。对话（12-20 轮）由 Claude Sonnet 4.5 生成，每轮包含三维表达：内心想法（方括号）、身体行为（圆括号）和语言表达
- 设计动机：关键创新在于模式组合的多样性——不是简单地叠加特质，而是构建需要模式间"谈判"的场景。三维表达设计让模型学习表面行为和内在认知过程的分离
双层 Checklist 评估:
- 功能：将模拟准确性与社会期望性解耦
- 核心思路：模式级 checklist 包含每个模式 12-15 个通用行为指标（如聚光灯效应："过度估计他人对自己外表的关注"），从模式定义推导，跨场景通用。场景级 checklist 包含每个角色 2-6 个情境特定行为预期（如"在截止日期压力下仍坚持概念完整性"），从预期行为倾向推导。使用 GPT-5-mini 作为三元评分评判（+1满足/0未展示/-1违反）。评估指标：IPE（Individual Pattern Expression）衡量单个模式保真度，MPD（Multi-Pattern Dynamics）衡量多模式交互的涌现行为
- 设计动机：传统整体性指标（如 CoSER 的 Anthropomorphism）与人类判断相关性弱（\(r=0.43\)）且存在"规范性混淆"——LLM 评判将"防御性归因"评为低拟人化因为"缺乏共情"。Checklist 通过价值中性的行为指标实现 \(r=0.90\) 的人类对齐

损失函数 / 训练策略¶

监督微调（SFT）：将每个角色的对话转为 ShareGPT 格式，产生 30,543 个 HumanLLM 样本。混合训练数据：HumanLLM + OpenThoughts-114k（指令遵循）+ CoSER（角色扮演），比例 4:4:2，共 76,358 样本。基座模型 Qwen3-8B/32B。

实验关键数据¶

主实验¶

IPE 和 MPD 评估（%, 3 次评判均值±标准差）

模型	IPE	MPD
GPT-5	15.5±0.4	43.4±1.1
Claude Sonnet 4.5	34.8±0.3	79.5±0.4
Gemini 3 Pro	41.3±0.3	85.1±0.4
Qwen3-8B	18.6±0.7	54.4±2.1
Qwen3-32B	26.0±0.4	65.8±0.7
DeepSeek-R1	23.3±0.6	69.0±0.5
HumanLLM-8B	25.7±0.4	70.3±0.6
HumanLLM-32B	32.8±0.3	73.6±0.4

消融实验¶

数据消融（8B 变体）

配置	IPE	MPD
Qwen3-8B (base)	18.6	54.4
Qwen3-8B (OT+CoSER, 无 HumanLLM 数据)	9.1	31.3
HumanLLM-8B (完整)	25.7	70.3

评估框架对齐验证（100 个场景）

指标类型	人类	LLM	Δ	相关系数 r
Anthropomorphism (整体)	84.6	53.8	-30.8	0.43
Character Fidelity (整体)	83.1	65.4	-17.7	0.61
IPE (checklist)	38.4	37.8	-0.6	0.90
MPD (checklist)	72.1	75.8	+3.7	0.88

关键发现¶

HumanLLM-8B 在 MPD 上（70.3%）超越 Qwen3-32B（65.8%），4 倍参数量差异证明心理学训练数据比模型规模更重要
GPT-5 表现意外低（IPE: 15.5%），分析显示其强指令遵循倾向导致过度字面化的角色扮演——通用能力不自动迁移到心理学模拟
负迁移发现：仅用 OpenThoughts+CoSER 训练反而使性能大幅下降（IPE: 18.6→9.1），通用数据抑制了模型的心理模式表达能力。HumanLLM 数据不仅补偿了这种负迁移还产生了协同效应
传统整体性指标存在"规范性混淆"——LLM 评判将社会期望性等同于模拟准确性，checklist 方法有效解耦了两者

亮点与洞察¶

将心理学模式建模为"交互因果力"而非"孤立标签"是概念上的重要突破——这一视角可推广到任何需要多维人格模拟的应用（游戏 NPC、社会模拟、心理咨询训练）
规范性混淆的发现具有方法论价值——揭示了 LLM-as-Judge 在评估人类行为模拟时的系统性偏差，checklist 方法提供了一个可复用的解决方案
负迁移发现对 SFT 数据配比有直接启示——通用数据可能"淹没"领域特定能力，需要锚定性数据（如 HumanLLM）来保持

局限与展望¶

对话平均 16.4 轮，长程角色一致性（50+ 轮）未评估
心理学理论主要来自 WEIRD 人群，跨文化适用性存疑——如从众压力在集体主义文化中表现可能不同
训练数据全部由 LLM 合成，合成数据与真实人类交互之间仍有差距
高保真的负面特质模拟（如操纵、偏见）带来安全和伦理风险——部署需要额外的安全层

评分¶

新颖性: ⭐⭐⭐⭐⭐ "认知模式为交互因果力"的框架化 + 12000 篇论文支撑的模式库 + 规范性混淆的发现
实验充分度: ⭐⭐⭐⭐⭐ 多基线对比 + 消融 + 外部 benchmark + 人类对齐验证 + 规范性混淆案例
写作质量: ⭐⭐⭐⭐ 框架清晰，心理学理论与工程实现的衔接自然，但论文较长
价值: ⭐⭐⭐⭐⭐ 为 LLM 人格模拟提供了从标签映射到认知建模的范式转变，数据集和评估框架可独立复用