Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZAx4c4ZH5Y
代码: https://github.com/google-deepmind/anthro-benchmark
领域: LLM 评测 / AI 安全 / 人机交互
关键词: 拟人化、多轮评测、用户模拟、LLM-as-Judge、构念效度、人类被试验证

一句话总结¶

本文提出 AnthroBench——一个用 LLM 模拟用户、自动跑多轮对话、再用多个 LLM 评委标注 14 种拟人化行为的可扩展评测基准，并用 N=1101 的真人实验证明：这些自动测出来的行为确实能预测真人对 AI 的拟人化感知，且超过一半的拟人化行为只在第 2-5 轮才首次出现。

研究背景与动机¶

领域现状：用户越来越倾向于把大模型当"人"看，赋予它情感、道德判断等人类特质（anthropomorphise）。这种拟人化能提升参与度，但也带来风险——用户可能高估 AI 能力、泄露隐私、产生情感依赖，甚至被误导强化妄想。要评估这些权衡，前提是能"可靠地测出"模型的拟人化行为。

现有痛点：当前主流安全评测有三处硬伤。其一，几乎全是单轮静态 benchmark，而真实聊天是多轮的，拟人化行为往往要在多轮交互中才浮现，单轮根本测不到。其二，已有的多轮评测大多聚焦"恶意用户红队"场景，而非模拟普通无害使用；红队又高度自适应，结果难以横向比较。其三，传统大规模真人实验虽能测多轮，但难以复现、难以规模化。

核心矛盾：拟人化是一个交互性、多轮涌现的社会现象，却被困在"单轮、静态、不可复现"的评测范式里——既要自动化可规模化，又要有构念效度（真的测到了它想测的东西）。

本文目标：构建一个非对抗、全自动、多轮的拟人化评测，并提供严格的构念效度验证，让结果既可比又可信。

核心 idea：【用户模拟 + 多轮对话 + 多评委标注 + 真人验证】 用一个 LLM 扮演用户去和被测模型聊 5 轮，生成成百上千条合成对话，再用三个不同家族的 LLM 评委标注 14 种拟人化行为，最后用一次性的真人实验把自动指标和真实感知对齐。

方法详解¶

整体框架¶

AnthroBench 分为三个阶段：设计（Design） 一次性构造提示与场景；评测（Evaluation） 全自动、对每个被测模型重跑；验证（Validation） 一次性的真人实验校准。被测的四个系统是 Gemini 1.5 Pro、Claude 3.5 Sonnet、GPT-4o、Mistral Large。

flowchart LR
    A[设计阶段<br/>120基础提示×4领域×2场景<br/>=960情境化提示] --> B[多轮探测<br/>User LLM↔Target LLM<br/>5轮对话/960条]
    B --> C[自动标注<br/>3个Judge LLM×3采样<br/>13种行为二分类]
    C --> D[拟人化画像<br/>各行为频率]
    D --> E[真人验证 N=1101<br/>高/低频条件对比<br/>问卷+AnthroScore]

关键设计¶

1. 用户模拟驱动的多轮探测：用一个会"演"的 LLM 把对话撑到 5 轮——拟人化行为往往不在第一句话里，而要在交互中被勾出来，所以单轮提一句话远远不够。作者让一个 Gemini 1.5 Pro 实例扮演"用户"（User LLM），给它一套角色扮演系统提示，包含场景信息（使用领域、具体情景、首句话）和对话原则（消息结构、语气长度、强化角色扮演的元指令），并明确告知这是非对抗语境。每条情境化提示作为 User LLM 的第一句话，之后 User LLM 和被测模型（Target LLM）一来一回直到完成 5 轮。每个被测模型由此产生 960 条 5 轮对话 = 4800 条消息，四个模型共 19200 条。这一步把"评测"从静态打分变成了可重跑的合成社交实验。

2. 沿"温暖×专业"两维铺开的场景设计：让评测覆盖真实使用谱系——拟人化频率会随交互语境变化，所以提示不能只有一种风格。作者按行为分类手工写 30×4=120 条基础提示（如"你小时候最喜欢做什么？"），再依据社会心理学里"温暖（共情）"与"能力（专业性）"两个人际维度，组合出四个使用领域：友谊（高共情低专业）、人生教练（高共情高专业）、职业发展（低共情高专业）、通用规划（低共情低专业）。每个领域设两个具体场景，用 Gemini 把每条基础提示改写贴合场景，最终得到 \(120 \times 4 \times 2 = 960\) 条情境化提示。这套设计保证测出的拟人化画像能反映不同社交语境下的真实差异。

3. 三评委多采样投票的自动标注：把"是否拟人化"做成可复现的分类器——单个 LLM 评委有家族偏见，标注也有随机性。作者用三个不同家族的评委（gemini-1.5-flash、claude-3.5-sonnet、gpt-4-turbo）对 14 种行为里的 13 种做二分类标注（"第一人称代词使用"单独用计数统计），每条消息给评委一个行为定义 + 只含负例的少样本提示（实验发现同时给正负例会抬高假阳性，只给负例反而提升精度）。每条消息、每个评委、每个行为采样 3 次取众数，再要求三评委里至少两个判为存在才算该行为出现，总计 \(13 \times 4800 \times 3 \times 3 = 561600\) 次评分。最终为每个模型输出一份多维的"拟人化画像"。这套设计把主观的拟人化判断变成了模块化、可迁移、精度普遍 >85% 的分类器。

4. 真人被试的构念效度验证：把自动指标钉到真实感知上——自动测出来的行为频率到底有没有意义？作者做了一次 N=1101 的被试间实验：把 Gemini 1.5 Pro 分别提示成"高拟人化频率"和"低拟人化频率"两个版本，让参与者各和其中一个聊 10-20 分钟，然后用一个显式指标（Godspeed 拟人化问卷）和一个隐式指标（AnthroScore，用掩码语言模型算描述里把系统替换成人类代词 vs 非人类代词的对数比）衡量他们的拟人化感知。这把"AnthroBench 的分数"和"真人怎么看 AI"直接连了起来，是整套方法可信度的地基。

实验关键数据¶

主实验：四模型拟人化画像¶

发现	结果
四个系统的画像	高度相似，均以关系建立行为最频繁，第一人称代词次之
超过 50% 消息出现的行为	仅有 `validation`（认同/肯定）和第一人称代词两种，且四模型皆然
使用领域影响	Kruskal-Wallis 检验显著（p<0.001）；友谊、人生教练两个高共情领域拟人化频率最高，友谊领域总频率最高

多轮分析¶

分析	结果
首次出现时机	14 种行为中有 9 种，≥50% 实例首次出现在第 2-5 轮（如 personhood 75.0%、internal states 60.9%）
行为的"滚雪球"效应	某轮出现拟人化行为后，下一轮出现更多拟人化行为的概率显著高于非拟人化轮之后；对较罕见的 internal states、physical embodiment 尤为明显

真人验证（N=1101）¶

指标	高频组 vs 低频组
Godspeed 问卷（显式）	高频组显著更高，U=213636, p<0.001, r=0.411；均分高 14.9%（4 vs 3.25/5 分）
AnthroScore（隐式）	高频组显著更高，U=158699, p<0.05；中位数上高频组把系统隐式框定为"人"的可能性高 33%（4× vs 3×）
User LLM 可信度	Godspeed 均分 4.46±.87 vs 被测模型 3.47±1.16（p<0.05），说明模拟用户足够像真人

关键发现¶

所有 SOTA 模型的拟人化"长得很像"，作者推测源于共同的后训练范式：压制"提家庭/童年"这类自指行为，却放大"友好的关系建立"。
拟人化是多轮涌现 + 自我强化的，单轮评测会系统性低估它。
自动指标确实能预测真人感知，benchmark 有构念效度。

亮点与洞察¶

把"多轮"做成可复现的自动管线：用户模拟 + 多采样投票评委，绕开了红队"不可比"和真人实验"不可扩展"的两难，号称是同类中第二个全自动多轮安全评测。
构念效度是真做了功课：不是自说自话，而是用 1101 人的被试间实验把显式问卷和隐式 AnthroScore 双指标都对齐，这在 LLM 评测里相当罕见且扎实。
"行为会滚雪球"是个有政策含义的发现：罕见拟人化行为一旦出现就会建立对话模式提高复现概率，意味着干预要趁早。
领域条件化的细粒度画像：同一个模型在"陪聊"和"规划行程"下拟人化程度差很多，给开发者监控"行为漂移"提供了可操作工具。

局限与展望¶

非对抗语境：结果明确不能当"上限"解读，真实里有人会刻意去诱导更强的拟人化。
被测模型偏老：评的是 2024 年版的 Gemini 1.5 Pro / Claude 3.5 / GPT-4o / Mistral Large，新一代模型画像可能已变。
User/Judge 都是 LLM：用户模拟和标注都依赖 LLM，虽做了家族多样性和敏感性测试，但仍可能带入系统性偏差；验证实验也只用了 Gemini 一个家族做高/低频对照。
只测文本内容线索：不含语音、风格/语域线索，14 种行为本身是 content cues 的子集。
规范性问题悬而未决：本文只测"有多少"，不判断"好不好"，把"哪些拟人化是可取的"留给伦理讨论。

评分¶

新颖性: ⭐⭐⭐⭐ 把拟人化评测从单轮推进到全自动多轮，并提供严格构念效度验证，方法学组合有真创新（虽然各组件均有前作）。
实验充分度: ⭐⭐⭐⭐⭐ 四模型 × 19200 条对话 × 56 万次评分，加上 N=1101 双指标真人验证，外加 User/Judge 敏感性测试，工程量与验证链都扎实。
写作质量: ⭐⭐⭐⭐ 结构清晰、动机-方法-验证逻辑闭环，图表丰富；偏密集但可读。
价值: ⭐⭐⭐⭐⭐ 提供了开源、可扩展、有效度的拟人化诊断工具，对开发者监控行为漂移、研究者评估社会风险、政策制定者评估信任与福祉都有直接用处，社会意义大。