PERSIST: Persistent Instability in LLM's Personality Measurements¶

会议: AAAI 2026
arXiv: 2508.04826
代码: https://github.com/tosatot/PERSIST
领域: NLP生成 / LLM评估
关键词: LLM人格测量, 行为一致性, 推理模式, 对齐评估, 心理测量

一句话总结¶

PERSIST 框架系统评估 29 个 LLM（1B-685B）在 200 万+响应上的人格测量稳定性，揭示了 CoT 推理增加变异性却降低困惑度的"推理悖论"，以及会话历史对大小模型产生相反影响的规模依赖效应，表明当前 LLM 缺乏行为一致性的架构基础。

研究背景与动机¶

领域现状¶

领域现状：随着 LLM 在医疗、教育、决策支持等高风险场景中的部署，行为可预测性成为可信 AI 的核心要求。欧盟 AI 法案和美国 NIST AI 风险管理框架均将"性能一致性"列为高风险 AI 应用的必要条件。现有研究通过心理学量表（如大五人格 BFI-44、暗黑三元组 SD3）测量 LLM 的行为特征，Safdari et al. (2023) 已证明 LLM 能产生与人类可比的人格测量可靠性。

现有痛点与挑战¶

现有痛点：(1) 已有研究依赖单次测量，完全忽略了不同部署条件下的响应变异性——实际上 Sclar et al. (2023) 发现语义等价 prompt 间的性能波动可达 76 个准确率点；(2) Prompt 敏感性问题广泛存在，Salinas and Morstatter (2024) 记录了 prompting 中的"蝴蝶效应"——单字符修改可级联导致完全不同的模型行为；(3) 缺乏全面系统地量化变异性来源和程度的评估框架。

核心矛盾：LLM 对齐和安全评估假设行为特征可以被可靠测量，但测量工具本身的不稳定性使这一假设根基动摇——无法可靠测量 LLM 行为特征则无法可靠评估对齐效果，这是当前 LLM 安全体系中一个尚未被充分认识的结构性问题。

研究目标与切入角度¶

本文目标：通过全因素实验设计，全面量化 LLM 人格测量不稳定性的来源（模型规模、推理模式、人设指令、问题措辞、会话历史）和程度，揭示不稳定性的结构性和持久性本质。

切入角度：构建 PERSIST 框架，覆盖 29 个模型 × 5 种人设 × 4 类问卷 × 250 种排列 × 100 种改写 × 推理/非推理模式 × 有/无会话历史，生成超过 200 万条独立测量数据。

核心 idea：LLM 的人格测量不稳定性是持久的、结构性的，不能仅靠模型规模增长来解决，且许多预期能提升稳定性的干预（推理、会话历史）反而加剧不稳定性。

方法详解¶

整体框架¶

PERSIST（PERsonality Stability In Synthetic Text）由三个集成模块组成：(1) 生成引擎：基于 vLLM 进行优化推理，支持多种模型架构的高效批量推理；(2) 响应处理模块：使用多模式解析器从 LLM 输出中提取结构化数据（支持索引响应 "1: 4"、JSON 结构、孤立数字评分等多种格式），同时提取 token 级 log 概率用于不确定性量化；(3) 分析管道：从单条响应到问题级和特质级统计量进行层次聚合，计算跨排列的均值和标准差。单条无效响应（评分超出 1-5 范围或解析失败）即废弃整次运行以确保数据质量。

关键设计¶

双版本问卷设计：
- 功能：区分不稳定性是人类中心化问卷的伪影还是模型内在问题
- 核心思路：使用传统心理学问卷 BFI-44（44 个条目测量大五人格）和 SD3（27 个条目测量暗黑三元组），以及 LLM 适配版本 BFI-LLM 和 SD3-LLM（将人类特定体验翻译为行为等价的 AI 表述，如 "Is depressed, blue" → "Focuses on negative aspects"，"I'll say anything to get what I want" → "Truth is secondary to reaching a goal"），所有问卷均使用 5 点 Likert 量表
- 设计动机：如果适配后仍表现出相同的不稳定性，则排除了问卷措辞因素，指向模型内在的结构性不稳定
全因素实验设计（5 因素系统变异）：
- 功能：系统量化各因素对测量稳定性的独立和交互影响
- 核心思路：(a) 问题顺序——250 个随机排列，测试人格测量应满足的顺序不变性假设；(b) 人设指令——5 种人设（Assistant 基线、Buddhist 正面人设、Teacher 正面人设、Antisocial 临床人设基于 DSM-5、Schizophrenia 临床人设）；(c) 推理模式——标准 vs CoT，比较推理过程对一致性的影响；(d) 改写——100 个语义等价改写由 Qwen3 235B-A22B 生成并经两位作者人工验证校正；(e) 会话历史——多轮对话 vs 单轮呈现
- 设计动机：全因素设计能分离出各因素的独立贡献，揭示变异性的多个来源及其交互效应
大规模模型覆盖与稳定性度量：
- 功能：确保结论的跨架构和跨规模普适性
- 核心思路：评估 29 个模型涵盖 8 个家族——Llama 3.1（8B/70B/405B Instruct）、Qwen 2.5（1.5B 至 72B 共 6 个 Instruct）、Qwen 3（1.7B 至 235B-A22B 含 MoE 共 7 个）、Gemma 2（2B/9B/27B）、Gemma 3（1B/4B/12B/27B）、DeepSeek V3/R1（均 671B）、GPT-OSS（20B/120B）、Claude Sonnet 4.5/Opus 4.1；度量使用问题级 SD（跨 250 排列）、token 级困惑度 \(\text{PPL}=\exp(-\log p)\)、Spearman 相关、Wilcoxon 符号秩检验和 Kruskal-Wallis 检验
- 设计动机：覆盖 1B 到 685B 的完整规模范围和多种训练范式，避免结论受限于特定架构

实验配置¶

所有实验使用温度 τ=0 以隔离操控变量的效应（推理模式实验使用 τ=0.6），最大 token 数 16384，随机种子 42，硬件为 4× NVIDIA H100 SXM 80GB HBM3。Claude 模型在推理实验中仅运行 70 次（其余模型均 250 次）。

实验关键数据¶

主实验：规模效应分析¶

指标	Spearman ρ 方向	p 值	效应解读
模型规模 → 正面特质均分	↑ 正相关	0.001**	越大越"友善"
模型规模 → 负面特质均分	↓ 负相关	<0.001***	越大越"温和"
模型规模 → 问题级 SD	↓ 负相关	<0.001***	越大越稳定
模型规模 → 问题级困惑度	无显著相关	0.934	规模不降低不确定性
困惑度 ↔ 问题级 SD	ρ=0.465	—	仅中等相关，PPL 非完整稳定性指标

推理悖论实验¶

模型/条件	变异性 SD 变化	困惑度 PPL 变化	统计检验
GPT-OSS 推理强度递增	显著升高	显著下降	Kruskal-Wallis p<0.001
Qwen3 推理 vs 非推理	显著升高	显著下降	Mann-Whitney U all p<0.001
Qwen3-MoE 推理 vs 非推理	显著升高	显著下降	Mann-Whitney U all p<0.001
DeepSeek 推理 vs 非推理	显著升高	不显著	p<0.01 (SD), n.s. (PPL)
Claude 推理 vs 非推理	显著升高	—	Mann-Whitney U p<0.01

核心发现：CoT 使模型在 token 级别更确信（PPL↓），却在行为级别更不一致（SD↑）。

消融实验：问卷类型与改写效应¶

对比条件	指标	p 值	结论
LLM 适配 vs 传统问卷	问题级 SD	0.286 (n.s.)	无显著差异
LLM 适配 vs 传统问卷	问题级 PPL	<0.001***	适配版 PPL 更高
改写 vs 重排（<50B）	ΔSD	0.244 (n.s.)	小模型无显著影响
改写 vs 重排（≥50B）	ΔSD	<0.01**	大模型变异显著增加

会话历史的规模依赖效应¶

模型组	数量	有历史后 SD 变化	p 值
<50B 小模型	n=19	显著增加变异	<0.001***
≥50B 大模型	n=4	显著降低变异	<0.001***

关键发现¶

即使 400B+ 模型在 5 分制量表上仍有 SD>0.3——规模不是解药
CoT 推理增加变异性同时降低困惑度（"推理悖论"）
错位人设（反社会/精神分裂）变异性和困惑度均显著高于 Assistant 基线（p<0.05）
正面人设（佛教僧侣）显著降低变异性和困惑度（p<0.05）
会话历史帮助大模型但伤害小模型——部署策略需区分规模

亮点与洞察¶

"推理悖论"是核心发现：CoT 让模型生成不同的推理链条导致不同结论，token 级确定性不等于行为一致性，挑战了"更多推理=更可靠"的直觉
会话历史的规模依赖效应：大模型能从上下文中提取一致性信号而小模型被额外信息淹没，对 prompt 工程实践有直接指导价值
不稳定性作为错位检测信号：欺骗性模型可能伪造正确的平均特质分数，但跨排列维持一致性要困难得多——变异模式可作为错位标志
方法论贡献：200 万+独立测量和 5 因素全交叉设计建立了 LLM 行为评估的新基准，PERSIST 框架可作为未来安全认证的标准工具

局限与展望¶

自我报告与行为的鸿沟：虽然已有证据表明 LLM 自我报告与行为输出相关，但自我报告可能低估实际行为不稳定性
缺乏正式心理测量验证：传统和适配问卷均缺乏针对 LLM 的因子负荷和 Cronbach's α 验证
战略欺骗可能性：若模型识别到评估上下文可能调整响应——随机排列和关注变异性（非均值）使欺骗更难
闭源模型覆盖有限：Claude 仅 70 次运行，GPT 系列未包含最新版本
仅覆盖自我报告评估：未测试博弈论场景、角色扮演等行为级评估方式

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全因素设计揭示多个反直觉发现
实验充分度: ⭐⭐⭐⭐⭐ 29 模型、200 万+响应、严格统计检验
写作质量: ⭐⭐⭐⭐⭐ 统计分析严谨，结论有力
价值: ⭐⭐⭐⭐⭐ 对 LLM 安全和对齐评估社区有重要警示意义

title: >- [论文解读] PERSIST: Persistent Instability in LLM's Personality Measurements description: >- [AAAI 2026][LLM/NLP][LLM人格测量] PERSIST 框架系统评估 25 个开源 LLM（1B-685B）在 200 万+响应上的人格测量稳定性，发现即使 400B+模型在 5 分制量表上仍有 SD>0.3 的不稳定性，且 CoT 推理悖论性地增加变异性同时降低困惑度，LLM 适配问卷与传统人类问卷表现出相似的不稳定性。 tags: - AAAI 2026 - LLM/NLP - LLM人格测量 - 行为一致性 - 推理模式 - 对齐评估 - 心理测量

PERSIST: Persistent Instability in LLM's Personality Measurements¶

会议: AAAI 2026
arXiv: 2508.04826
代码: https://github.com/tosatot/PERSIST
领域: NLP生成 / LLM评估
关键词: LLM人格测量, 行为一致性, 推理模式, 对齐评估, 心理测量

一句话总结¶

PERSIST 框架系统评估 25 个开源 LLM（1B-685B）在 200 万+响应上的人格测量稳定性，发现即使 400B+模型在 5 分制量表上仍有 SD>0.3 的不稳定性，且 CoT 推理悖论性地增加变异性同时降低困惑度，LLM 适配问卷与传统人类问卷表现出相似的不稳定性。

研究背景与动机¶

领域现状¶

领域现状：LLM 对齐和安全评估需要衡量模型的行为特征（大五人格、暗黑三元组等），通常使用心理学量表。

现有痛点：(1) 问题顺序、改写都可导致评分大幅变化；(2) 不清楚不稳定性是人类中心化问卷的伪影还是模型本身的问题；(3) 推理、会话历史等因素对稳定性的影响未被系统研究。

核心矛盾：无法可靠测量 LLM 行为特征→无法可靠评估对齐效果。

本文目标 全面量化 LLM 人格测量不稳定性的来源和程度。

切入角度：全因素设计——25模型×5人设×4问卷×250排列×100改写×推理/非推理×会话历史。

核心 idea：LLM 的人格测量不稳定性是持久的、结构性的，不能仅靠模型规模增长来解决。

方法详解¶

整体框架¶

PERSIST 三模块：生成引擎(vLLM)、响应处理(token 级 log 概率提取)、分析管道(层次聚合计算排列间 SD)。

关键设计¶

双版本问卷：BFI-44 + SD3（原版）+ BFI-LLM + SD3-LLM（替换人类特定概念），验证不稳定性是否为问卷设计的伪影
5种人设：Assistant(基线)、Buddhist、Teacher、Antisocial、Schizophrenia
稳定性指标：问题级 SD（跨250个排列）+ 困惑度 \(\exp(-\log p)\)
温度自适应推理：τ=0 确定性输出，τ=0.6 推理模式

损失函数 / 训练策略¶

纯评估研究，无训练。25 个模型通过 vLLM 和 HuggingFace Inference API 访问。

实验关键数据¶

主实验¶

发现	Spearman ρ	p值	效应
模型规模↑ → 正面特质↑	显著	0.001**	更"友善"
模型规模↑ → 负面特质↓	显著	<0.001***	更"温和"
模型规模↑ → 变异性↓	显著	<0.001***	更稳定
模型规模↑ → 困惑度	不显著	0.934%	无关联

推理悖论¶

条件	变异性	困惑度
无推理	低	高
有推理(CoT)	高 (p<0.001)	低 (p<0.01)

会话历史的双刃剑效应¶

模型大小	有历史的效果	p值
<50B (n=19)	增加变异性	<0.001***
≥50B (n=4)	降低变异性	<0.001***

关键发现¶

即使 400B+模型仍有 SD>0.3——规模不是解药
CoT 推理增加变异性但降低困惑度（更自信却更不一致——推理悖论）
LLM 适配问卷与原版表现出相同的不稳定性——非问卷设计的伪影
错位人设(反社会、精神分裂)比基线人设变异性更高、困惑度更高
困惑度与变异性仅中等相关(ρ=0.465)——不是完整的稳定性指标

亮点与洞察¶

"推理悖论"是核心发现：CoT 让模型更自信(困惑度↓)却更不一致(SD↑)——挑战"更多推理=更好"的直觉
会话历史的规模依赖效应：帮助大模型但伤害小模型，提示工程需考虑模型规模
对对齐评估的警示：测量工具本身不可靠时，对齐评估结论如何可信？

局限与展望¶

人格测量的 construct validity 存疑——LLM 是否真有"人格"？
仅使用心理学量表，未覆盖其他行为评估方式（如博弈论场景）
未探索微调或 RLHF 对稳定性的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全因素设计揭示多个反直觉发现
实验充分度: ⭐⭐⭐⭐⭐ 25模型、200万+响应、系统统计检验
写作质量: ⭐⭐⭐⭐⭐ 统计分析严谨，呈现清晰
价值: ⭐⭐⭐⭐⭐ 对LLM安全和对齐评估社区有重要警示意义

PERSIST: Persistent Instability in LLM's Personality Measurements¶

一句话总结¶

研究背景与动机¶

领域现状¶

现有痛点与挑战¶

研究目标与切入角度¶

方法详解¶

整体框架¶

关键设计¶

实验配置¶

实验关键数据¶

主实验：规模效应分析¶

推理悖论实验¶

消融实验：问卷类型与改写效应¶

会话历史的规模依赖效应¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

PERSIST: Persistent Instability in LLM's Personality Measurements¶

一句话总结¶

研究背景与动机¶

领域现状¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

推理悖论¶

会话历史的双刃剑效应¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

PERSIST: Persistent Instability in LLM's Personality Measurements¶

一句话总结¶

研究背景与动机¶

领域现状¶

现有痛点与挑战¶

研究目标与切入角度¶

方法详解¶

整体框架¶

关键设计¶

实验配置¶

实验关键数据¶

主实验：规模效应分析¶

推理悖论实验¶

消融实验：问卷类型与改写效应¶

会话历史的规模依赖效应¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶

PERSIST: Persistent Instability in LLM's Personality Measurements¶

一句话总结¶

研究背景与动机¶

领域现状¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

推理悖论¶

会话历史的双刃剑效应¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶