Old Habits Die Hard: How Conversational History Geometrically Traps LLMs¶
会议: ICML 2026
arXiv: 2603.03308
代码: https://github.com/technion-cs-nlp/OldHabitsDieHard
领域: LLM安全 / 机制可解释性 / 对话行为分析
关键词: 对话历史, 行为持续性, 马尔可夫链, 几何陷阱, 拒绝 / 谄媚 / 幻觉
一句话总结¶
History-Echoes 框架用"马尔可夫链状态一致性"和"潜空间几何角度"两套视角分析 LLM 对话历史的 carryover 效应,发现两者 Spearman 相关 0.78——一旦某种行为(幻觉/谄媚/拒绝)出现,模型就被困在潜空间该状态对应区域里,难以跳出;其中"拒绝"陷阱最强,"幻觉"最弱,且话题不连贯时陷阱会消解。
研究背景与动机¶
领域现状:LLM 表现出多种状态依赖行为——不期望的(幻觉、谄媚)和期望的(拒绝);prior work 已记录这些现象,但它们在多轮对话里如何持续、如何被表示缺乏统一框架。已有的安全轨迹 / 生成难度研究都是孤立看单一现象,没人把"持续概率"和"内部几何"联系起来。
现有痛点:单从黑盒(输出层)或白盒(隐藏态)单独看都不够——黑盒看不出机理(为什么持续?),白盒缺少行为层验证(这个几何模式真对应外部行为吗?)。
核心矛盾:要解释为什么"前面拒绝过的模型后面更容易拒绝",需要同时证明"行为层确实持续"和"内部几何确实有结构上的对应",两者还要相关——否则要么是统计错觉要么是 cherry-picked 几何。
本文目标:(1)定量化测量行为 carryover;(2)从潜空间几何上揭示其机制;(3)证明两套视角强相关,给出对"behavioral persistence ≈ geometric trap"的双重证据。
切入角度:把每一轮对话状态二元化(行为出现 / 不出现),用一阶马尔可夫链建模;同时在潜空间用 Gram-Schmidt 构造 \(\mathcal{H}_{\phi^+}, \mathcal{H}_{\phi^-}\) 的正交基,测两组激活的角度分离;预测这两个角度(黑盒持续率 vs 白盒几何角)正相关。
核心 idea:行为持续不是孤立的输出层现象,而是潜空间"两个相态区域被大角度分开 + 转换需跨大旋转 + 旋转往往不完全"——模型被几何性地困在原状态。
方法详解¶
整体框架¶
History-Echoes 想回答一个问题:为什么前面一轮出现过某种行为(拒绝、谄媚、幻觉),后面几轮就更容易反复出现?它用两套互补的视角同时盯住这件事——黑盒上把每轮"行为是否出现"看成一条二状态序列,用马尔可夫链的转移结构量化它有多"黏";白盒上把每个状态对应的隐藏态摊到潜空间里,量化两个状态被分得有多开、状态切换时模型转得有多不彻底。最后把黑盒指标和白盒指标在多模型 × 多数据集上做相关,看两者是不是同一底层机制的两个侧面。
实验材料上,对每个数据集(TriviaQA、NaturalQA、SORRY-Bench、Do-Not-Answer、SycophancyEval)先用 Qwen3-Embedding 嵌入 QA 对、按最近邻排序拼成话题连贯的 \(D_{\text{consistent}}\),再随机打乱得到话题不连贯的 \(D_{\text{inconsistent}}\);每个数据集采 100 段对话、每段 20 轮,连贯/不连贯两组互为对照。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["对话数据构建(脚手架)<br/>QA 对 → Qwen3 嵌入排序 → 连贯/打乱<br/>→ 100 段对话 × 20 轮"]
A --> B["二状态马尔可夫链 + trace(黑盒)<br/>每轮判 φ+/φ− → 转移矩阵 T → Tr(T)=1+λ₂"]
A --> C["Gram-Schmidt 正交基 + θ_ref(白盒)<br/>隐藏态 → 二维正交基<br/>→ 角分离 θ_ref + 转换不完整度"]
B --> D["跨视角相关性<br/>18 个 (trace, θ_ref) 点 Spearman = 0.78"]
C --> D
D --> E["结论:行为持续 = 几何陷阱"]
关键设计¶
1. 二状态马尔可夫链 + trace:黑盒量化行为有多"黏"
要回答"拒绝过的模型是不是更容易再拒绝",得先把这个直觉量化成一个不依赖模型内部、连闭源模型也能算的标量。做法是把每轮分类成"现象 \(\phi\) 出现 / 不出现"两个状态(用字符串匹配判定,人工抽验错误率 6.5%),估出转移矩阵 \(T_{ij}=P(s_j|s_i)\),再取它的迹 \(\text{Tr}(\mathbf{T})=P(s_{\phi^+}|s_{\phi^+})+P(s_{\phi^-}|s_{\phi^-})\) 作为持续性度量。关键在于 \(\text{Tr}(\mathbf{T})=1+\lambda_2\),其中 \(\lambda_2\) 是次特征值:若状态间完全独立(没有 carryover),两个自循环概率加起来恰好为 1、\(\lambda_2=0\);\(\text{Tr}>1\) 就说明状态偏好自我循环,\(\lambda_2\) 越大、链的混合时间越长,行为被"锁"得越久。这个标量摘要直观、对闭源模型友好,往高阶马尔可夫扩展也很自然(论文附录验证主结论在高阶下不变)。
2. Gram-Schmidt 正交基 + \(\theta_{\text{ref}}\):白盒量化两个状态隔得多远、转得多不彻底
黑盒只能说"行为确实黏",但说不清机理——为什么黏?这就需要回到潜空间看几何结构。具体做法是:收集每轮回答首个 token 在相对深度 85% 那层的残差隐藏态,按 \(\phi^+/\phi^-\) 分成两类、各取均值向量 \(\mathbf{h}_{\phi^+}, \mathbf{h}_{\phi^-}\),再用 Gram-Schmidt 把这两个均值正交化成一组共享的二维标准正交基(\(\mathbf{B}_1\) 取 \(\mathbf{h}_{\phi^-}\) 归一化,\(\mathbf{B}_2\) 取 \(\mathbf{h}_{\phi^+}\) 去掉 \(\mathbf{B}_1\) 分量后归一化)——用一个二维子空间而非单条方向刻画"相态"会鲁棒得多。把隐藏态投到这组基上后算两个几何 signature:一是角分离 \(\theta_{\text{ref}}\),即 \(\phi^+\) 与 \(\phi^-\) 两类均值在该基里的夹角,刻画"两个相态在潜空间被分得多开",\(\theta_{\text{ref}}\) 越大、完成一次状态切换就要转过越大的角度;二是"转换不完整度",即真正发生跨状态切换时,用正交 Procrustes 求出的实际旋转角与 \(\theta_{\text{ref}}\) 之比——若 \(\theta_{\phi^-\to\phi^+}<\theta_{\text{ref}}\)(比值 <1),说明激活没转到目标相态就停下、还残留着原状态的"几何指纹"。\(\theta_{\text{ref}}\) 大加上旋转不完整,正好对应"模型几何性地卡在两个状态之间出不来"这一图景。
3. 跨视角相关性:把黑盒和白盒钉成同一个机制
光有"trace 高"和"\(\theta_{\text{ref}}\) 大"两组数还不够——前者可能是统计噪声,后者可能是几何巧合,得证明它俩说的是同一回事。做法是在 3 个模型 × 6 个数据集共 18 个组合上同时算出 \(\text{Tr}(\mathbf{T})\) 和 \(\theta_{\text{ref}}\),对这 18 个点做 Spearman 秩相关。一旦相关性显著为正,就构成双重证据:行为层的持续不是孤立的输出现象,而是潜空间里两个相态被大角度分开、转换又转不完整的几何陷阱在外部的投影。
实验关键数据¶
行为持续性(trace,跨三模型平均)¶
| 现象 | NaturalQA | TriviaQA | Sorry | DoNotAns | S-pos | S-neg | 均值 |
|---|---|---|---|---|---|---|---|
| Tr(T) | 1.13 | 1.12 | 1.57 | 1.59 | 1.33 | 1.14 | 1.31 |
所有现象 \(\text{Tr} > 1\);refusal 数据集 trace 最高(≈1.6),说明拒绝的 carryover 最强。
几何角分离 \(\theta_{\text{ref}}\)(度)¶
| 模型 | NaturalQA | TriviaQA | Sorry | DoNotAns | S-pos | S-neg |
|---|---|---|---|---|---|---|
| LLaMA-3.1-8B | 11.3 | 13.1 | 66.5 | 54.3 | 14.6 | 28.2 |
| Qwen-8B | 11.7 | 6.4 | 46.4 | 38.6 | 22.5 | 22.6 |
| GPT-OSS-20B | 9.6 | 13.9 | 42.7 | 34.0 | 27.8 | 23.6 |
Refusal 数据集 \(\theta_{\text{ref}}\) 30–66°远大于幻觉的 6–14°——几何上 refusal 状态被显著分开。
双视角相关性¶
跨 3 模型 × 6 数据集 = 18 个 (trace, \(\theta_{\text{ref}}\)) 点,Spearman 相关 = 0.78——强正相关,验证"trace 高 ↔ 几何角大"。
话题连贯性消解陷阱¶
| 数据集 | \(D_{\text{consistent}}\) trace | \(D_{\text{inconsistent}}\) trace | 差 |
|---|---|---|---|
| Sorry | 1.57 | 1.18 | −0.39 |
| Do-not-answer | 1.59 | 1.20 | −0.39 |
| S-neg | 1.14 | 1.05 | −0.09 |
打乱话题让 trace 显著降,几何角 \(\theta_{\text{ref}}\) 也跟着降——验证"几何陷阱"依赖话题连贯性,这也呼应了 adversarial jailbreak 通常注入无关 token 打破上下文的策略。
闭源模型验证¶
GPT-5 和 Claude-Opus-4.5 上单独跑黑盒(trace),模式与开源模型一致;说明 trace 是个通用诊断指标,可用于推断闭源模型的内在 carryover。
关键发现¶
- 不同现象 carryover 强度有序:refusal > sycophancy > hallucination,且这个序在 trace 和 \(\theta_{\text{ref}}\) 两套视角上完全一致
- refusal 最强源于"单方向":与 Arditi et al. 2024 发现的 refusal 由单一表示方向调控吻合——清晰定义的现象在几何上更分离,所以陷阱也最深
- hallucination 最弱:可能因为幻觉是宽泛的失败模式合集(事实错 / 凭空编 / 不一致),潜空间没有统一子空间
- 不连贯对话拆解陷阱:实操上意味着"切换话题"可能是个解锁碳被困模型的简单办法
亮点与洞察¶
- 黑盒 + 白盒双重视角强相关:把行为统计和潜空间几何首次系统连接起来,得到"behavioral persistence = geometric trap"的双重证据;这种"两端验证"的方法论可迁移到任何 LLM 行为研究
- 三现象的统一处理:把幻觉、谄媚、拒绝(一个失败两个保守)放在同一框架下,发现 carryover 强度顺序与"现象清晰度"对应;这暗示"清晰可识别 = 几何分离 = 难逃",是个新启示
- 闭源模型可诊断:trace 不需要内部访问,提供了对 GPT-5 / Claude 等闭源模型行为持续性的间接诊断手段——这在 LLM 治理上有实际价值
- 对 jailbreak 的几何解释:jailbreak 常通过注入无关 token 打破对话连贯,本文发现这正好降低 carryover;给出了 jailbreak 有效性的潜在几何机制
局限性 / 可改进方向¶
- 现象检测用字符串匹配(错误率 6.5%)——对幻觉的细分(事实错 vs 凭空编 vs 推理错)粒度不够,可能稀释信号
- 一阶马尔可夫假设可能简化太多,长程依赖未充分建模(论文附录扩到高阶但主结论仍基于一阶)
- 模型规模偏小(4–20B),更大模型的几何陷阱模式可能不同
- 几何角 \(\theta_{\text{ref}}\) 固定取相对深度 85% 那一层的隐藏态算(附录有层消融),不同层的几何陷阱强度可能不同
- 仅观察了"once-trapped-stay-trapped",没探索如何主动 de-trap(除了打乱话题这种被动方式)
相关工作与启发¶
- vs Arditi et al. 2024(refusal 单方向):本文把这一发现推广到"refusal 不仅有单方向,还有强 carryover",并提供几何机制
- vs carryover effects studies(Simhi 2024, Zhang 2024):那些只看输出层;本文加白盒视角并证明相关
- vs jailbreak via adversarial tokens(Zou 2023):本文给出"为什么 adversarial token 有效"的潜空间几何解释——它们打破话题连贯从而消解几何陷阱
- 启发:把"行为持续 + 几何陷阱"框架推广到其他状态依赖现象(如 in-context learning 的格式锁定、persona drift、code style 锁定);也可用于设计"主动 de-trap"机制(如周期性话题刷新作 prompt-side 安全 patch)
评分¶
- 新颖性: ⭐⭐⭐⭐ 双视角统一框架是新的,但马尔可夫链 + 几何分离单独都不新
- 实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 6 数据集 × 3 现象 + 一致 / 不一致 对照 + 闭源验证 + 高阶马尔可夫附录,覆盖到位
- 写作质量: ⭐⭐⭐⭐ 概念引入清晰,Figure 1 直观;几何部分推导可以更细
- 价值: ⭐⭐⭐⭐ 对 LLM 多轮安全、jailbreak 机理、对话部署都有实践启发;为机制可解释性 + 行为分析的结合提供了模板