The Cylindrical Representation Hypothesis for Language Model Steering¶

会议: ICML 2026
arXiv: 2605.01844
代码: https://github.com/mbzuai-nlp/CRH
领域: LLM/NLP / 表示几何 / 可解释性
关键词: Activation Steering、Linear Representation Hypothesis、表征几何、可控性、概念向量

一句话总结¶

本文提出 Cylindrical Representation Hypothesis（CRH），在保留"概念线性"的前提下放弃 LRH 的正交性，证明概念向量的叠加会自然诱导出"轴 + 法平面 + 敏感扇区"的圆柱几何，从而首次几何化地解释了 activation steering 为什么在样本层面不可预测但在群体层面可观测。

研究背景与动机¶

领域现状：LLM 的"激活转向"（activation steering）已经成为可解释性与对齐研究的主流工具：在某层残差流加一个概念方向向量 \(\mathbf{v}\)，就能在推理时按概念促进或抑制输出。现有理论几乎都基于 Linear Representation Hypothesis（LRH，Park et al. 2024）—— 概念对应线性方向，且通过"因果内积"可正交化、独立操控。

现有痛点：实际 steering 极不稳定，同一个方向在不同样本上效果差异巨大。基于 LRH 的"可控性预测"（如表征分离度）和实测 steering 成功率相关性很弱，工程上几乎不可信。

核心矛盾：LRH 假设的"无损正交化"在有限维 + 概念数量 > 维度时根本不可能成立 —— 任何二维空间最多放 2 个正交方向，但 LLM 内部要表达成千上万的概念。所以概念之间一定会有重叠，正交化的理论假设从根上就站不住。

本文目标：(i) 把 LRH 放松成"线性叠加但允许非正交"，看看几何结构会变成什么；(ii) 用这个新结构解释 steering 为何在样本层面随机、却在群体层面可估；(iii) 给出可实证检验的预测。

切入角度：作者保留"概念向量是线性的"这一软核心，但允许它们之间任意夹角；然后从最朴素的"差向量 = 多概念线性组合"出发，推导出局部几何不可避免地呈现"中心轴 + 法平面 + 相位"三件套。

核心 idea：把样本-概念的局部几何建模成圆柱：差向量定义中心轴，所有概念在法平面上的投影互相抵消，steering 向量在法平面里的相位（phase）才是决定 steering 成败的关键 —— 而相位无法从轴和 \(\mathbf{v}\) 推出，因此 steering 内禀地具有不可预测性。

方法详解¶

整体框架¶

CRH 的整体逻辑：(1) 从核心假设"差向量 \(\mathbf{v}_d=\mathbf{r}_a-\mathbf{r}_b=\sum_i\alpha^{(i)}\mathbf{a}^{(i)}\)"出发；(2) 把每个概念分解为轴向 + 法向两部分；(3) 由线性叠加约束推出"所有概念的法向分量之和为零"这一关键平衡；(4) 在法平面上定义敏感扇区，把 steering 效果归结为"\(\mathbf{v}\) 在法平面上的相位是否落入敏感扇区"；(5) 给出 3 个可观测的实验推论并在 Gemma-2B / LLaMA2-7B 上系统验证。

关键设计¶

轴-法分解 + 法向平衡定理:
- 功能：把任意差向量 \(\mathbf{v}_d\) 自然诱导出一个中心轴 \(\mathbf{a}_d=\mathbf{v}_d/\|\mathbf{v}_d\|\) 和一组互相抵消的法向分量，把"概念叠加"几何化成圆柱结构。
- 核心思路：对每个概念方向 \(\mathbf{a}^{(i)}\) 做标准投影 \(\mathbf{v}^{(i)}=d^{(i)}\mathbf{a}_d+\mathbf{v}_{\perp}^{(i)}\)，代入 \(\mathbf{v}_d=\sum_i\mathbf{v}^{(i)}\)，可推出 \((\sum_i d^{(i)})=\|\mathbf{v}_d\|\) 且 \(\sum_i\mathbf{v}_{\perp}^{(i)}=\mathbf{0}\)。也就是说，差向量同时定义了一个一维的"主轴"和一个所有非轴贡献相互抵消的"法向平衡态"。再用 PCA 取出二维法平面 \(\mathcal{P}_d=\text{span}(\mathbf{a}_{\perp}^{(c)},\text{PC}_1(\{\mathbf{a}_{\perp}^{(i)}\}_{i\neq c}))\)，平衡关系在法平面上仍然成立。
- 设计动机：这个分解是把"LRH 假设的全局单方向"替换为"样本特定的轴 + 局部法平面"的核心步骤；它告诉你 steering 不是沿单一方向滑行，而是沿圆柱面"穿过"或"绕过"概念。
敏感扇区与 steering 分解:
- 功能：把法平面分成"高敏感扇区"（steering 会被加速到目标概念）和"低敏感扇区"（被压制或拖延），用一个简单的β系数对比给出充分条件。
- 核心思路：把 steering 向量分解为 \(\mathbf{v}=\mathbf{v}_{\text{axis}}+\mathbf{v}_{\perp,\mathcal{P}_d}+\boldsymbol{\epsilon}\)，其中法平面分量进一步写成 \(\mathbf{v}_{\perp,\mathcal{P}_d}=\beta_c\mathbf{v}_{\perp,\mathcal{P}_d}^{(c)}+\sum_{i\neq c}\beta_i\mathbf{v}_{\perp,\mathcal{P}_d}^{(i)}\)。当目标概念贡献 \(\beta_c>\sum_{i\neq c}\beta_i\) 时落入高敏感扇区（强化轴向驱动，快速激活目标概念）；反之落入低敏感扇区（被竞争概念主导，激活被延后甚至抑制）。
- 设计动机：用一个最朴素的"谁的贡献大"作为判据，避免引入额外参数；同时这个判据天然解释了为什么"角度相似的 steering 向量"会在不同样本上产生完全相反的效果 —— 它们投影到同样形状但定位不同的法平面后会落入不同扇区。
可预测性二分定理 + 三条可观测推论:
- 功能：形式化指出"法平面的幅值可由 \(\mathbf{v}_d\) 可靠预测，但敏感扇区不可"，并把这条几何性质翻译成 3 条可实验测的趋势。
- 核心思路：定理 4.1（幅值可预测）说 \(\|\mathbf{v}_{\perp,\mathcal{P}_d}\|\) 是 steering 强度的可靠 proxy；引理 4.2 + 定理 4.3（扇区不可预测）说在 \(d\) 维空间放 > \(d\) 个概念方向时，差向量到概念强度的映射是非单射的，因此从 \(\mathbf{v}_d\) 反推不出敏感扇区。三条推论分别给实验入口：(i) 抑制法向分量 \(\rho\mathbf{v}_{\perp}\to0\) 会同时延后概念激活与延后输出崩坏（trade-off）；(ii) 把 \(\text{St}_c(\mathbf{r};\mathbf{v})/\|\mathbf{v}_d\|^k\) 拟合到 \(\sin^m\theta\cos^{k-m}\theta\) 时应该出现单峰，说明法平面可由轴决定；(iii) 若扇区可由轴决定，那么 \(\mathbf{v}_d\) 相似的样本 steering 效果应类似 —— 实验若反向说明扇区不可决。
- 设计动机：作者刻意做"可预测 vs 不可预测"的对偶论断，把 CRH 跟单纯的"概念几何描述"区分开，转化为可证伪的几何理论；这一节是论文最有理论分量的部分。

损失函数 / 训练策略¶

本文不训练模型，所有"steering vector"都是从 contrastive 对（正/负样本）上用 DiffMean、PCA、Mean-Centering、probe-based 等标准方法构造的；探测实验用 one-shot 优化（Dunefsky & Cohan 2025）：冻结模型，优化一个可训练向量去最大化目标句概率、抑制原句概率，跑 30 步、lr=0.1。

实验关键数据¶

主实验¶

模型 / 层	验证	关键结果	解读
Gemma-2B-IT layer 9	推论 1（trade-off）	\(\rho\)↓ 概念激活提前 + 输出崩坏提前	法向分量幅值确实双向调控 steering
Gemma-2B-IT layer 9	推论 2（轴决定法平面）	\(\rho_k\) 曲线单峰 + 最低 p-value	法平面可由 \(\mathbf{v}_d\) 决定
Gemma-2B-IT layer 9	推论 3（扇区不可决）	\(\mathbf{v}_d\) cos 相似度 vs steering 差异 Pearson = -0.034 (p > 0.05)	\(\mathbf{v}_d\) 相似不蕴含 steering 行为相似

实验同步在 LLaMA2-7B-Chat 层 16/24 验证，结论一致。

消融实验¶

配置	现象	说明
Full CRH	推论 1/2/3 全部满足	圆柱结构成立
不同 steering 构造法（DiffMean / PCA / MC / probe）	同样符合 CRH 预测	圆柱结构与 steering 方法选择无关
法向分量完全置零 \(\rho=1\)	输出最稳定但概念激活慢	验证轴向单独无法快速激活，需要法向辅助

关键发现¶

概念激活与输出崩坏是同一法向分量的两面：增加 \(\|\mathbf{v}_{\perp}\|\) 能更快激活目标概念，但也更早把表示推离合理语义流形，工程上能解释"为什么 steering 总在阈值附近一刀切"。
推论 2 的单峰证实"轴 → 法平面"是可决的，等价于说圆柱的"外壳形状"由差向量唯一决定，但敏感扇区在外壳上的位置完全随样本而异。
推论 3 中"\(\mathbf{v}_d\) 相似不蕴含 steering 行为相似"的零相关结果是 CRH 最强的反例武器 —— 它直接证明仅靠差向量预测 steering 成败注定失败，工程上能解释"为什么按相似度选概念向量的策略一直失败"。

亮点与洞察¶

放弃"正交性"而不放弃"线性"这一步走得非常聪明：保留了 LRH 的工程友好性（仍然可以做向量加减），又一次性消解了"为什么相似方向效果差很多"的工程谜团。
圆柱几何把 steering 失败从"工程噪声"重新定义为"内禀几何不确定性"，这意味着任何试图用"更好的概念向量构造法"消除 steering 波动的努力都注定有上限，社区策略应该转向"在敏感扇区里搜索"而非"找更纯净的方向"。
用 one-shot optimization 来探测圆柱结构是个聪明的实验设计：把"输出空间反映射回表示空间"的工具借过来当作"局部几何探针"，绕开了真概念方向不可观测的难题。

局限与展望¶

CRH 把概念建模成有限多固定方向，但 LLM 的"概念"在不同层、不同上下文里可能本身就在漂移；本文未讨论概念方向 context-dependent 的情形。
敏感扇区的判据 \(\beta_c\) vs \(\sum_{i\neq c}\beta_i\) 是充分条件而非充要，实际边界更复杂；论文也未给出如何主动估计扇区的可行方法。
验证只覆盖了两个中等规模 LLM（2B / 7B），70B+ 上是否仍然成立、扇区结构是否更复杂是开放问题。
探测实验只在两层做（层 9/13 与 16/24），CRH 是否在所有层都成立、是否随深度变化值得后续研究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "用圆柱几何取代正交假设"的视角原创性极强，且把样本特异性的随机性几何化地归因到敏感扇区，是社区急需的解释框架。
实验充分度: ⭐⭐⭐⭐ 探测实验设计精巧，三条推论分别有定量验证，多模型多构造法横向对照都做了。
写作质量: ⭐⭐⭐⭐ 数学推导清晰，但符号密度大、几何图示也偏抽象，初次阅读上手不易。
价值: ⭐⭐⭐⭐⭐ 直接为整个 activation steering 子领域提供新理论坐标，对未来"可解释 + 可控"的工程改进有方向性意义。