跳转至

Internal Value Alignment in Large Language Models through Controlled Value Vector Activation

会议: ACL 2025
arXiv: 2507.11316
代码: https://github.com/hr-jin/ConVA
领域: LLM对齐/安全
关键词: 价值对齐, 激活工程, 价值向量, Schwartz价值理论, 可解释性

一句话总结

提出 ConVA(Controlled Value Vector Activation)框架,通过上下文控制的数据集精准识别 LLM 隐空间中的价值向量,并用门控最小扰动机制在推理时激活目标价值,在 Schwartz 10 种基本价值上实现平均 29.6% 的控制成功率提升,同时保持 97%+ 的文本流畅度和通用能力。

提出 ConVA 框架,通过上下文受控的价值向量识别与门控激活机制,在 LLM 隐空间中直接定位并修改价值编码方向,实现无需微调的内部价值对齐。

研究背景与动机

领域现状: LLM 的价值对齐日益受到关注,因其能为模型行为提供清晰性、透明性,并支持适应不断演化的社会规范。

现有痛点: 现有行为级对齐方法(SFT、RLHF、ICA)将 LLM 视为黑盒,缺乏对模型内部价值编码的可解释性理解,且无法保证模型始终一致地遵循对齐目标。

核心矛盾: 激活工程(Activation Engineering)虽然更具可解释性,但面临两个关键挑战:(a) 缺乏高质量数据用于解释模型内部价值,直接生成的数据存在严重的上下文偏差;(b) 修改激活值以保证一致价值观会导致模型性能显著下降。

本文目标: 如何在 LLM 的隐空间中准确定位价值编码方向,并以最小扰动实现一致的价值控制,同时维持模型的通用能力与输出流畅性。

切入角度: 基于线性表示假设,通过上下文受控的数据构造消除偏差,利用线性分类器识别价值向量,再引入门控机制实现自适应控制。

核心 idea: 用上下文一致的正负样本训练分类器定位价值方向,再用门控机制在推理时做最小程度的激活偏移来确保价值一致性。

方法详解

整体框架

ConVA 包含两个阶段:(1) 上下文受控的价值向量识别——构造正负样本对训练线性分类器,提取分类平面的法向量作为价值向量;(2) 门控价值向量激活——在推理时通过门控判断输入是否与目标价值相关,若相关则以最小扰动沿价值向量方向偏移嵌入。

关键设计

模块 1: 上下文受控数据生成

  • 功能: 构造用于识别价值向量的高质量正负样本对。
  • 核心思路: 先用 GPT-4o 生成多样化正样本(不同人称、句式、场景),再为每个正样本逐一生成对应负样本,确保两者仅在目标价值上相反,其余上下文尽可能一致。
  • 设计动机: 直接生成的正负样本会存在严重上下文偏差(如"security"被误解为"digital security"),导致分类器无法找到准确的价值编码方向。通过逐对对齐上下文,可消除噪声词的干扰。

模块 2: 线性分类器价值向量提取

  • 功能: 在 LLM 指定层的嵌入空间中训练线性分类器,提取分类平面法向量作为价值向量。
  • 核心思路: 使用概念激活向量(CAV)方法,训练二分类器 \(P_V(\mathbf{e}) = \text{sigmoid}(\mathbf{w}^T\mathbf{e} + b)\),单位化权重 \(\mathbf{v} = \mathbf{w}/\|\mathbf{w}\|\) 即为价值向量。
  • 设计动机: 线性表示假设认为人类可读概念以线性方向编码在模型激活空间中,分类平面的法向量自然对应该概念的编码方向。

模块 3: 门控价值向量激活

  • 功能: 推理时在多层逐层偏移嵌入以实现价值控制,同时使用门控机制保护通用能力。
  • 核心思路: 将对齐形式化为约束优化问题——在保证修改后嵌入被分类器判定为符合目标价值(\(P_V(\hat{\mathbf{e}}) \geq P_0\))的前提下,最小化偏移量 \(|\epsilon|\)。利用指示函数 \(\mathbb{I}(g(x) > g_0)\) 作为门控,仅对价值相关输入施加控制。
  • 设计动机: 固定幅度的扰动难以平衡控制成功率与流畅性,最小化扰动可保证文本流畅;门控机制避免在无关输入上施加控制,保护 MMLU 等通用能力。

损失函数/训练策略

  • 分类器训练使用标准二元交叉熵损失
  • 价值向量激活的闭式解为 \(\epsilon = I \cdot \frac{\text{sigmoid}^{-1}(P_0) - \mathbf{w}^T\mathbf{e} - b}{\mathbf{w}^T\mathbf{v}}\)
  • 仅在测试准确率 > 0.9 的层上施加控制,排除最后 5 层
  • 门控单元使用 Deberta-based 人类价值检测器

实验关键数据

主实验

基于 Schwartz 10 项基本价值、Llama-2-7b-chat 的用户研究结果:

方法 CSR (标注员1) FR (标注员1) CSR (标注员2) FR (标注员2) CSR (标注员3) FR (标注员3)
ICA 0.30 1.00 0.40 1.00 0.43 0.99
CAA 0.49 0.86 0.52 0.86 0.47 0.85
ConVA 0.79 1.00 0.87 0.99 0.83 1.00

消融实验

门控机制对通用能力的保护效果(MMLU 基准):

方法 平均 MMLU 得分
Vanilla LLM 0.476
ConVA w.o. gate 0.272
ConVA (with gate) 0.455

关键发现

  • ConVA 在 10 个价值维度上的自动化评估中,平均 CSR 相对提升 29.6%(t-test p=6.29e-07),流畅率均不低于 97%
  • 无上下文受控数据时(ConVA w.o. CCD),表现全面低于完整 ConVA,证明受控数据构造的有效性
  • 即使面对具有对立价值引导的恶意 prompt,ConVA 仍能成功实现价值控制
  • ConVA 可扩展到 Qwen2.5-{3,7,14,32,72}B、Llama-3-8B、Vicuna-13B、Mistral-7B 等多种骨干模型
  • 价值向量间的余弦相似度分析揭示 LLM 内部价值结构与 Schwartz 理论的高层分组一致

亮点与洞察

  1. 上下文受控数据构造思路巧妙——通过逐对生成确保正负样本仅在价值维度上不同,极大提升了价值向量识别精度
  2. 门控+最优化扰动的组合设计兼顾了控制效果与模型通用能力,比固定幅度扰动方法更优雅
  3. 仅需 100 对训练样本即可完成价值向量识别,数据需求极低
  4. 对 LLM 内部价值结构的分析发现了与人类价值系统的对应与冲突,具有重要的可解释性价值

局限与展望

  1. 不同价值维度的控制效果不均衡(如"power"维度控制成功率较低),可能受限于 LLM 自身训练数据中的价值知识
  2. 目前仅支持单一价值对齐,真实场景往往涉及多维度、不同权重的复杂价值组合
  3. 基于线性表示假设,但已有研究表明某些特征需要至少二维子空间才能准确表示
  4. 门控单元的性能制约了整体框架的上限,未来更好的人类价值检测器可进一步提升效果

相关工作与启发

  • 激活工程:CAA (Rimsky et al., 2024) 使用固定幅度的均值差作为控制向量,ConVA 则通过分类器学习并优化每个 token 的扰动幅度
  • 行为级对齐:BaseAlign (Yao et al., 2024a) 基于 RLHF,需要大量数据和计算资源;ConVA 仅需 100 对样本即可实现轻量级对齐
  • 价值探索:UniVaR (Cahyawijaya et al., 2025) 提供了跨语言的价值探索分析工具,而 ConVA 额外提供了直接价值控制能力
  • 对可控文本生成中多概念控制(Zhang et al., 2025; Chakraborty et al., 2024)的初步尝试,可作为多维度价值对齐的潜在方向

评分

  • 新颖性: ⭐⭐⭐⭐ — 上下文受控数据构造 + 门控最优化扰动的组合在价值对齐领域具有显著新意
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖 10 个价值维度、9 种骨干模型、含用户研究和消融实验
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机论证充分,方法表述数学化且易理解
  • 价值: ⭐⭐⭐⭐ — 提供了可解释、轻量、可扩展的 LLM 内部价值对齐新范式