Internal Value Alignment in Large Language Models through Controlled Value Vector Activation¶
会议: ACL 2025
arXiv: 2507.11316
代码: https://github.com/hr-jin/ConVA
领域: LLM对齐/安全
关键词: 价值对齐, 激活工程, 价值向量, Schwartz价值理论, 可解释性
一句话总结¶
提出 ConVA(Controlled Value Vector Activation)框架,通过上下文控制的数据集精准识别 LLM 隐空间中的价值向量,并用门控最小扰动机制在推理时激活目标价值,在 Schwartz 10 种基本价值上实现平均 29.6% 的控制成功率提升,同时保持 97%+ 的文本流畅度和通用能力。
提出 ConVA 框架,通过上下文受控的价值向量识别与门控激活机制,在 LLM 隐空间中直接定位并修改价值编码方向,实现无需微调的内部价值对齐。
研究背景与动机¶
领域现状: LLM 的价值对齐日益受到关注,因其能为模型行为提供清晰性、透明性,并支持适应不断演化的社会规范。
现有痛点: 现有行为级对齐方法(SFT、RLHF、ICA)将 LLM 视为黑盒,缺乏对模型内部价值编码的可解释性理解,且无法保证模型始终一致地遵循对齐目标。
核心矛盾: 激活工程(Activation Engineering)虽然更具可解释性,但面临两个关键挑战:(a) 缺乏高质量数据用于解释模型内部价值,直接生成的数据存在严重的上下文偏差;(b) 修改激活值以保证一致价值观会导致模型性能显著下降。
本文目标: 如何在 LLM 的隐空间中准确定位价值编码方向,并以最小扰动实现一致的价值控制,同时维持模型的通用能力与输出流畅性。
切入角度: 基于线性表示假设,通过上下文受控的数据构造消除偏差,利用线性分类器识别价值向量,再引入门控机制实现自适应控制。
核心 idea: 用上下文一致的正负样本训练分类器定位价值方向,再用门控机制在推理时做最小程度的激活偏移来确保价值一致性。
方法详解¶
整体框架¶
ConVA 包含两个阶段:(1) 上下文受控的价值向量识别——构造正负样本对训练线性分类器,提取分类平面的法向量作为价值向量;(2) 门控价值向量激活——在推理时通过门控判断输入是否与目标价值相关,若相关则以最小扰动沿价值向量方向偏移嵌入。
关键设计¶
模块 1: 上下文受控数据生成
- 功能: 构造用于识别价值向量的高质量正负样本对。
- 核心思路: 先用 GPT-4o 生成多样化正样本(不同人称、句式、场景),再为每个正样本逐一生成对应负样本,确保两者仅在目标价值上相反,其余上下文尽可能一致。
- 设计动机: 直接生成的正负样本会存在严重上下文偏差(如"security"被误解为"digital security"),导致分类器无法找到准确的价值编码方向。通过逐对对齐上下文,可消除噪声词的干扰。
模块 2: 线性分类器价值向量提取
- 功能: 在 LLM 指定层的嵌入空间中训练线性分类器,提取分类平面法向量作为价值向量。
- 核心思路: 使用概念激活向量(CAV)方法,训练二分类器 \(P_V(\mathbf{e}) = \text{sigmoid}(\mathbf{w}^T\mathbf{e} + b)\),单位化权重 \(\mathbf{v} = \mathbf{w}/\|\mathbf{w}\|\) 即为价值向量。
- 设计动机: 线性表示假设认为人类可读概念以线性方向编码在模型激活空间中,分类平面的法向量自然对应该概念的编码方向。
模块 3: 门控价值向量激活
- 功能: 推理时在多层逐层偏移嵌入以实现价值控制,同时使用门控机制保护通用能力。
- 核心思路: 将对齐形式化为约束优化问题——在保证修改后嵌入被分类器判定为符合目标价值(\(P_V(\hat{\mathbf{e}}) \geq P_0\))的前提下,最小化偏移量 \(|\epsilon|\)。利用指示函数 \(\mathbb{I}(g(x) > g_0)\) 作为门控,仅对价值相关输入施加控制。
- 设计动机: 固定幅度的扰动难以平衡控制成功率与流畅性,最小化扰动可保证文本流畅;门控机制避免在无关输入上施加控制,保护 MMLU 等通用能力。
损失函数/训练策略¶
- 分类器训练使用标准二元交叉熵损失
- 价值向量激活的闭式解为 \(\epsilon = I \cdot \frac{\text{sigmoid}^{-1}(P_0) - \mathbf{w}^T\mathbf{e} - b}{\mathbf{w}^T\mathbf{v}}\)
- 仅在测试准确率 > 0.9 的层上施加控制,排除最后 5 层
- 门控单元使用 Deberta-based 人类价值检测器
实验关键数据¶
主实验¶
基于 Schwartz 10 项基本价值、Llama-2-7b-chat 的用户研究结果:
| 方法 | CSR (标注员1) | FR (标注员1) | CSR (标注员2) | FR (标注员2) | CSR (标注员3) | FR (标注员3) |
|---|---|---|---|---|---|---|
| ICA | 0.30 | 1.00 | 0.40 | 1.00 | 0.43 | 0.99 |
| CAA | 0.49 | 0.86 | 0.52 | 0.86 | 0.47 | 0.85 |
| ConVA | 0.79 | 1.00 | 0.87 | 0.99 | 0.83 | 1.00 |
消融实验¶
门控机制对通用能力的保护效果(MMLU 基准):
| 方法 | 平均 MMLU 得分 |
|---|---|
| Vanilla LLM | 0.476 |
| ConVA w.o. gate | 0.272 |
| ConVA (with gate) | 0.455 |
关键发现¶
- ConVA 在 10 个价值维度上的自动化评估中,平均 CSR 相对提升 29.6%(t-test p=6.29e-07),流畅率均不低于 97%
- 无上下文受控数据时(ConVA w.o. CCD),表现全面低于完整 ConVA,证明受控数据构造的有效性
- 即使面对具有对立价值引导的恶意 prompt,ConVA 仍能成功实现价值控制
- ConVA 可扩展到 Qwen2.5-{3,7,14,32,72}B、Llama-3-8B、Vicuna-13B、Mistral-7B 等多种骨干模型
- 价值向量间的余弦相似度分析揭示 LLM 内部价值结构与 Schwartz 理论的高层分组一致
亮点与洞察¶
- 上下文受控数据构造思路巧妙——通过逐对生成确保正负样本仅在价值维度上不同,极大提升了价值向量识别精度
- 门控+最优化扰动的组合设计兼顾了控制效果与模型通用能力,比固定幅度扰动方法更优雅
- 仅需 100 对训练样本即可完成价值向量识别,数据需求极低
- 对 LLM 内部价值结构的分析发现了与人类价值系统的对应与冲突,具有重要的可解释性价值
局限与展望¶
- 不同价值维度的控制效果不均衡(如"power"维度控制成功率较低),可能受限于 LLM 自身训练数据中的价值知识
- 目前仅支持单一价值对齐,真实场景往往涉及多维度、不同权重的复杂价值组合
- 基于线性表示假设,但已有研究表明某些特征需要至少二维子空间才能准确表示
- 门控单元的性能制约了整体框架的上限,未来更好的人类价值检测器可进一步提升效果
相关工作与启发¶
- 激活工程:CAA (Rimsky et al., 2024) 使用固定幅度的均值差作为控制向量,ConVA 则通过分类器学习并优化每个 token 的扰动幅度
- 行为级对齐:BaseAlign (Yao et al., 2024a) 基于 RLHF,需要大量数据和计算资源;ConVA 仅需 100 对样本即可实现轻量级对齐
- 价值探索:UniVaR (Cahyawijaya et al., 2025) 提供了跨语言的价值探索分析工具,而 ConVA 额外提供了直接价值控制能力
- 对可控文本生成中多概念控制(Zhang et al., 2025; Chakraborty et al., 2024)的初步尝试,可作为多维度价值对齐的潜在方向
评分¶
- 新颖性: ⭐⭐⭐⭐ — 上下文受控数据构造 + 门控最优化扰动的组合在价值对齐领域具有显著新意
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 10 个价值维度、9 种骨干模型、含用户研究和消融实验
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机论证充分,方法表述数学化且易理解
- 价值: ⭐⭐⭐⭐ — 提供了可解释、轻量、可扩展的 LLM 内部价值对齐新范式