TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs¶
会议: ICML2025
arXiv: 2506.23423
代码: github.com/FelipeNuti/tuning-contribution
领域: LLM分析 / AI Safety
关键词: fine-tuning分析, 可解释性, 越狱攻击, 残差分解, Transformer内部表示
一句话总结¶
提出 Tuning Contribution (TuCo) 指标,通过将微调后 LLM 的前向传播精确分解为预训练分量 (PTC) 和微调分量 (FTC),首次实现在推理时逐 prompt 量化微调对模型输出的贡献,并揭示越狱攻击通过削弱 FTC 幅度来绕过安全防护。
研究背景与动机¶
- 微调效果缺乏细粒度度量:已有研究仅在数据集级别(如 benchmark 性能、机制可解释性)分析微调对 LLM 的影响,缺少针对单个 prompt 输出进行定量分析的方法。
- 越狱攻击的机制假说未被量化验证:Wei et al. (2024) 和 Kotha et al. 提出越狱攻击利用预训练与微调目标间的"竞争"关系,但这一假说从未被直接形式化或测量。
- 隐藏状态 vs. 最终输出:微调可能显著改变中间隐藏状态而不影响最终 token 预测,因此需要考察整个前向传播过程而非仅比较最终输出。
方法详解¶
1. 精确分解:PTC 与 FTC¶
对于具有 \(L\) 层残差结构的 Transformer,给定微调模型 \(\mathcal{T}^{\text{FT}}_\Theta\) 和对应预训练模型 \(\mathcal{T}^{\text{PT}}_\phi\),每层的更新可分解为:
- PTC (Pre-Training Component):预训练模型对应层的输出,代表预训练形成的计算电路
- FTC (Fine-Tuning Component):微调模型与预训练模型在同一层、同一输入上的输出差值,代表微调新增的计算电路
该分解对所有残差结构 Transformer 精确成立,无需假设已知特定电路分解。
2. TuCo 的定义¶
在所有层上累积最后一个 token 的 FTC 和 PTC:
Tuning Contribution 定义为:
TuCo 取值范围 \([0, 1]\),值越高表示微调对该 prompt 响应的影响越大。
3. Grönwall 理论界¶
论文证明了离散 Grönwall 界:当 PTC 有界且 Lipschitz 时,
其中 \(\beta = \max_l \frac{\|\overline{\text{FTC}}_l\|_1}{\|\overline{\text{PTC}}_l\|_1 + \|\overline{\text{FTC}}_l\|_1}\),理论上保证 FTC 较小时微调模型输出接近预训练模型。
4. FTC α-Scaling¶
通过缩放因子 \(\alpha\) 调控微调分量的幅度:
\(\alpha=1\) 恢复微调模型,\(\alpha=0\) 近似回到预训练模型的行为。
实验关键数据¶
模型覆盖:Llama 2 (7B/13B)、Llama 3 (8B)、Gemma 7B、Vicuna v1.5 (7B/13B)、Mistral (V0.1/V0.2 7B)、Zephyr Gemma 7B,共 9 个开源模型。
实验1:FTC α-Scaling 控制模型行为¶
| 实验 | 指标 | 结果 |
|---|---|---|
| MMLU (57任务) | 最优 α 下准确率提升 | 1.03%–2.69% (71%任务显著) |
| MWE 行为评估 | 最大化行为一致性 | +1.55%–5.18% (所有模型显著) |
| MWE 行为评估 | 最小化行为一致性 | -2.80%~-25.24% |
| 基督教信仰认同 (Llama2 13B) | α=1.25 vs α=1.0 | +24% 认同度 |
实验2:Web 文本 vs. Chat 输入的 TuCo 区分度¶
| 模型 | AUC (OpenWebText vs HH-RLHF) |
|---|---|
| Llama 2 7B/13B | 1.00 |
| Vicuna 7B/13B | 0.99 |
| Gemma 7B | 0.93 |
| Llama 3 8B | 1.00 |
实验3:越狱攻击降低 TuCo¶
| 攻击类型 | 模型 | AUC (有攻击 vs 无攻击) |
|---|---|---|
| GCG 梯度攻击 | Llama 2 7B | 1.00 |
| GCG 梯度攻击 | Llama 2 13B | 0.80 |
| 共轭提示 (En vs Ml/Sw) | Llama 2 13B | 1.00 |
| Many-Shot | 所有模型 | TuCo 随 shot 数单调递减 |
实验4:成功越狱的 TuCo 更低¶
| 模型 | 成功越狱 AUC | vanilla 越狱率 | GCG 越狱率 |
|---|---|---|---|
| Llama 2 13B | 0.87 | 0.19% | 1.1% |
| Llama 2 7B | 0.83 | 0.19% | 16.36% |
| Gemma 7B | 0.94 | 6.92% | 7.42% |
| Vicuna 7B | 0.87 | 29.23% | 85.13% |
实验5:TuCo vs OutputCo 的差异¶
OutputCo 仅比较最终隐藏状态,而 TuCo 考察整个前向传播。在多次拒绝示例后接无害问题的实验中,OutputCo 随示例增多而降低(模型快速学会拒绝),但 TuCo 反而升高(反映内部微调电路活动增强),说明两个指标捕获了不同的信息。
亮点与洞察¶
- 理论严谨:从广义分量 (Generalized Component) 的形式化定义出发,证明任何微调 Transformer 都可精确分解为 PTC + FTC,无需假设电路结构。
- 首个逐 prompt 的微调贡献度量:推理时可计算,适用于十亿参数级模型,计算开销约为额外一次前向传播。
- 越狱机制的定量证据:三种主流攻击(GCG、共轭提示、Many-Shot)均显著降低 TuCo,且攻击成功时 TuCo 降得更多(AUC 高达 0.87),直接量化了"越狱=削弱微调效果"这一假说。
- 低资源语言的 TuCo 排序与网络语料份额完全一致:英语 > 日语 > 匈牙利语 > 斯瓦希里语/马拉雅拉姆语,揭示微调覆盖度与训练数据分布的直接关系。
- FTC α-Scaling 可实际调控模型行为,在 MMLU 上获得 1–3% 的性能提升,尽管作者强调这不是目的而是验证。
局限与展望¶
- 需要同时访问预训练和微调模型:闭源模型(如 GPT-4、Claude)不可用,限制了实际部署场景。
- 计算开销:需要同时运行两个模型的前向传播,对大规模部署有一定负担。
- TuCo 非攻击检测工具:虽然 AUC 高,但作者明确声明 TuCo 是分析工具而非防御机制,直接用于实时检测可能存在对抗绕过。
- 模型规模有限:仅验证至 13B 参数,对于 70B+ 或 MoE 架构的适用性未知。
- 对 LoRA 等参数高效微调方法的适用性:论文未专门讨论 LoRA/QLoRA 等方法下 FTC 的特性。
- 因果性 vs 相关性:TuCo 降低与越狱成功高度相关,但尚未建立因果关系。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首个逐 prompt 量化微调贡献的指标,理论推导完整
- 实验充分度: ⭐⭐⭐⭐ — 9 个模型 × 三种攻击 × 多种评估任务,消融充分但模型规模有限
- 写作质量: ⭐⭐⭐⭐⭐ — 理论动机→形式化→实验验证的逻辑链清晰严谨
- 价值: ⭐⭐⭐⭐ — 为 LLM 安全和可解释性提供新维度,但依赖预训练模型可用性限制了实用性