From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models¶

会议: ACL 2026
arXiv: 2604.17941
代码: github
领域: 多模态VLM
关键词: 神经元归因, 因果分析, 多任务VLM, 注意力头, 模型可解释性

一句话总结¶

提出 HONES 框架，通过先定位任务关键注意力头再以其为条件引导 FFN 神经元归因，实现了多任务 VLM 中跨异构任务的统一、无梯度的神经元级因果分析和轻量级任务性能提升。

研究背景与动机¶

领域现状：大型视觉语言模型（VLM）在 VQA、OCR、图像描述等多任务中表现出色，但内部决策过程不透明——多种能力纠缠在共享参数中，阻碍了错误归因和可控部署。神经元级分析能提供细粒度的可操作洞察。

现有痛点：(1) 现有神经元分析主要关注单任务设置，无法跨异构任务（如问答 vs 图文匹配）比较神经元重要性；(2) 大多方法独立评分神经元，忽略了注意力头的任务依赖路由效应，导致多义性神经元获得膨胀的重要性分数。

核心矛盾：如何在共享参数空间中准确识别不同任务的关键神经元，同时避免多义性带来的噪声？

本文目标：设计统一的跨任务神经元归因框架，并利用发现的关键神经元进行轻量级任务性能提升。

切入角度：遵循 Transformer 的结构化因果视图——注意力头负责选择和路由任务关键输入，FFN 神经元负责将路由信息写入残差流。先定位路由节点（注意力头），再在其条件下归因 FFN 神经元。

核心 idea：神经元的任务重要性应通过其在任务关键注意力头路由路径下的"写入贡献"来衡量，而非简单的激活幅度。

方法详解¶

整体框架¶

HONES 分两阶段：发现阶段——(1) 通过均值替换干预定位任务关键注意力头 \(\mathcal{H}_t^*\)；(2) 在注意力头条件下，通过直接词汇投影（DVP）衡量每个 FFN 神经元对任务目标的因果写入贡献，选取 Top-K 神经元。引导阶段——冻结骨干网络，仅在关键神经元上学习稀疏缩放因子，通过 KL 正则化实现可控任务提升。

关键设计¶

因果注意力头定位:
- 功能：识别任务关键的"路由节点"，约束下游神经元搜索空间
- 核心思路：采用均值替换干预——将目标头的输出替换为其余 \(H-1\) 个头输出的均值，测量任务性能下降 \(S_t(h)\)。选取 Top-\(K_h\) 个头组成 \(\mathcal{H}_t^*\)
- 设计动机：相比零置换，均值替换减少分布外伪影；先定位路由节点可有效隔离有效计算路径
头引导的神经元归因（因果写入效应）:
- 功能：在任务路由上下文条件下为每个 FFN 神经元评分
- 核心思路：对每个神经元 \((l,i)\)，计算其通过下投影向残差流写入的向量 \(\Delta \mathbf{r}_i^{(l)}\)，再用直接词汇投影（DVP）投射到目标 token 的 unembedding 向量方向，得到写入贡献 \(c_{l,i}\)。然后对每个关键头施加干预，计算干预前后的贡献落差 \(\Delta c\)，以头重要性加权聚合为最终分数 \(I_{l,i}\)
- 设计动机：独立评分的激活方法容易被多义性混淆；头引导条件确保只计入沿任务路由路径的有效贡献
轻量级神经元引导:
- 功能：通过调节关键神经元的激活来提升任务性能
- 核心思路：冻结所有骨干参数，为每个关键神经元学习缩放因子 \(\lambda_{l,i}\)。优化目标包含任务损失和 KL 散度正则项：\(\min_{\lambda_t} \mathcal{L}_t + \beta \text{KL}(p_\theta \| p_{\theta_{\lambda_t}})\)
- 设计动机：KL 正则防止过度偏离原始模型行为；仅学习稀疏缩放因子，参数量极小

训练策略¶

发现阶段使用 7K 图像的 discovery split，引导阶段使用 2K 图像的 dev split 学习缩放因子，3K 图像用于测试。支持开放式目标（如 caption）时用 IDF 加权聚合 token 的 unembedding 向量。

实验关键数据¶

主实验（Top-1% 神经元掩码后的性能下降 %）¶

方法	VQA	OCR	Caption	Retrieval	平均
AP	11.33	10.40	8.65	0.50	7.72
MA	6.82	15.50	11.90	1.35	8.89
APE	3.20	-1.87	12.20	0.90	3.61
HONES	27.30	19.00	19.80	7.43	18.38

引导效果（LLaVA-1.5-7B）¶

方法	VQA	OCR	Caption	Retrieval	平均
Base	0.652	0.576	0.129	0.933	0.572
Grid-Search	0.666	0.594	0.132	0.956	0.587
HONES	0.673	0.602	0.141	0.963	0.595

关键发现¶

HONES 在所有任务和两个 VLM 上全面超越激活统计方法，平均性能下降达18.38%（LLaVA）和 21.91%（Qwen）
关键神经元表现出任务依赖的层偏好：检索任务集中在中间层（视觉-文本对齐），其他任务偏向深层（答案解码）
VQA 共享神经元的跨任务显著性最高，呈现"Hub"效应——VQA 相关神经元支撑了广泛的视觉语言任务
OOD 实验中，直接迁移域内学习的缩放因子（zero-shot）即可获得一致的提升

亮点与洞察¶

从注意力头到神经元的"粗到细"归因思路优雅且高效——头引导条件有效抑制了多义性噪声
提出统一的跨任务评分接口（DVP + IDF 加权），解决了异构任务输出不可比的难题
VQA 作为跨任务"Hub"的发现具有重要的模型理解意义
引导方法仅学习稀疏缩放因子，参数开销极低且 OOD 可迁移

局限与展望¶

实验限于 7B 规模的稠密模型，更大模型或 MoE 架构上的验证待进行
四个粗粒度任务类别可能掩盖子任务级别的差异（如 VQA 中的计数 vs 空间推理）
因果分析需要多次前向传播，计算开销较高，大数据集上扩展性受限
未探索与 SAE 等特征级方法的互补结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 头引导神经元归因的框架设计新颖，跨任务统一评分接口解决了实际瓶颈
实验充分度: ⭐⭐⭐⭐⭐ 四任务×两模型，大量控制变体和消融实验，OOD 验证
写作质量: ⭐⭐⭐⭐ 框架描述清晰，发现洞察丰富
价值: ⭐⭐⭐⭐⭐ 对 VLM 可解释性和可控性有重要推进，引导方法具有实用价值