AdaRank: Adaptive Rank Pruning for Enhanced Model Merging¶

会议: ICLR 2026
arXiv: 2503.22178
代码: 待确认
领域: 目标检测（模型合并/多任务学习）
关键词: 模型合并, SVD, 任务向量, 测试时自适应, 多任务学习

一句话总结¶

提出 AdaRank，用可学习二值掩码自适应选择 task vector 的奇异分量（取代启发式 top-k），结合测试时熵最小化优化，大幅缓解多任务模型合并中的任务间干扰，在 ViT-B/32 上达到 89.4% 准确率。

研究背景与动机¶

领域现状：模型合并（Model Merging）将多个独立微调模型整合为一个统一框架，避免多模型部署的高计算开销。Task Arithmetic 通过加权求和 task vector（微调与预训练权重之差）实现合并，但存在严重的任务间干扰问题。

SVD 方法的局限：近期 SVD 方法利用低秩结构截断 task vector 取得了进展，但依赖启发式固定 top-k 选择，存在两个根本问题： - 反直觉现象：top 奇异分量虽然对本任务损失降低最多，但对其他任务可能造成更大的净损失增加。作者在 ViT-B/32 上实验发现，加入 MNIST 的 top 奇异分量会使语义相近的 SVHN 受益，但让不相似的 DTD（纹理分类）损失大幅增加 - 秩需求差异巨大：不同任务和层的内禀秩差异悬殊——SUN397（397类）需要更高的秩，MNIST/SVHN 秩更低；早期层（任务无关特征）秩高且方差小，后期层（任务特定表示）秩低且变异大

核心矛盾：固定 top-k 截断既可能丢弃某些任务的关键分量，又保留了引起干扰的分量

本文解决方案：自适应地为每个任务每层独立选择最优奇异分量子集

方法详解¶

整体框架¶

对每个层 l 的每个任务 i 的 task vector 做 SVD 分解 \(\tau_i^l = U_i^l \Sigma_i^l V_i^{l\top}\)，引入二值掩码 \(B_i^l \in \{0,1\}^{1 \times m}\) 决定保留/剪枝每个奇异分量。合并公式：

\[\theta_m^l = \theta_0^l + \lambda^l \sum_{i=1}^T U_i^l (\text{diag}(B_i^l) \odot \Sigma_i^l) V_i^{l\top}\]

关键设计¶

自适应二值掩码：不同于固定 top-k，每个奇异分量独立二值决策。\(B_{ir}=1\) 保留，\(B_{ir}=0\) 剪枝。当所有元素为 1 时退化为标准 Task Arithmetic；当 \(r \le k\) 为 1 其余为 0 时退化为 top-k 截断
测试时熵最小化优化：使用 Shannon 熵最小化作为无监督代理目标，在无标签测试数据上优化掩码。熵与多任务监督损失高度相关
STE 优化：前向传播使用二值掩码（round to {0,1}），反向传播保持连续化（Straight-Through Estimator）传梯度
即插即用兼容性：可与 λ^l（层级系数）联合优化，兼容 Task Arithmetic、CART、TSV-M、Iso-CTS 等多种基线

损失函数¶

\[\arg\min_B \sum_{i=1}^T \sum_{x_i \in \mathcal{D}_i} H_i(f(\theta(B), x_i))\]

其中 \(H_i\) 是任务 i 输出的 Shannon 熵，\(\mathcal{D}_i\) 是无标签测试数据。

实验关键数据¶

主实验（ViT-B/32, 8 任务）¶

方法类型	方法	平均准确率
静态合并	CART	84.7
静态合并	Iso-CTS	84.9
自适应	TA+AdaMerging	80.1
自适应	TA+AdaRank	87.9
自适应	CART+AdaRank	89.2
自适应	Iso-CTS+AdaRank	89.4
路由方法	WEMoE	89.5

消融实验¶

配置	ViT-B/32 (8任务)	说明
固定 top-k (k=50)	84.7	CART 基线
随机掩码	~82.0	不如 top-k
仅优化 λ（AdaMerging）	80.1	层级系数优化不足
AdaRank (B+λ 联合)	89.2	掩码+系数联合优化最佳

关键发现¶

NLP 任务：RoBERTa 上 CART+AdaRank 达 0.7547，GPT-2 上达 0.6587，显著优于 AdaMerging
20 任务场景：优势更大——TSV-M+AdaRank 达 86.9%（ViT-B/32），远超 WEMoE 的 80.2%
额外参数仅占总量 0.032%，TTA 时间与 AdaMerging 相当
模型参数量恒定（不随任务数增长），优于路由方法的线性增长

亮点与洞察¶

揭示了 top-k 奇异分量在多任务场景下并非最优的反直觉现象，这一分析本身就有独立价值
方法极其通用，可即插即用到多种静态/自适应模型合并框架中
在 20 任务大规模场景下优势更加明显，说明任务间干扰随任务数增长加剧
跨视觉/NLP、跨架构（双向/自回归 Transformer）均有效

局限与展望¶

需要无标签测试数据进行测试时适应，不适用于完全无数据场景
SVD 分解本身有 \(O(d^2 d')\) 的额外预处理开销
熵最小化作为代理目标并非总与多任务损失完美相关，某些场景下可能失效
仅验证了分类任务，检测/分割等密集预测任务上的效果未知

评分¶

新颖性: ⭐⭐⭐⭐ 自适应奇异分量选择替代启发式 top-k，分析深入
实验充分度: ⭐⭐⭐⭐⭐ 视觉+NLP，多backbone，8/20任务，消融充分
写作质量: ⭐⭐⭐⭐ 分析清晰，动机图示直观
价值: ⭐⭐⭐⭐ 模型合并领域实用且通用的方法