Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RuVT3PeX1M
代码: 随论文附件开源(supplementary material)
领域: 多任务学习 / 迁移学习
关键词: 多任务学习、任务亲和度、任务分组、集成预测、梯度亲和
一句话总结¶
ETAP 将白盒梯度亲和度分析与数据驱动集成预测结合,用极少量训练组就能准确预测多任务学习的性能增益,从而高效地把任务划分成最优分组。
研究背景与动机¶
领域现状:多任务学习(MTL)通过共享表示同时训练多个任务,可以提升泛化性能并降低推理开销,在计算机视觉、NLP、医疗信息学等领域广泛应用。
现有痛点:并非所有任务组合都能互利——部分任务联合训练会出现"负迁移",导致性能低于单任务基线;想找到最优任务分组,朴素做法是枚举所有 \(2^n-1\) 种子集并分别训练 MTL 模型,计算上不可接受。现有数据驱动方法(HOA、MTGNet、Linear Surrogate)需要大量已标注的训练组才能稳定预测;白盒方法(TAG)虽然理论有据,但每步需要额外的 \(n\) 次前向/反向传播,整体开销与训练多个 MTL 模型相当,且只能产生成对亲和度估计,无法直接建模高阶交互。
核心矛盾:白盒方法效率高但精度有限(线性近似、忽略高阶依赖);数据驱动方法精度高但需要大量标注数据。两者各有偏差-方差短板。
本文目标:以极少量实际 MTL 训练组(\(|\mathcal{G}_\text{train}|\) 低至 5–10)为监督信号,准确预测任意任务组合的 MTL 增益,进而用分支定界搜索找到近最优任务分组方案。
核心 idea:把白盒梯度亲和度作为强先验特征,再用 B 样条非线性映射 + 残差回归两阶段精修,实现白盒与数据驱动的互补集成(ETAP,Ensemble Task-Affinity Predictor)。
方法详解¶
整体框架¶
ETAP 分三层:首先在单次 MTL 训练中免费计算梯度亲和度分数(白盒层),再以少量真实 MTL 增益为监督信号,依次训练非线性映射和残差修正两个预测器(数据驱动层),最后把预测增益作为目标函数输入分支定界算法,选出 \(B\) 个任务分组(搜索层)。
flowchart LR
A[单次 MTL 训练\n梯度/Loss 收集] --> B[白盒亲和度分数\nz_{ti→tj}]
B --> C[B样条非线性映射\nŷ_aff]
D[少量真实训练组\nGtrain] --> C
C --> E[残差回归修正\nŷ_final]
D --> E
E --> F[分支定界搜索\n输出最优分组]
关键设计¶
1. 免额外开销的梯度亲和度分数:传统 TAG 为评估任务 \(t_i\) 对 \(t_j\) 的影响,每步需额外执行 \(n\) 次假设前向/反向传播;ETAP 直接利用标准反向传播中已有的梯度与参数更新量,在步骤 \(k\) 计算方向对齐度:\(z^k_{t_i \to t_j} = \frac{[\nabla_{\theta^k_s} L^k_{t_j}] \cdot [\eta \nabla_{\theta^k_s} L^k_{t_i} - \beta v^{k-1}]}{L^k_{t_j}}\),再对全部 \(K\) 步取时间平均得到稳定的成对亲和度 \(z_{t_i \to t_j}\)。组级亲和度 \(z_{G \to t_i}\) 则对组内所有其他任务的成对亲和度取均值,无需额外训练步骤,在 CelebA/ETTm1/Ridership 上分别降低 TAG 计算开销 46%/71%/63%,同时亲和度与真实增益的相关性全面高于 TAG(0.32→0.47 vs TAG 的 0.16→0.43)。
2. B 样条非线性映射(Stage 1):亲和度分数与 MTL 增益在量纲和非线性程度上存在系统性差距,用纯线性回归容易高偏差。ETAP 先对每个 \(z_{G \to t}\) 做 B 样条基展开 \(\phi(z_{G \to t}) = [N_i(z_{G \to t})]_{i=1}^M\)(分段多项式,局部支撑),再在高维特征空间训练带正则化的线性回归得到初预测 \(\hat{y}^\text{aff}_G\)。样条阶数、节点数和正则强度均通过交叉验证在小训练集上调参(无需额外 MTL 训练)。这一步把白盒先验"拉"到增益量纲,并隐式建模部分高阶依赖。
3. 多热编码残差回归(Stage 2):Stage 1 的 \(\hat{y}^\text{aff}_G\) 对具体任务组合的特殊性建模不足,系统性偏差依然存在。ETAP 用多热编码向量 \(u_G \in \{0,1\}^{|T|}\) 表示任务组,以 \(e^\text{aff}_G = y_G - \hat{y}^\text{aff}_G\) 为标签训练岭回归 \(f_\text{residual}\)(正则超参 \(\lambda\) 交叉验证),最终预测 \(\hat{y}^\text{final}_G = \hat{y}^\text{aff}_G + f_\text{residual}(u_G)\)。相较于从零学习增益(MTGNet 的做法),只需学习残差,因此所需训练组数量显著减少,在 \(|\mathcal{G}_\text{train}|=5\) 时就已稳定收敛。
4. 分支定界任务分组搜索:任务最优分组本质上是 NP 难的集合覆盖问题;ETAP 将预测增益 \(\hat{y}^\text{final}\) 插入分支定界算法(沿用 Standley et al., 2020 的框架),在预算 \(B\)(分组数量)约束下最大化所有任务的总预测增益,无需穷举即可找到近最优分组方案。
实验关键数据¶
主实验:任务分组 MTL 性能(总损失,越低越好,\(|\mathcal{G}_\text{train}|=10\))¶
| 数据集 | 分组数 | ETAP | MTGNet | TAG | 最优(穷举) |
|---|---|---|---|---|---|
| CelebA | 2 | 49.92 | 50.62 | 49.67 | 49.27 |
| CelebA | 3 | 49.61 | 50.31 | 50.22 | 48.63 |
| ETTm1 | 3 | 3.93 | 3.96 | 3.96 | 3.83 |
| Chemical | 2 | 4.67 | 4.79 | 4.69 | 4.56 |
| Ridership | 4 | 17.59 | 18.06 | 18.25 | 16.79 |
ETAP 在所有数据集、所有分组数量下均最接近穷举最优,且方差最小。
增益预测相关系数(\(|\mathcal{G}_\text{train}|=10\),越高越好)¶
| 方法 | CelebA | ETTm1 | Chemical | Ridership |
|---|---|---|---|---|
| TAG(白盒基线) | 0.10 | 0.47 | 0.05 | 0.15 |
| MTGNet | 0.22 | 0.54 | 0.34 | 0.61 |
| ETAP | 0.45 | 0.84 | 0.50 | 0.74 |
消融实验¶
| 配置 | CelebA R² | 说明 |
|---|---|---|
| 亲和度分数(白盒仅) | 低/不稳定 | 线性近似,量纲不对齐 |
| Stage 1 仅(B样条映射) | 中等 | 高阶残差未修正 |
| ETAP(Stage 1+2) | 最高且稳定 | 两阶段集成最优 |
| MTGNet(相同 $ | \mathcal{G}_\text{train} | $) |
关键发现¶
- ETAP 在 \(|\mathcal{G}_\text{train}|=5\) 时就已超过 MTGNet \(|\mathcal{G}_\text{train}|=50\) 的水平,数据效率提升约 10×。
- 与 PCGrad(梯度冲突隐式处理)相比,ETAP 的显式任务分组策略在 ETTm1 上降低损失 7.4%(4.20→3.89),Ridership 上降低 6.6%(18.84→17.59)。
- ETAP 亲和度分数方差极低(相比 TAG):Table 2 显示在 CelebA 上标准差仅 ±0.00,说明时间平均策略显著稳定了估计。
亮点与洞察¶
- "免费"亲和度:把 TAG 额外 \(n\) 次前向/反向传播的开销降为零——利用标准 MTL 训练中本就计算的梯度,思路极为简洁。
- 偏差-方差互补:白盒方法低方差高偏差(线性平均),数据驱动低偏差高方差(小样本不稳定);两者级联正是经典集成学习思想在 MTL 任务调度上的具体体现。
- 残差学习范式:只学习残差比从零学习增益容易得多,这是监督信号高效利用的核心原因,与 ResNet/Boosting 中残差思路一脉相承。
- 领域泛化:在视觉(CelebA)、时间序列(ETTm1)、分子分类(Chemical)、交通(Ridership)四个完全不同的领域均有效,说明方法不依赖特定归纳偏置。
局限与展望¶
- 亲和度分数计算需要运行完整的 MTL 训练,当任务数 \(n\) 很大时计算成本仍较高,与更轻量的代理模型方法相比优势减弱。
- Stage 2 残差回归用多热编码表示任务组,高维稀疏特征在 \(n\) 极大时可能泛化困难,需更结构化的任务表示(如 GNN)。
- 当前仅评估到 \(n \leq 10\) 的任务集,对数十/上百任务的大规模 MTL 场景(如 NLP 多任务)的扩展性尚待验证。
- 任务分组假设所有任务可以独立分组,但实际中有些任务必须同组(约束条件)的情形未被建模。
相关工作与启发¶
- vs TAG(Fifty et al., 2021):TAG 是本文白盒部分的直接前身;ETAP 的亲和度分数公式与 TAG 类似,但完全去除了额外传播开销,同时用数据驱动层弥补 TAG 单纯线性估计的局限。
- vs MTGNet(Song et al., 2022):MTGNet 用自注意力 Transformer 预测增益,完全依赖数据驱动,少量训练组时极不稳定;ETAP 的白盒先验正是填补这一不足的关键。
- vs Linear Surrogate(Li et al., 2023):相同计算预算下 ETAP 在 ETTm1 上 F1 0.18→0.31、CelebA 上相关系数 0.49→0.57,说明集成策略优于单纯的线性代理模型。
- 启发:ETAP 的"白盒先验 + 残差数据驱动"框架可迁移到其他需要评估子集价值的场景,如神经架构搜索(NAS)的代理预测、联邦学习中的客户端贡献估计等。
评分¶
- 新颖性: ⭐⭐⭐⭐ 白盒与数据驱动集成的思路清晰,亲和度分数零额外开销的推导有意思,但两部分各自均非全新。
- 实验充分度: ⭐⭐⭐⭐ 四个跨域数据集 + 多个基线 + 消融 + 数据效率曲线,覆盖全面,置信区间完备。
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,公式严格,图表可读性好,整体叙述流畅。
- 价值: ⭐⭐⭐⭐ 在 MTL 任务分组这个实用但小众的赛道做出了明确改进,工程可用性强。