Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RuVT3PeX1M
代码: 随论文附件开源（supplementary material）
领域: 多任务学习 / 迁移学习
关键词: 多任务学习、任务亲和度、任务分组、集成预测、梯度亲和

一句话总结¶

ETAP 将白盒梯度亲和度分析与数据驱动集成预测结合，用极少量训练组就能准确预测多任务学习的性能增益，从而高效地把任务划分成最优分组。

研究背景与动机¶

领域现状：多任务学习（MTL）通过共享表示同时训练多个任务，可以提升泛化性能并降低推理开销，在计算机视觉、NLP、医疗信息学等领域广泛应用。
现有痛点：并非所有任务组合都能互利——部分任务联合训练会出现"负迁移"，导致性能低于单任务基线；想找到最优任务分组，朴素做法是枚举所有 $2^n-1$ 种子集并分别训练 MTL 模型，计算上不可接受。现有数据驱动方法（HOA、MTGNet、Linear Surrogate）需要大量已标注的训练组才能稳定预测；白盒方法（TAG）虽然理论有据，但每步需要额外的 $n$ 次前向/反向传播，整体开销与训练多个 MTL 模型相当，且只能产生成对亲和度估计，无法直接建模高阶交互。
核心矛盾：白盒方法效率高但精度有限（线性近似、忽略高阶依赖）；数据驱动方法精度高但需要大量标注数据。两者各有偏差-方差短板。
本文目标：以极少量实际 MTL 训练组（$|\mathcal{G}_\text{train}|$ 低至 5–10）为监督信号，准确预测任意任务组合的 MTL 增益，进而用分支定界搜索找到近最优任务分组方案。
核心 idea：把白盒梯度亲和度作为强先验特征，再用 B 样条非线性映射 + 残差回归两阶段精修，实现白盒与数据驱动的互补集成（ETAP，Ensemble Task-Affinity Predictor）。

方法详解¶

整体框架¶

ETAP 分三层：首先在单次 MTL 训练中免费计算梯度亲和度分数（白盒层），再以少量真实 MTL 增益为监督信号，依次训练非线性映射和残差修正两个预测器（数据驱动层），最后把预测增益作为目标函数输入分支定界算法，选出 $B$ 个任务分组（搜索层）。

flowchart LR
    A[单次 MTL 训练\n梯度/Loss 收集] --> B[白盒亲和度分数\nz_{ti→tj}]
    B --> C[B样条非线性映射\nŷ_aff]
    D[少量真实训练组\nGtrain] --> C
    C --> E[残差回归修正\nŷ_final]
    D --> E
    E --> F[分支定界搜索\n输出最优分组]

关键设计¶

1. 免额外开销的梯度亲和度分数：传统 TAG 为评估任务 $t_i$ 对 $t_j$ 的影响，每步需额外执行 $n$ 次假设前向/反向传播；ETAP 直接利用标准反向传播中已有的梯度与参数更新量，在步骤 $k$ 计算方向对齐度：$z^k_{t_i \to t_j} = \frac{[\nabla_{\theta^k_s} L^k_{t_j}] \cdot [\eta \nabla_{\theta^k_s} L^k_{t_i} - \beta v^{k-1}]}{L^k_{t_j}}$，再对全部 $K$ 步取时间平均得到稳定的成对亲和度 $z_{t_i \to t_j}$。组级亲和度 $z_{G \to t_i}$ 则对组内所有其他任务的成对亲和度取均值，无需额外训练步骤，在 CelebA/ETTm1/Ridership 上分别降低 TAG 计算开销 46%/71%/63%，同时亲和度与真实增益的相关性全面高于 TAG（0.32→0.47 vs TAG 的 0.16→0.43）。

2. B 样条非线性映射（Stage 1）：亲和度分数与 MTL 增益在量纲和非线性程度上存在系统性差距，用纯线性回归容易高偏差。ETAP 先对每个 $z_{G \to t}$ 做 B 样条基展开 $\phi(z_{G \to t}) = [N_i(z_{G \to t})]_{i=1}^M$（分段多项式，局部支撑），再在高维特征空间训练带正则化的线性回归得到初预测 $\hat{y}^\text{aff}_G$。样条阶数、节点数和正则强度均通过交叉验证在小训练集上调参（无需额外 MTL 训练）。这一步把白盒先验"拉"到增益量纲，并隐式建模部分高阶依赖。

3. 多热编码残差回归（Stage 2）：Stage 1 的 $\hat{y}^\text{aff}_G$ 对具体任务组合的特殊性建模不足，系统性偏差依然存在。ETAP 用多热编码向量 $u_G \in \{0,1\}^{|T|}$ 表示任务组，以 $e^\text{aff}_G = y_G - \hat{y}^\text{aff}_G$ 为标签训练岭回归 $f_\text{residual}$（正则超参 $\lambda$ 交叉验证），最终预测 $\hat{y}^\text{final}_G = \hat{y}^\text{aff}_G + f_\text{residual}(u_G)$。相较于从零学习增益（MTGNet 的做法），只需学习残差，因此所需训练组数量显著减少，在 $|\mathcal{G}_\text{train}|=5$ 时就已稳定收敛。

4. 分支定界任务分组搜索：任务最优分组本质上是 NP 难的集合覆盖问题；ETAP 将预测增益 $\hat{y}^\text{final}$ 插入分支定界算法（沿用 Standley et al., 2020 的框架），在预算 $B$（分组数量）约束下最大化所有任务的总预测增益，无需穷举即可找到近最优分组方案。

实验关键数据¶

主实验：任务分组 MTL 性能（总损失，越低越好，$|\mathcal{G}_\text{train}|=10$）¶

数据集	分组数	ETAP	MTGNet	TAG	最优（穷举）
CelebA	2	49.92	50.62	49.67	49.27
CelebA	3	49.61	50.31	50.22	48.63
ETTm1	3	3.93	3.96	3.96	3.83
Chemical	2	4.67	4.79	4.69	4.56
Ridership	4	17.59	18.06	18.25	16.79

ETAP 在所有数据集、所有分组数量下均最接近穷举最优，且方差最小。

增益预测相关系数（$|\mathcal{G}_\text{train}|=10$，越高越好）¶

方法	CelebA	ETTm1	Chemical	Ridership
TAG（白盒基线）	0.10	0.47	0.05	0.15
MTGNet	0.22	0.54	0.34	0.61
ETAP	0.45	0.84	0.50	0.74

消融实验¶

配置	CelebA R²	说明
亲和度分数（白盒仅）	低/不稳定	线性近似，量纲不对齐
Stage 1 仅（B样条映射）	中等	高阶残差未修正
ETAP（Stage 1+2）	最高且稳定	两阶段集成最优
MTGNet（相同 $	\mathcal{G}_\text{train}	$）

关键发现¶

ETAP 在 $|\mathcal{G}_\text{train}|=5$ 时就已超过 MTGNet $|\mathcal{G}_\text{train}|=50$ 的水平，数据效率提升约 10×。
与 PCGrad（梯度冲突隐式处理）相比，ETAP 的显式任务分组策略在 ETTm1 上降低损失 7.4%（4.20→3.89），Ridership 上降低 6.6%（18.84→17.59）。
ETAP 亲和度分数方差极低（相比 TAG）：Table 2 显示在 CelebA 上标准差仅 ±0.00，说明时间平均策略显著稳定了估计。

亮点与洞察¶

"免费"亲和度：把 TAG 额外 $n$ 次前向/反向传播的开销降为零——利用标准 MTL 训练中本就计算的梯度，思路极为简洁。
偏差-方差互补：白盒方法低方差高偏差（线性平均），数据驱动低偏差高方差（小样本不稳定）；两者级联正是经典集成学习思想在 MTL 任务调度上的具体体现。
残差学习范式：只学习残差比从零学习增益容易得多，这是监督信号高效利用的核心原因，与 ResNet/Boosting 中残差思路一脉相承。
领域泛化：在视觉（CelebA）、时间序列（ETTm1）、分子分类（Chemical）、交通（Ridership）四个完全不同的领域均有效，说明方法不依赖特定归纳偏置。

局限与展望¶

亲和度分数计算需要运行完整的 MTL 训练，当任务数 $n$ 很大时计算成本仍较高，与更轻量的代理模型方法相比优势减弱。
Stage 2 残差回归用多热编码表示任务组，高维稀疏特征在 $n$ 极大时可能泛化困难，需更结构化的任务表示（如 GNN）。
当前仅评估到 $n \leq 10$ 的任务集，对数十/上百任务的大规模 MTL 场景（如 NLP 多任务）的扩展性尚待验证。
任务分组假设所有任务可以独立分组，但实际中有些任务必须同组（约束条件）的情形未被建模。

评分¶

新颖性: ⭐⭐⭐⭐ 白盒与数据驱动集成的思路清晰，亲和度分数零额外开销的推导有意思，但两部分各自均非全新。
实验充分度: ⭐⭐⭐⭐ 四个跨域数据集 + 多个基线 + 消融 + 数据效率曲线，覆盖全面，置信区间完备。
写作质量: ⭐⭐⭐⭐ 问题定义清晰，公式严格，图表可读性好，整体叙述流畅。
价值: ⭐⭐⭐⭐ 在 MTL 任务分组这个实用但小众的赛道做出了明确改进，工程可用性强。

Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验：任务分组 MTL 性能（总损失，越低越好，\(|\mathcal{G}_\text{train}|=10\)）¶

增益预测相关系数（\(|\mathcal{G}_\text{train}|=10\)，越高越好）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验：任务分组 MTL 性能（总损失，越低越好，\(|\mathcal{G}_\text{train}|=10\)）¶

增益预测相关系数（\(|\mathcal{G}_\text{train}|=10\)，越高越好）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶