跳转至

Multi-task Linear Regression without Eigenvalue Lower Bounds: Adaptivity, Robustness and Safety

会议: ICML 2026
arXiv: 2605.17126
代码: https://github.com/seokjinkim0428/Multi-task-Linear-Regression
领域: 统计学习理论 / 多任务学习 / 鲁棒回归
关键词: 多任务线性回归、矩阵加权正则、最小特征值、平衡度、离群任务、安全性保证

一句话总结

本文提出一种以 \(\|\theta_j-\beta\|_{\bm\Sigma_j}\)(矩阵加权范数)为正则项的鲁棒多任务线性回归估计器,用一个相对的"平衡度常数" \(B\) 取代了既往工作中刚硬的"每个任务二阶矩最小特征值 \(\Omega(1)\)"假设,在病态/低秩/带离群任务的高维场景下同时给出最小最大率(minimax)、自适应、和回退到独立任务学习(ITL)的安全保证。

研究背景与动机

领域现状:多任务学习里"少数离群任务 + 多数相关任务"的鲁棒线性回归框架以 Duan & Wang (2023) 的 ARMUL 为代表:通过共享中心参数 \(\beta\)\(\ell_2\) 距离正则 \(\lambda\|\theta_j-\beta\|_2\) 联合估计 \(m\) 个任务的参数,在不知 outlier 比例 \(\varepsilon\) 和相似半径 \(\delta\) 的情况下自适应聚合。

现有痛点:所有这条线的理论保证(Duan & Wang 2023,Tian 等 2025/2026)都依赖 Lower Boundedness of Second Moments (LBSM):要求每个任务的经验二阶矩满足 \(\rho \mathbf{I}_d \preceq \bm\Sigma_j \preceq L\mathbf{I}_d\)\(\rho=\Omega(1)\)。其上界 \(\rho^{-2}\cdot(d/(mn)+\min(L^4\delta^2/\rho^2,d/n)+\varepsilon^2 d/n)\)\(\rho\) 很小(高维球面均匀分布 \(\rho\asymp 1/d\)、特征谱快速衰减、线性 bandit 自适应采集等)的现实场景下直接退化为 vacuous。

核心矛盾:LBSM 是为了在"Euclidean 参数误差"度量下保证可识别性,但对 prediction MSE 而言,最弱观测的方向本来就不该被强力惩罚——单任务最小二乘的预测率 \(\tilde{\mathcal O}(d/n)\) 根本不要求条件数有界。换言之,LBSM 是参数误差视角的需求,而非预测误差视角的需求

本文目标:分解为三个子问题——(i) 能否在没有 \(\rho=\Omega(1)\) 的情况下证明多任务转移收益?(ii) 在没有相似性结构时,能否保证自动退化到 ITL 的安全速率?(iii) 替代 LBSM 的"最小条件"应该长什么样?

切入角度:作者注意到 \(\|\theta_j-\beta\|_{\bm\Sigma_j}=\|\mathbf X_j(\theta_j-\beta)\|_2/\sqrt{n_j}\) 衡量的是预测空间的不一致,而非参数空间。换言之,把正则放在"白化坐标"\(\bm\Sigma_j^{1/2}\theta\) 里,未观测方向自然不会被罚到。问题就剩下"如何在白化后还能让多任务聚合得到信息共享"——这要求各任务的二阶矩在某种平均意义下相互可比。

核心 idea:用矩阵加权范数 \(\|\theta_j-\beta\|_{\bm\Sigma_j}\) 替换 \(\ell_2\) 正则,并引入一个一侧、平均型的"平衡度"假设 \(\bm\Sigma_j\preceq B\cdot\bm\Sigma_{\mathbf S}\)(每个任务的二阶矩被内点任务平均二阶矩控制),用 \(B\) 取代 \(\rho^{-1}\) 的角色。

方法详解

整体框架

\(m\) 个任务,每个任务有 \(n\) 个样本 \((x_{ji},y_{ji})\) 服从线性模型 \(y_{ji}=x_{ji}^\top\theta_j^\star+\varepsilon_{ji}\),未知参数中 \(|\mathbf S|/m\ge 1-\varepsilon\) 个内点参数落在以 \(\theta^\star\) 为中心半径 \(\delta\)\(\ell_2\) 球内,剩下的是任意 outlier;\(\varepsilon,\delta,\mathbf S\) 都未知。估计器 MTLR 把所有任务的损失 + 中心 \(\beta\) 写成一个联合凸优化,正则项用每个任务自己的经验二阶矩 \(\bm\Sigma_j=\mathbf X_j^\top\mathbf X_j/n\) 加权。求解后只看预测 MSE \(\mathcal E^{\mathrm{in}}_j=\|\hat\theta_j-\theta_j^\star\|_{\bm\Sigma_j}^2\)

关键设计

  1. 矩阵加权正则的联合凸损失:

    • 功能:用一个对每个任务"局部白化"的正则替代 ARMUL 的 \(\ell_2\) 正则,把对最小特征值的依赖从分析里剔除。
    • 核心思路:损失 \(\mathcal L(\Theta)=\sum_{j=1}^{m} w_j\big(f_j(\theta_j)+\lambda_j\|\theta_j-\beta\|_{\bm\Sigma_j}\big)\),其中 \(f_j(\theta)=\|\mathbf Y_j-\mathbf X_j\theta\|_2^2/(2n_j)\)\(\|\theta_j-\beta\|_{\bm\Sigma_j}=\|\mathbf X_j(\theta_j-\beta)\|_2/\sqrt n\)。它衡量的是"\(\theta_j\)\(\beta\) 在任务 \(j\) 自己的设计矩阵下的预测差"——若某方向 \(\mathbf X_j\) 几乎没看到,那这个方向的偏差就不被罚。等价地这是按 \(\bm\Sigma_j^{1/2}\) 白化后的 \(\ell_2\) 正则。推荐 \(\lambda_j\asymp\sqrt{d/n_j}\),重参 \(v_j=\theta_j-\beta\) 后整个目标是联合凸的,作者用 L-BFGS-B 直接求解。
    • 设计动机:要既能在好任务间共享信息,又能让弱观测方向"自动消音"。Euclidean 正则同等对待强弱方向,会把那些独立任务本来就识别不了的方向也强行往 \(\beta\) 拉,进而把 \(\rho^{-2}\) 的因子写进保证里;矩阵加权正则则只在被实际观测到的方向上聚合,从根本上断掉 \(\rho\) 依赖。
  2. 平衡度常数 \(B\) 替代 LBSM:

    • 功能:用一个"相对而非绝对"的谱条件刻画"任务间几何相容性",作为转移收益生效的最弱条件。
    • 核心思路:Assumption 1 要求存在 \(B\in[1,\infty]\) 使 \(\bm\Sigma_j\preceq B\cdot \bm\Sigma_{\mathbf S}\) 对所有 \(j\) 成立,其中 \(\bm\Sigma_{\mathbf S}=|\mathbf S|^{-1}\sum_{j\in\mathbf S}\bm\Sigma_j\) 是内点平均。它只是单边上界、且与"平均"而非"任意一对"比较,明确允许各 \(\bm\Sigma_j\) 秩亏 / 谱衰减。LBSM 是其特例:若 \(\rho\mathbf I\preceq\bm\Sigma_j\preceq L\mathbf I\),则 \(B=L/\rho\)。文中给出三个例子:LBSM 下 \(B=L/\rho\);两两可比下 \(B=B'\);低秩双群体(一组任务 \(\bm\Sigma=\mathbf I\)、另一组 \(=\mathbf 0\))下 \(B=|\mathbf S|/|\mathbf S\cap\mathbf I|\)。再配合 covariate concentration \(\nu_j\),可把经验 \(B\) 平稳过渡到 population 版本 \(\bar B\)
    • 设计动机:LBSM 是"绝对谱下界",在高维或自适应采集下被现实粉碎。一个相对的"任务间几何相容性"才是多任务能不能转移的本质——若所有内点任务的二阶矩落在差不多的方向上,平均矩 \(\bm\Sigma_{\mathbf S}\) 就是个好的"共同骨架",每个 \(\bm\Sigma_j\) 都被它控制就说明可共享信息。\(B=\infty\) 时(譬如内点任务的信息方向完全不交叠)协调本来就没必要,算法应该乖乖回到 ITL。
  3. 两层"安全 + 自适应"率结构:

    • 功能:让单一估计器在"任务相关 + 几何相容"时享受多任务收益,在不利时无需切换自动回退到 ITL 速率。
    • 核心思路:Theorem 2 同时给出两条同概率成立的界。Safety: 对任意 \(B,\varepsilon,\delta\)\(\mathcal E^{\mathrm{in}}_j(\hat\theta_j)\lesssim q^2(d/n)\zeta\),匹配独立任务的 minimax 率,\(\zeta=\log(16m/\kappa)\)。Adaptivity: 若 Assumption 1 成立且 \(B\lesssim\min(1/\varepsilon,m)\),则对内点 \(j\in\mathbf S\)\(\mathcal E^{\mathrm{in}}_j(\hat\theta_j)\lesssim (Bd/(mn)+\min(B\delta^2,q^2d/n)+q^2B^2\varepsilon^2 d/n)\zeta\)。任务平均 MSE 在好 regime 下达到 minimax 最优(可由正交设计子模型证下界)。Theorem 3 通过经验-总体可比常数 \(\nu_j\) 把上述在样本内的界搬到 population MSE,并通过域投影给出第二层安全保证 \(\mathcal E_j(\hat\theta_j^\xi)\lesssim \mathcal E^{\mathrm{in}}_j(\hat\theta_j)+\xi^2 U_j^2/n\)。Theorem 4 把整套结论搬到 GLM(链接函数曲率有界即可),结构完全镜像线性情形。
    • 设计动机:实际部署里,使用者不知道 \(B\)、不知道 \(\varepsilon\)、也不知道 \(\delta\)。一个理论保证如果要求使用者先选对超参/算法,就没什么实用价值。安全率让算法"最坏也不亏",自适应率让算法"好的时候捡到便宜",二者都不需要先验信息。

损失函数 / 训练策略

线性模型用平方损失,GLM 用负对数似然 \(f_j(\theta)=\frac{1}{n}\sum_i(\psi(x_{ji}^\top\theta)-y_{ji}x_{ji}^\top\theta)\)\(\lambda_j\)\(q\sqrt{d\zeta/n}\)\(q\) 由 5-fold CV 在 \(\{0.05,0.10,\dots,0.50\}\) 调;GLM 必须把参数限制在 \(\mathbf B(0,\xi)\) 内以保证链接函数曲率在 \([\alpha_\ell,\alpha_u]\)

实验关键数据

主实验

合成数据基准 \(n=100,m=30,d=30\),协方差形状 \(\mathbf x\) 单位球加 \(k^{-\alpha}\) 坐标缩放,30 次 Monte Carlo。对比 DP(pooling)、ITL(独立)、ARMUL(Duan-Wang 2023)。下表为相关性扫描(\(B\equiv 1\)\(\varepsilon=0.1\)\(\alpha=1\))下的全任务 MSE。

\(\delta\) 本文 ARMUL DP ITL
0.2 0.0138 0.041+ >0.04 >0.04
0.8 ~0.020 0.041+ >0.04 >0.04
3.2 0.0259 0.041+ >0.04 >0.04

HAR 真实数据(30 受试者多任务 logistic regression,二分类站立 vs 其他,\(d=561\),子任务 \(n\approx 343\),不做 PCA),20% 测试,30 次随机划分。

方法 平均错误率 (%) SD
本文 1.25 0.32
ITL 4.67 0.51
DP 7.61 0.46
ARMUL (论文 Table 1 截断处未给完整数字)

消融实验

论文用四组单变量扫描代替传统 ablation,每次只调一个量来对应理论里的一个因子。

扫描变量 取值范围 关键发现
相似度 \(\delta\) 0.2-3.2 本文全程领先 ITL/ARMUL,\(\delta\) 小时优势最大
outlier 比例 \(\varepsilon\) 0.05-0.4 全任务 MSE 平滑从 0.006 升到 0.046,无突变;outlier 任务上 ITL 最强(理所当然)
特征谱衰减 \(\alpha\) 0-2.0 本文在 \(\alpha=1.5,2.0\)(高度病态)下仍主导,验证 LBSM 不再必要
平衡度 \(\bar B\) 5,10,15,20 \(\bar B=5\) 时本文最优;\(\bar B\) 增大后 ITL 反超,本文自动靠拢 ITL 不出现灾难式负迁移

关键发现

  • \(\alpha=2\) 的强病态规面下,ARMUL 因 \(\rho\asymp d^{-2}\) 导致界 vacuous,本文反而稳健胜出——这正是理论"剔除 \(\rho^{-2}\)"的实证体现。
  • 平衡度扫描里看到了清晰的"双 regime 切换":\(\bar B\) 小时本文吃多任务红利,\(\bar B\) 大时本文与 ITL 几乎重合——也就是 Theorem 2 的 safety 部分在数值上完全兑现。
  • HAR 上不做 PCA 的 logistic 回归把 ARMUL 的标志性预处理拿掉,本文错误率 1.25% 比 ITL 的 4.67% 低近 4 倍,说明矩阵加权正则在真实低 SNR 高维场景仍有效。

亮点与洞察

  • 把"参数空间正则"换成"预测空间正则"是个 minimal 修改,工程上只是改正则项的一行公式,但理论上把困扰这条线多年的 \(\rho\) 因子彻底解决。
  • "平衡度 \(B\)"和迁移学习里的协变量偏移 coverage 条件神似——把多任务鲁棒 MTL 与单源/单目标 transfer 的 covariate shift 分析对接起来,未来可借鉴大量 covariate shift 工具。
  • "安全 + 自适应"这种单一估计器双速率结构(无需事先知道是否该迁移),是个非常 reusable 的范式,可以迁移到联邦学习、个性化推荐等"个体异质 + 群体可共享"的统计估计任务。

局限与展望

  • 理论结果仍假设 \(\|\bm\Sigma_j\|_{\mathrm{op}}\le 1\) 的上界,在重尾或对抗性设计下需要额外条件。
  • 实验规模较小(\(d\le 561\)),高维 deep learning 风格的 over-parameterized 场景下"平衡度"的实测值与估计稳定性都未充分检验。
  • \(B\) 的诊断估计 \(B_{\mathrm{emp}}\) 依赖伪逆和广义平方根,对 \(m\) 较小时数值不稳;论文承认这只是直觉性诊断而非估计器输入。
  • 对 GLM 链接函数要求曲率上下界 \(\alpha_\ell\le\psi''\le\alpha_u\),意味着 softmax / hinge 等非光滑情形仍要单独分析。

相关工作与启发

  • vs Duan & Wang (2023, ARMUL): 同样的 \(\ell_2\)-closeness + outlier 模型,但他们用 \(\ell_2\) 正则得出依赖 \(\rho^{-2}\) 的界;本文换矩阵加权正则消掉 \(\rho\),并把"安全率"显式写进定理;任务平均 MSE 在 favorable regime 下与他们的率结构一致。
  • vs Tian et al. (2025/2026, 低秩共享表示): 他们走"共享低秩子空间"的路线,需要不同的可识别性条件;本文走"\(\ell_2\)-closeness"路线,互为补充——同一组 \(m\) 任务在不同的结构假设下各自给出最优 transfer。
  • vs Bhattacharya et al. (2025, 半参多任务推断): 后续延伸 Duan-Wang 的框架到半参情形,但同样依赖 LBSM;本文的矩阵加权技术有望被嫁接进去,去除其谱下界假设。
  • vs Soare et al. (2014) / Wang et al. (2021) / Sessa et al. (2023): 无 outlier 的 \(\ell_2\)-closeness 老传统,本文统一覆盖(\(\varepsilon=0\) 是特例),且在病态设计下仍保证安全率。

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评