Multi-task Linear Regression without Eigenvalue Lower Bounds: Adaptivity, Robustness and Safety¶

会议: ICML 2026
arXiv: 2605.17126
代码: https://github.com/seokjinkim0428/Multi-task-Linear-Regression
领域: 统计学习理论 / 多任务学习 / 鲁棒回归
关键词: 多任务线性回归、矩阵加权正则、最小特征值、平衡度、离群任务、安全性保证

一句话总结¶

本文提出一种以 \(\|\theta_j-\beta\|_{\bm\Sigma_j}\)（矩阵加权范数）为正则项的鲁棒多任务线性回归估计器，用一个相对的"平衡度常数" \(B\) 取代了既往工作中刚硬的"每个任务二阶矩最小特征值 \(\Omega(1)\)"假设，在病态/低秩/带离群任务的高维场景下同时给出最小最大率（minimax）、自适应、和回退到独立任务学习（ITL）的安全保证。

研究背景与动机¶

领域现状：多任务学习里"少数离群任务 + 多数相关任务"的鲁棒线性回归框架以 Duan & Wang (2023) 的 ARMUL 为代表：通过共享中心参数 \(\beta\) 和 \(\ell_2\) 距离正则 \(\lambda\|\theta_j-\beta\|_2\) 联合估计 \(m\) 个任务的参数，在不知 outlier 比例 \(\varepsilon\) 和相似半径 \(\delta\) 的情况下自适应聚合。

现有痛点：所有这条线的理论保证（Duan & Wang 2023，Tian 等 2025/2026）都依赖 Lower Boundedness of Second Moments (LBSM)：要求每个任务的经验二阶矩满足 \(\rho \mathbf{I}_d \preceq \bm\Sigma_j \preceq L\mathbf{I}_d\) 且 \(\rho=\Omega(1)\)。其上界 \(\rho^{-2}\cdot(d/(mn)+\min(L^4\delta^2/\rho^2,d/n)+\varepsilon^2 d/n)\) 在 \(\rho\) 很小（高维球面均匀分布 \(\rho\asymp 1/d\)、特征谱快速衰减、线性 bandit 自适应采集等）的现实场景下直接退化为 vacuous。

核心矛盾：LBSM 是为了在"Euclidean 参数误差"度量下保证可识别性，但对 prediction MSE 而言，最弱观测的方向本来就不该被强力惩罚——单任务最小二乘的预测率 \(\tilde{\mathcal O}(d/n)\) 根本不要求条件数有界。换言之，LBSM 是参数误差视角的需求，而非预测误差视角的需求。

本文目标：分解为三个子问题——(i) 能否在没有 \(\rho=\Omega(1)\) 的情况下证明多任务转移收益？(ii) 在没有相似性结构时，能否保证自动退化到 ITL 的安全速率？(iii) 替代 LBSM 的"最小条件"应该长什么样？

切入角度：作者注意到 \(\|\theta_j-\beta\|_{\bm\Sigma_j}=\|\mathbf X_j(\theta_j-\beta)\|_2/\sqrt{n_j}\) 衡量的是预测空间的不一致，而非参数空间。换言之，把正则放在"白化坐标"\(\bm\Sigma_j^{1/2}\theta\) 里，未观测方向自然不会被罚到。问题就剩下"如何在白化后还能让多任务聚合得到信息共享"——这要求各任务的二阶矩在某种平均意义下相互可比。

核心 idea：用矩阵加权范数 \(\|\theta_j-\beta\|_{\bm\Sigma_j}\) 替换 \(\ell_2\) 正则，并引入一个一侧、平均型的"平衡度"假设 \(\bm\Sigma_j\preceq B\cdot\bm\Sigma_{\mathbf S}\)（每个任务的二阶矩被内点任务平均二阶矩控制），用 \(B\) 取代 \(\rho^{-1}\) 的角色。

方法详解¶

整体框架¶

设 \(m\) 个任务，每个任务有 \(n\) 个样本 \((x_{ji},y_{ji})\) 服从线性模型 \(y_{ji}=x_{ji}^\top\theta_j^\star+\varepsilon_{ji}\)，未知参数中 \(|\mathbf S|/m\ge 1-\varepsilon\) 个内点参数落在以 \(\theta^\star\) 为中心半径 \(\delta\) 的 \(\ell_2\) 球内，剩下的是任意 outlier；\(\varepsilon,\delta,\mathbf S\) 都未知。估计器 MTLR 把所有任务的损失 + 中心 \(\beta\) 写成一个联合凸优化，正则项用每个任务自己的经验二阶矩 \(\bm\Sigma_j=\mathbf X_j^\top\mathbf X_j/n\) 加权。求解后只看预测 MSE \(\mathcal E^{\mathrm{in}}_j=\|\hat\theta_j-\theta_j^\star\|_{\bm\Sigma_j}^2\)。

关键设计¶

矩阵加权正则的联合凸损失:
- 功能：用一个对每个任务"局部白化"的正则替代 ARMUL 的 \(\ell_2\) 正则，把对最小特征值的依赖从分析里剔除。
- 核心思路：损失 \(\mathcal L(\Theta)=\sum_{j=1}^{m} w_j\big(f_j(\theta_j)+\lambda_j\|\theta_j-\beta\|_{\bm\Sigma_j}\big)\)，其中 \(f_j(\theta)=\|\mathbf Y_j-\mathbf X_j\theta\|_2^2/(2n_j)\)，\(\|\theta_j-\beta\|_{\bm\Sigma_j}=\|\mathbf X_j(\theta_j-\beta)\|_2/\sqrt n\)。它衡量的是"\(\theta_j\) 和 \(\beta\) 在任务 \(j\) 自己的设计矩阵下的预测差"——若某方向 \(\mathbf X_j\) 几乎没看到，那这个方向的偏差就不被罚。等价地这是按 \(\bm\Sigma_j^{1/2}\) 白化后的 \(\ell_2\) 正则。推荐 \(\lambda_j\asymp\sqrt{d/n_j}\)，重参 \(v_j=\theta_j-\beta\) 后整个目标是联合凸的，作者用 L-BFGS-B 直接求解。
- 设计动机：要既能在好任务间共享信息，又能让弱观测方向"自动消音"。Euclidean 正则同等对待强弱方向，会把那些独立任务本来就识别不了的方向也强行往 \(\beta\) 拉，进而把 \(\rho^{-2}\) 的因子写进保证里；矩阵加权正则则只在被实际观测到的方向上聚合，从根本上断掉 \(\rho\) 依赖。
平衡度常数 \(B\) 替代 LBSM:
- 功能：用一个"相对而非绝对"的谱条件刻画"任务间几何相容性"，作为转移收益生效的最弱条件。
- 核心思路：Assumption 1 要求存在 \(B\in[1,\infty]\) 使 \(\bm\Sigma_j\preceq B\cdot \bm\Sigma_{\mathbf S}\) 对所有 \(j\) 成立，其中 \(\bm\Sigma_{\mathbf S}=|\mathbf S|^{-1}\sum_{j\in\mathbf S}\bm\Sigma_j\) 是内点平均。它只是单边上界、且与"平均"而非"任意一对"比较，明确允许各 \(\bm\Sigma_j\) 秩亏 / 谱衰减。LBSM 是其特例：若 \(\rho\mathbf I\preceq\bm\Sigma_j\preceq L\mathbf I\)，则 \(B=L/\rho\)。文中给出三个例子：LBSM 下 \(B=L/\rho\)；两两可比下 \(B=B'\)；低秩双群体（一组任务 \(\bm\Sigma=\mathbf I\)、另一组 \(=\mathbf 0\)）下 \(B=|\mathbf S|/|\mathbf S\cap\mathbf I|\)。再配合 covariate concentration \(\nu_j\)，可把经验 \(B\) 平稳过渡到 population 版本 \(\bar B\)。
- 设计动机：LBSM 是"绝对谱下界"，在高维或自适应采集下被现实粉碎。一个相对的"任务间几何相容性"才是多任务能不能转移的本质——若所有内点任务的二阶矩落在差不多的方向上，平均矩 \(\bm\Sigma_{\mathbf S}\) 就是个好的"共同骨架"，每个 \(\bm\Sigma_j\) 都被它控制就说明可共享信息。\(B=\infty\) 时（譬如内点任务的信息方向完全不交叠）协调本来就没必要，算法应该乖乖回到 ITL。
两层"安全 + 自适应"率结构:
- 功能：让单一估计器在"任务相关 + 几何相容"时享受多任务收益，在不利时无需切换自动回退到 ITL 速率。
- 核心思路：Theorem 2 同时给出两条同概率成立的界。Safety: 对任意 \(B,\varepsilon,\delta\)，\(\mathcal E^{\mathrm{in}}_j(\hat\theta_j)\lesssim q^2(d/n)\zeta\)，匹配独立任务的 minimax 率，\(\zeta=\log(16m/\kappa)\)。Adaptivity: 若 Assumption 1 成立且 \(B\lesssim\min(1/\varepsilon,m)\)，则对内点 \(j\in\mathbf S\)，\(\mathcal E^{\mathrm{in}}_j(\hat\theta_j)\lesssim (Bd/(mn)+\min(B\delta^2,q^2d/n)+q^2B^2\varepsilon^2 d/n)\zeta\)。任务平均 MSE 在好 regime 下达到 minimax 最优（可由正交设计子模型证下界）。Theorem 3 通过经验-总体可比常数 \(\nu_j\) 把上述在样本内的界搬到 population MSE，并通过域投影给出第二层安全保证 \(\mathcal E_j(\hat\theta_j^\xi)\lesssim \mathcal E^{\mathrm{in}}_j(\hat\theta_j)+\xi^2 U_j^2/n\)。Theorem 4 把整套结论搬到 GLM（链接函数曲率有界即可），结构完全镜像线性情形。
- 设计动机：实际部署里，使用者不知道 \(B\)、不知道 \(\varepsilon\)、也不知道 \(\delta\)。一个理论保证如果要求使用者先选对超参/算法，就没什么实用价值。安全率让算法"最坏也不亏"，自适应率让算法"好的时候捡到便宜"，二者都不需要先验信息。

损失函数 / 训练策略¶

线性模型用平方损失，GLM 用负对数似然 \(f_j(\theta)=\frac{1}{n}\sum_i(\psi(x_{ji}^\top\theta)-y_{ji}x_{ji}^\top\theta)\)；\(\lambda_j\) 取 \(q\sqrt{d\zeta/n}\)，\(q\) 由 5-fold CV 在 \(\{0.05,0.10,\dots,0.50\}\) 调；GLM 必须把参数限制在 \(\mathbf B(0,\xi)\) 内以保证链接函数曲率在 \([\alpha_\ell,\alpha_u]\)。

实验关键数据¶

主实验¶

合成数据基准 \(n=100,m=30,d=30\)，协方差形状 \(\mathbf x\) 单位球加 \(k^{-\alpha}\) 坐标缩放，30 次 Monte Carlo。对比 DP（pooling）、ITL（独立）、ARMUL（Duan-Wang 2023）。下表为相关性扫描（\(B\equiv 1\)，\(\varepsilon=0.1\)，\(\alpha=1\)）下的全任务 MSE。

\(\delta\)	本文	ARMUL	DP	ITL
0.2	0.0138	0.041+	>0.04	>0.04
0.8	~0.020	0.041+	>0.04	>0.04
3.2	0.0259	0.041+	>0.04	>0.04

HAR 真实数据（30 受试者多任务 logistic regression，二分类站立 vs 其他，\(d=561\)，子任务 \(n\approx 343\)，不做 PCA），20% 测试，30 次随机划分。

方法	平均错误率 (%)	SD
本文	1.25	0.32
ITL	4.67	0.51
DP	7.61	0.46
ARMUL	(论文 Table 1 截断处未给完整数字)	—

消融实验¶

论文用四组单变量扫描代替传统 ablation，每次只调一个量来对应理论里的一个因子。

扫描变量	取值范围	关键发现
相似度 \(\delta\)	0.2-3.2	本文全程领先 ITL/ARMUL，\(\delta\) 小时优势最大
outlier 比例 \(\varepsilon\)	0.05-0.4	全任务 MSE 平滑从 0.006 升到 0.046，无突变；outlier 任务上 ITL 最强（理所当然）
特征谱衰减 \(\alpha\)	0-2.0	本文在 \(\alpha=1.5,2.0\)（高度病态）下仍主导，验证 LBSM 不再必要
平衡度 \(\bar B\)	5,10,15,20	\(\bar B=5\) 时本文最优；\(\bar B\) 增大后 ITL 反超，本文自动靠拢 ITL 不出现灾难式负迁移

关键发现¶

在 \(\alpha=2\) 的强病态规面下，ARMUL 因 \(\rho\asymp d^{-2}\) 导致界 vacuous，本文反而稳健胜出——这正是理论"剔除 \(\rho^{-2}\)"的实证体现。
平衡度扫描里看到了清晰的"双 regime 切换"：\(\bar B\) 小时本文吃多任务红利，\(\bar B\) 大时本文与 ITL 几乎重合——也就是 Theorem 2 的 safety 部分在数值上完全兑现。
HAR 上不做 PCA 的 logistic 回归把 ARMUL 的标志性预处理拿掉，本文错误率 1.25% 比 ITL 的 4.67% 低近 4 倍，说明矩阵加权正则在真实低 SNR 高维场景仍有效。

亮点与洞察¶

把"参数空间正则"换成"预测空间正则"是个 minimal 修改，工程上只是改正则项的一行公式，但理论上把困扰这条线多年的 \(\rho\) 因子彻底解决。
"平衡度 \(B\)"和迁移学习里的协变量偏移 coverage 条件神似——把多任务鲁棒 MTL 与单源/单目标 transfer 的 covariate shift 分析对接起来，未来可借鉴大量 covariate shift 工具。
"安全 + 自适应"这种单一估计器双速率结构（无需事先知道是否该迁移），是个非常 reusable 的范式，可以迁移到联邦学习、个性化推荐等"个体异质 + 群体可共享"的统计估计任务。

局限与展望¶

理论结果仍假设 \(\|\bm\Sigma_j\|_{\mathrm{op}}\le 1\) 的上界，在重尾或对抗性设计下需要额外条件。
实验规模较小（\(d\le 561\)），高维 deep learning 风格的 over-parameterized 场景下"平衡度"的实测值与估计稳定性都未充分检验。
\(B\) 的诊断估计 \(B_{\mathrm{emp}}\) 依赖伪逆和广义平方根，对 \(m\) 较小时数值不稳；论文承认这只是直觉性诊断而非估计器输入。
对 GLM 链接函数要求曲率上下界 \(\alpha_\ell\le\psi''\le\alpha_u\)，意味着 softmax / hinge 等非光滑情形仍要单独分析。

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评