Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer with Epsilon-Scheduling¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=aIBFTh2ThF
代码: https://github.com/ngnawejonas/EpsilonScheduling
领域: 对抗鲁棒性 / 鲁棒微调 / 迁移学习
关键词: 鲁棒微调, 对抗训练, 次优迁移, 扰动调度, 期望鲁棒性
一句话总结¶
本文发现从非鲁棒预训练模型做鲁棒微调(RFT)时,哪怕用很小的对抗扰动也会出现"次优迁移"——干净精度大幅低于普通微调甚至接近随机;作者把根因归到"任务适应被延迟",提出 Epsilon-Scheduling(训练扰动强度先 0、再线性爬升到目标值的两段铰链调度)来先适应任务再上鲁棒约束,并提出 期望鲁棒性指标更全面地刻画精度-鲁棒性权衡,在 6 个骨干 × 5 个数据集上一致改善。
研究背景与动机¶
领域现状:微调预训练骨干是机器学习的标准范式。在安全敏感场景里还要求模型抗对抗样本,于是把对抗训练(AT, Madry et al. 2018)嵌进微调,得到鲁棒微调(RFT)。RFT 要同时做两件事:适应下游任务 + 获得鲁棒性。
现有痛点:几乎所有 RFT 工作(TWINS、AutoLoRA、RoLi)都假设有一个鲁棒预训练骨干可用。但现实里开源仓库里绝大多数预训练模型都是非鲁棒的,鲁棒预训练代价高、很少见。更糟的是,前人(Liu et al. 2023; Hua et al. 2024)甚至直接断言"鲁棒预训练是下游鲁棒的必要前提"——也就是说从非鲁棒骨干出发被认为是走不通的。
核心矛盾:本文系统验证了从非鲁棒骨干做 RFT 会发生一个被命名为"次优迁移(suboptimal transfer)"的现象:用固定目标扰动 \(\varepsilon_g\) 做对抗训练时,即使 \(\varepsilon_g\) 很小(如 \(1/255\)),干净精度也会比普通微调掉最多 14%;在常用的 \(4/255\) 下最小也掉 10%;难任务(如 Aircraft)甚至掉到 5% 以下,等于迁移失败。问题不在"鲁棒目标本身坏",而在训练动态:鲁棒目标在训练早期就扭曲了任务相关特征,把任务适应硬生生推迟到后期,留给适应的有效 epoch 变少,最终欠拟合任务。
本文目标:让非鲁棒骨干也能成功 RFT——既不牺牲对任务的适应,又拿到目标鲁棒性。
切入角度:作者观测到一个关键现象——普通微调里验证精度第一个 epoch 就开始上升,而 RFT 里任务适应被推迟到很晚(Aircraft 上要到 30+ epoch 才动),而且延迟时长与次优迁移严重程度的相关性高达 90%+。既然延迟是病根,那就别让模型一上来就硬扛强扰动。
核心 idea:把训练扰动强度做成一条课程化的时间表——先 0 扰动让模型快速适应任务,再线性爬升到目标 \(\varepsilon_g\),用"先学会任务、再变鲁棒"代替"全程死扛目标扰动"。
方法详解¶
整体框架¶
本文其实是"一诊断、一方法、一指标"三件套。诊断部分先用大量实验把"次优迁移 = 任务适应被延迟"这件事钉死;方法部分提出 Epsilon-Scheduling,把固定扰动 \(\varepsilon_g\) 换成随 epoch 变化的 \(\varepsilon(t)=\alpha(t)\,\varepsilon_g\);评估部分提出期望鲁棒性,把"只在目标阈值看一眼"扩展成"在 \([0,\varepsilon_g]\) 全区间取期望"。
训练流程本身是一条清晰的三阶段课程:标准微调热身 → 扰动线性爬升 → 在目标扰动下稳定收尾。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["非鲁棒预训练骨干<br/>+ 随机分类头"] --> B["诊断:次优迁移<br/>固定 εg 导致任务适应延迟"]
B --> C["Epsilon-Scheduling<br/>ε(t)=α(t)·εg 两段铰链调度"]
C -->|"t < T1:ε=0"| D["阶段1 任务适应<br/>等同标准微调"]
C -->|"T1≤t<T2:线性爬升"| E["阶段2 课程过渡<br/>扰动 0→εg"]
C -->|"t ≥ T2:ε=εg"| F["阶段3 鲁棒收尾<br/>稳定在目标扰动"]
D --> G["期望鲁棒性评估<br/>在 [0,εg] 全区间取期望"]
E --> G
F --> G
关键设计¶
1. 次优迁移诊断:把"鲁棒微调变差"归因到任务适应延迟
这一节解决的是"为什么从非鲁棒骨干做 RFT 会崩"。基线 RFT-fix 全程用固定扰动 \(\varepsilon_g\) 最小化对抗风险
作者在两个非鲁棒骨干(SWIN、ViT)× 五个数据集上扫 \(\varepsilon_g\in[1/255,9/255]\),发现干净精度随 \(\varepsilon_g\) 增大单调下滑,且严重程度高度依赖"骨干 × 任务"的交互(任务是更主导的因素)。真正的洞察在训练曲线上:普通微调(\(\varepsilon_g=0\))第一个 epoch 验证精度就起飞,而 RFT-fix 把"任务适应起点"(验证精度首次超过 5% 的 epoch)推迟得很晚——\(4/255\) 下 Caltech 约 epoch 10、Cars 约 25、Aircraft 30+。扰动越强、延迟越久、次优迁移越严重,延迟时长与严重程度相关性 >90%。换句话说,鲁棒目标在早期扭曲了任务相关特征,挤占了本该用来适应任务的有效训练窗口。这个"延迟"机制此前没人报告过,正是后面方法的立足点。
2. Epsilon-Scheduling:两段铰链线性调度,先适应任务再上鲁棒
既然病根是早期硬扛强扰动导致适应被延迟,那就让扰动强度随训练逐步加上去。本文不再固定 \(\varepsilon_g\),而是让它按 epoch \(t\) 走一条比例曲线 \(\varepsilon(t)=\alpha(t)\,\varepsilon_g\),其中
含义很直白:前 \(T_1\) 个 epoch 纯做标准微调(零扰动)让模型先把任务学会,再在 \([T_1,T_2]\) 把扰动从 0 线性拉到 \(\varepsilon_g\),最后从 \(T_2\) 起稳定在目标扰动收尾。\(T_1\) 是"适应期"长度,\(T_2\) 控制过渡陡峭程度。这条曲线严格泛化了前人的 linear warmup(取 \(T_1=0\) 即退化为 warmup,取 \(T_1=T_2=0\) 即退化为 RFT-fix)。从迁移学习视角看,它就是一条课程学习:先喂"容易样本"(弱扰动)再喂"难样本"(强扰动)。\(T_1,T_2\) 不需逐任务调——作者用最严重的次优迁移实例(SWIN-Aircraft)测出适应期约 epoch 11、平均延迟约 epoch 37,于是固定 \(T_1=12\)(约 25% 总 epoch)、\(T_2=37\)(约 75%),就在 6×5 全配置上通用。
3. 期望鲁棒性:用全区间积分代替单点鲁棒精度
标准评估只在目标阈值 \(\varepsilon_g\) 看一次鲁棒精度,会掩盖中间扰动强度下的表现,也无法刻画"精度-鲁棒性权衡"的形状。本文提出期望鲁棒性,把准确率对 \([0,\varepsilon_g]\) 上均匀分布的扰动取期望:
即准确率-扰动曲线下面积除以 \(\varepsilon_g\),用梯形法数值积分即可。它对应一个更现实的威胁模型:输入可能被扰动、也可能没被扰动,扰动幅度在 \([0,\varepsilon_g]\) 内随机;干净精度(扰动恒为 0)和最坏情况鲁棒精度(扰动恒为 \(\varepsilon_g\))都只是它的两个极端特例。这个指标的价值在于:当两个模型在 \(\varepsilon_g\) 处鲁棒精度相近、但干净精度差很多时,期望鲁棒性能把中间区间的优势量化出来,给模型选择提供依据——也正是 Epsilon-Scheduling 即便最坏情况鲁棒精度持平或略低时仍胜出的原因。
损失函数 / 训练策略¶
训练 50 epoch,对抗样本用 APGD(训练 7 步、评估 10 步)配交叉熵损失生成,无需手调步长。评估在 \(\ell_\infty\) 范数下用 \(\varepsilon_g=4/255\)(中等)和 \(8/255\)(高强度)两档,报告干净精度、APGD 鲁棒精度(adv.)和区间期望鲁棒精度(E. adv.)。由于对抗精度过拟合可忽略,直接取训练结束时的模型。
实验关键数据¶
主实验¶
六个非鲁棒骨干(SWIN/ViT/ConvNext/ResNet-50/CLIP-ViT/CLIP-ConvNext)× 五个细粒度数据集。下表摘 \(\varepsilon_g=4/255\) 下 fix vs scheduler 的对比(Clean / Adv. / E.adv.,单位 %):
| 配置 | 设置 | Clean | Adv. | E. adv. |
|---|---|---|---|---|
| ViT-Cars | fix | 12.70 | 4.90 | 8.20 |
| ViT-Cars | sched | 73.40 | 19.10 | 46.71 |
| ViT-Aircraft | fix | 6.40 | 2.80 | 4.48 |
| ViT-Aircraft | sched | 58.60 | 13.20 | 34.95 |
| ClipViT-Cars | fix | 4.90 | 3.00 | 3.74 |
| ClipViT-Cars | sched | 86.70 | 58.60 | 75.01 |
| SWIN-Cars | fix | 60.20 | 29.70 | 44.74 |
| SWIN-Cars | sched | 84.70 | 43.20 | 66.41 |
在中等扰动下,scheduler 在干净精度上往往是数量级的改善(ViT-Cars 12.7%→73.4%、ClipViT-Cars 4.9%→86.7%),且 adv. 与 E. adv. 同步提升——即它不是用鲁棒性换干净精度,而是两头都赢。
高强度扰动(\(\varepsilon_g=8/255\))¶
| 配置 | 设置 | Clean | Adv. | E. adv. |
|---|---|---|---|---|
| SWIN-Aircraft | fix | 4.20 | 2.70 | 3.47 |
| SWIN-Aircraft | sched | 69.20 | 22.40 | 45.12 |
| CNX-Cub | fix | 5.02 | 2.28 | 3.56 |
| CNX-Cub | sched | 80.69 | 24.28 | 53.07 |
| R50-Cars | fix | 1.50 | 1.20 | 1.34 |
| R50-Cars | sched | 57.10 | 8.50 | 29.56 |
\(8/255\) 下 RFT-fix 在多数难任务上整体失败(干净精度个位数),而 scheduler 把它救回到 50%~80%,期望鲁棒性也大幅领先。
关键发现¶
- 任务是比骨干更主导的难度因素:易任务(Caltech)掉点小、难任务(Aircraft,类间高度相似)掉点严重;且"任务难度"是模型-数据交互的产物(Dogs 对 SWIN 比 Cub 易、对 ViT 反而更难)。
- 延迟与严重程度相关性 >90%:任务适应起点越晚,次优迁移越重,这是把方法对准"延迟"的直接证据。
- scheduler 即使最坏情况鲁棒精度持平/略低也更优:R50-Caltech 上 \(4/255\) 时 fix 的 adv. 40.0% 略高于 sched 的 34.7%,但 sched 干净精度 76.6% vs 67.5%、期望鲁棒性 55.7% vs 53.7% 反超——期望鲁棒性正是为捕捉这种权衡而设计。
- 超参可跨配置通用:\(T_1,T_2\) 由单个最差实例标定后在全 30 个配置上不再调整即生效。
亮点与洞察¶
- 把"鲁棒微调失败"从静态结论变成动态机制:前人只看终态精度低就断言"非鲁棒骨干不行",本文盯训练曲线发现是"任务适应被推迟",从而把不可能变成可解——洞察层面的贡献。
- 方法极简但有理论归属:Epsilon-Scheduling 只是一条两段折线,却严格泛化了 linear warmup 和 RFT-fix,等于把零散的 warmup 技巧统一进一个可解释的课程框架。
- 期望鲁棒性是可复用的评估工具:把"单点鲁棒精度"升级成"区间 AUC 期望",对任何研究精度-鲁棒性权衡的工作都能直接拿来用,且对应一个更现实的随机扰动威胁模型。
- 课程学习"先易后难"的思路被迁移到"先适应任务、再上对抗约束",这个映射可以推广到其他多目标冲突的微调场景(如鲁棒性 vs 公平性)。
局限与展望¶
- 调度形状固定为两段线性铰链,\(T_1,T_2\) 虽通用但由单一最差实例标定,未必对所有威胁模型/数据规模最优;自适应或样本级调度可能进一步提升但代价更高。
- 期望鲁棒性默认用均匀分布加权,作者也承认实际威胁模型的扰动分布可能非均匀(可换成其他分布甚至 Dirac 退化回干净/最坏精度),但论文未深入探讨非均匀情形。
- 实验集中在 \(\ell_\infty\) 范数、细粒度图像分类与 50-epoch 全量微调;对 \(\ell_2\)、检测/分割等任务、参数高效微调(LoRA 等)下是否成立尚待验证。
- 方法本质是"延后上强度",对训练总预算很短(epoch 很少)的场景,留给鲁棒收尾的窗口可能不够。
相关工作与启发¶
- vs TWINS / AutoLoRA / RoLi(鲁棒骨干 RFT):它们都假设有鲁棒预训练特征,AutoLoRA 还依赖更难扩展的 TRADES 损失;本文是首个针对非鲁棒骨干的 RFT 方法,直接挑战了"鲁棒预训练是必要前提"的共识。
- vs Linear Warmup / PGDLS(对抗训练里调扰动强度):前人多用于从零训练,且 warmup 在 ResNet 上收益有限、PGDLS 只在很大扰动(\(24/255\))才见效;本文聚焦迁移学习、严格泛化了 warmup,并用期望鲁棒性证明收益跨任务/架构一致。
- vs 标准对抗评估(单点鲁棒精度)/ average-case 鲁棒指标:单点评估掩盖中间扰动行为,average-case 多针对随机/自然扰动且不捕捉干净-最坏权衡;期望鲁棒性把"准确率随扰动递减"形式化为 \([0,\varepsilon_g]\) 上的积分期望,填补了二者之间的空白。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画非鲁棒骨干 RFT 的次优迁移,并把根因落到"任务适应延迟"这一前人未报告的机制。
- 实验充分度: ⭐⭐⭐⭐⭐ 6 骨干 × 5 数据集 × 2 扰动档全覆盖,附 AutoAttack 验证与延迟相关性分析。
- 写作质量: ⭐⭐⭐⭐ 诊断-方法-指标三段逻辑清晰,但核心方法本身较简单,部分篇幅靠现象描述支撑。
- 价值: ⭐⭐⭐⭐⭐ 把"非鲁棒骨干不能做鲁棒微调"的共识打开,方法极简可即插即用,期望鲁棒性指标也有独立复用价值。