Defending against Backdoor Attacks via Module Switching¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ieCOL2YAqv
代码: https://github.com/weijun-l/module-switching-defense
领域: AI 安全 / 后门防御 / 模型融合
关键词: 后门攻击, 后门防御, 模型融合, 模块交换, 进化搜索, 后训练防御

一句话总结¶

针对"拿到来历不明的预训练模型、却没有训练数据和触发器先验"的后训练场景，本文提出模块交换防御（MSD）：把同结构的多个可疑模型按层/按模块互相交换权重，打断后门所依赖的"捷径通路"，在理论上证明其后门偏离度严格高于权重平均（WAG），并用进化搜索找出最优交换方案，仅需两个模型和 20–50 张干净验证样本即可显著降低攻击成功率。

研究背景与动机¶

领域现状：后门攻击通过往一小部分训练数据里注入触发器，让模型在干净样本上表现正常、在触发器出现时执行恶意行为。随着"后训练范式"普及（HuggingFace 模型复用、MoE 多专家、一次性联邦学习），用户直接采用来历不明的模型，训练数据和过程的不透明给了攻击者可乘之机。
现有痛点：传统防御大多假设拥有训练期资源——原始数据做过滤、可信辅助集做微调、优化过程做触发器反演。这些在后训练场景下都不可得。新兴的模型融合防御（如权重平均 WAG、DAM）虽然不需要这些资源，但有三大约束：①通常要 3–6 个同源模型才能有效压制后门，对防御者负担太重；②依赖可信标准/精选数据/代理模型等稀缺资源；③用受损辅助模型当参照可能引入新风险。
核心矛盾：防御者既要在模型数量少、无触发器先验、无训练数据的苛刻条件下压制后门，又要保住模型在下游任务的可用性——WAG 在模型变少时迅速退化，而且在"合谋攻击"（多个模型共享同一后门）下会退化成更少模型的表现。
本文目标：设计一个仅依赖架构信息 + 极少干净验证样本、对任务无关、能在两模型场景下生效、且对合谋攻击鲁棒的后训练后门防御。
核心 idea：后门是局部化的"捷径"——它利用虚假相关性、被编码在特定模块里，而不同的后门模型很少把后门植入到相同位置。因此跨模型交换对应模块（比如用模型 B 的某一层去替换模型 A 的同一层），就能打断这些脆弱的后门通路，用良性组件替换受损组件，从而中和漏洞，同时因为各模型共享预训练语义而保住可用性。

方法详解¶

整体框架¶

MSD 把"打断后门捷径"形式化为一个离散搜索问题：在给定架构上寻找一张模块来源索引表，规定每个模块槽位（如第 ℓ 层的 Q/K/V/O/I/P）应由哪个源模型来填充。整条流水线分四步：先在两层网络上做理论与实证奠基，证明交换比平均更能偏离后门；再用一组启发式打分规则刻画"好的交换策略"；用进化算法在巨大的离散策略空间里搜出高分策略；最后用特征距离选择从候选融合模型里挑出最不像后门的那一个部署。整个策略只依赖结构信息，因此任务无关、可跨同结构模型复用（如 RoBERTa 搜出的策略可直接用于 DeBERTa）。

flowchart LR
    A[多个可疑同结构模型 M1..MN] --> B[启发式打分规则<br/>层内/跨层/残差邻接+平衡+多样性]
    B --> C[进化搜索 F·s·<br/>得到模块来源索引表 T]
    C --> D[按 T 构造候选融合模型<br/>Mij, Mji ...]
    D --> E[嫌疑类检测 + 特征距离选择<br/>20-50 张干净样本]
    E --> F[输出最不对齐后门的候选模型]

关键设计¶

1. 两层网络上的理论奠基：交换比平均更偏离后门。 本文先在线性两层网络 \(f(x;\theta)=W_2\sigma(W_1x)\) 上把模型分解为共享语义项 \(S=W_2W_1\) 和后门分量 \(B^*=W_2\Delta W_1^*+\Delta W_2^* W_1+\epsilon^*\)（二阶项 \(\epsilon^*\) 量级很小可略）。定义权重平均模型 \(M_{wag}\) 与交换模型 \(M_{ij}=\{W_1+\Delta W_1^i,\ W_2+\Delta W_2^j\}\) 各自相对原始后门模型的输出 \(\ell_2\) 距离后，证明了核心结论 Theorem 1：WAG 的总后门偏离度被交换模型偏离度的均值上界，即 \(\|D_{wag,i}\|+\|D_{wag,j}\|\le \tfrac12(\|D_{ij,i}\|+\|D_{ij,j}\|+\|D_{ji,i}\|+\|D_{ji,j}\|)\)。Proposition 1 进一步保证：至少存在一个交换模型的后门偏离度严格超过 WAG。这两条结论既给出了"交换优于平均"的数学依据，也直接指明了后面"必须从候选里挑最不对齐那个"的选择动机。同时通过 \(L_{ij}+L_{ji}=L_i+L_j\) 的恒等式说明交换对一对模型的总效用损失等于两者之和，实测相对效用损失很低，证明可用性得以保留。

2. 引导搜索的启发式打分规则：刻画"什么是好的交换"。 把两层结论推广到深层 Transformer 后，关键假设是"打断后门的传播路径就能让它失活"。但深层网络结构复杂，本文据此定义五类规则来给一个交换策略打总分：前三类是邻接惩罚——惩罚后门可能借以传播的三种相邻关系，包括①层内邻接（同一层内 Q-K、K-V 等模块相邻）、②连续层邻接（相邻 Transformer 层之间）、③残差路径邻接（经跳连传播）；后两类是①平衡惩罚 \(B_{bal}\)，避免过度使用某一个源模型，②多样性奖励 \(R_{div}\)，鼓励各层用不同组合。这些规则合成适应度函数 \(F(s)=-\lambda_1 A_{intra}(s)-\lambda_2 A_{cons}(s)-\lambda_3 A_{res}(s)-\lambda_4 B_{bal}(s)+\lambda_5 R_{div}(s)\)（默认各 \(\lambda_k=1\)），\(F(s)\) 越高代表越能打断潜在后门路径。妙处在于：打分完全不需要训练或验证模型，纯靠结构信息算出，这正是它任务无关、可跨模型复用的根源。

3. 进化模块交换搜索：在巨大离散空间里找最优策略。 把搜索视为一个离散 NAS 问题，策略 \(s:\{1,\dots,L\}\times M\to\{1,\dots,N\}\) 给每个（层，模块）分配一个源模型索引，\(M=\{Q,K,V,O,I,P\}\)。由于 \(F(s)\) 在大离散空间上不可微，采用改造过的老化正则进化算法（aging regularized evolution）：通过随机初始化种群、锦标赛选择父代、变异生成子代、再按适应度排序截断种群来迭代。两处关键改动是——①适应度直接用启发式 \(F\) 计算，无需训练/验证；②用"丢弃低分策略"替代原本的老化正则。搜索在单颗 i9 CPU 上跑 200 万代，两模型 2.6 小时、四模型 4.3 小时，每种架构只需搜一次即可重复使用。

4. 嫌疑类检测 + 特征距离选择：无需穷举木马检测就挑出最稳候选。 由 Theorem 1/Proposition 1 可知候选池里平均优于 WAG、且必有一个严格优于 WAG，因此最后一步是把那个"最不对齐后门"的候选选出来。先做嫌疑类检测：对每个模型和每个候选类 \(c\)，优化一个随机输入使其被预测为 \(c\)，得到 dummy 的 [CLS] 特征 \(z^{dum}_{m,c}\)，累加它与少量非 \(c\) 干净样本特征的平均余弦距离 \(S(c)=\sum_m \mathrm{avg}(1-\cos(z^{dum}_{m,c}, z^{clean}_{m,\neg c}))\)，得分最高的类 \(c^*\) 即嫌疑目标类，并取 WAG 在该类的 dummy 特征 \(z^*\) 作为固定参照。再做候选选择：对每个交换候选 \(m\) 计算 \(d(m)=\mathrm{avg}(1-\cos(z^*, f_m(x)))\)，选距离最大（最不像后门）的 \(m^*\) 部署。整个选择只用每类 20–50 张干净样本、不到一分钟，且对 CNN 改用最后卷积层的全局平均池化特征即可同样适用。

实验关键数据¶

主实验表格（文本 / 视觉，两模型融合，ASR↓）¶

场景	数据/模型	WAG	TIES	DARE	Ours (MSD)
BadNet+InsertSent	SST-2 / RoBERTa-large	31.9	52.9	47.1	22.0
BadNet+LWS（更隐蔽）	SST-2 / RoBERTa-large	62.2	77.1	61.4	40.4
Benign+BadNet	SST-2 / RoBERTa-large	39.3	69.2	43.2	12.2
BadNet+WaNet	CIFAR-10 / ViT	12.2	11.3	46.7	11.4
BadNet+PhysicalBA	CIFAR-10 / ViT	39.6	38.9	72.2	18.5

CACC（干净准确率）在所有场景下与基线持平（文本 ~96%、视觉 ~98.7%），说明压后门的同时几乎不损可用性。BadNet+LWS 比基线低 21% 以上；Benign+BadNet 比 WAG 低 27.1%；视觉 BadNet+PhysicalBA 比所有基线至少低 20.4%。

消融实验表格¶

消融维度	设置	结论
启发式规则	去掉层内/连续层/残差任一规则	性能普遍下降，三类规则互补
早停 vs 不早停	进化搜索	不早停得分更高，ASR 再降 27.2%（残差违规更少）
跨架构泛化	RoBERTa→BERT→DeBERTa-v3 复用同一策略	一致优于 WAG，零重搜
跨架构族	ResNet-18/50（CNN）	ASR 降幅与 WAG 相当或更优，可用性持平
干净样本量	50→20 张/类	仍能选出低 ASR 候选
投毒率	20% / 10% / 1%	各档均低于 WAG

关键发现¶

更少模型更强防御：仅两个模型就显著优于 WAG，缓解了 WAG"要 3–6 个同源模型"的负担。
抗合谋攻击：当多个模型共享同一后门时 WAG 退化成更少模型表现，而 MSD 通过策略性打断重复捷径仍然有效（Table 13）。
结构性广泛扰动：三个不同随机种子搜出的策略仅 10/144（6.94%）模块位置重合，说明 MSD 不依赖少数关键层，而是诱导广泛的结构扰动，因此可迁移可复用。
抗自适应攻击：即便攻击者知道某一交换策略并据此只重训那些模块，换用另一随机种子的策略仍然有效；面对更复杂的 Adaptive-Patch 后门，借助基于可迁移性的策略也能保持强防御。
适应度分数与防御性能正相关：不早停得到的高分策略对应更低 ASR，作者把改进归因于"更少的残差规则违规"，从而更有效地打断细微的虚假相关。
嫌疑类检测多数命中：选择步骤大多能正确挑出表现最好的候选；个别情形下未选中候选更优，但所选候选仍与最优替代及 WAG 基线相当。

三模型 / 多模型场景¶

当有三个后门模型可用时，WAG 已经较强，但 MSD 仍能进一步把平均 ASR 压到 20% 以下（Table 12）。这说明模块交换的优势不仅体现在两模型这一最苛刻设置，在模型更多、信息更冗余时同样能榨出额外的鲁棒性增益，且无需为更多模型重新设计流程——同一套结构驱动的搜索范式自然扩展。

亮点与洞察¶

"交换"而非"平均"的视角转变：把后门当成局部捷径，用模块交换"换掉受损零件"，比 WAG 把所有权重糊在一起更精准地破坏后门通路，且有 Theorem 1/Proposition 1 的严格上界支撑。
打分与训练解耦：适应度纯靠架构邻接规则计算，搜索一次就能跨同结构模型复用，把昂贵的"训练-验证"循环从搜索里彻底剥离，这是它实用性的核心。
极低防御者门槛：白盒访问 + 每类 20–50 张干净样本、无触发器/无投毒数据先验，贴合真实后训练场景。
正视合谋这一被忽视的威胁面：明确指出 WAG 在共享后门下退化，并给出更鲁棒的替代方案。

局限与展望¶

依赖同结构、同任务/域的多模型：方法要求拿到至少两个结构相同、来自相关任务/域的可疑模型，异构结构无法直接交换。
聚焦数据投毒类后门：主要针对数据投毒攻击，对直接改权重的权重投毒攻击未充分覆盖。
嫌疑类检测的可靠性：选择步骤依赖 [CLS]/池化特征的余弦距离启发式，在更复杂或多目标后门下的稳健性有待进一步验证（论文也承认存在个别未选中候选反而更优的情形）。
搜索成本：虽是一次性，但 200 万代进化搜索仍需数小时 CPU 时间，模型数增多时成本上升。

评分¶

新颖性: ⭐⭐⭐⭐ — "模块交换替代权重平均"视角新颖，并配有两层网络上的严格偏离度上界证明，理论与方法自洽。
实验充分度: ⭐⭐⭐⭐ — 覆盖文本/视觉、Transformer/CNN、两/三/多模型、合谋与自适应攻击、投毒率与样本量消融，较为全面。
写作质量: ⭐⭐⭐⭐ — 从两层理论到深层流水线层层递进，图示（捷径打断、邻接类型、搜索算法）清晰。
价值: ⭐⭐⭐⭐ — 贴合后训练真实约束（少模型、无触发器先验、少干净数据），并填补了合谋后门这一被忽视的威胁面，实用价值高。