跳转至

ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources

会议: NeurIPS 2025
arXiv: 2502.07862
代码: https://github.com/nesl/ADMN
领域: 多模态VLM / 模型压缩
关键词: multimodal, adaptive depth, LayerDrop, quality-of-information, dynamic compute budget, layer allocation, sensor corruption

一句话总结

提出 ADMN(Adaptive Depth Multimodal Network),通过两阶段训练——(1) Multimodal LayerDrop 微调使 backbone 适应任意层配置,(2) QoI感知控制器动态分配层预算给各模态——在严格计算约束下根据每个模态的信息质量(QoI)自适应分配层数,匹配全量模型精度同时减少 75% FLOPs 和 60% 延迟。

背景与动机

多模态系统部署在动态环境中面临双重挑战: 1. 计算资源变化:多租户、设备异构、热节流导致可用计算预算随时间变化,且需严格遵守(不能超过上限) 2. 输入质量变化:传感器损坏、天气变化等导致各模态的信号质量动态波动——被严重损坏的模态不应消耗与正常模态相同的计算资源

现有方法的局限:静态多模态网络无法适配变化的计算预算;现有动态网络(Early Exit、DynMM等)优化平均case效率但无法处理严格预算约束;且几乎所有方法都忽略了各模态QoI的影响。

核心问题

如何构建一个同时适应动态计算约束和动态输入质量的多模态网络——按计算预算总量控制总层数,并根据各模态QoI按需分配层?

方法详解

整体框架

两阶段训练:Stage 1 构建层自适应的多模态backbone,Stage 2 训练QoI感知控制器分配层预算。

关键设计

  1. Multimodal LayerDrop(Stage 1):

    • 先在 MAE 预训练阶段引入 LayerDrop(率0.2),使ViT backbone对缺失层具有鲁棒性
    • 再在多模态任务微调时保持 LayerDrop,使融合层和输出层适应各种backbone层配置
    • 全backbone Dropout:10%概率丢弃某模态backbone的全部层——模拟该模态完全不可用的极端情况
    • 结果:单套权重可在任意层预算下工作
  2. QoI感知控制器(Stage 2):

    • 轻量级架构:下采样输入→模态特定卷积→Transformer融合→MLP输出层分配logits
    • 腐蚀感知监督(ADMN):用额外的腐蚀预测loss \(\mathcal{L}_{corr}\) 显式教控制器注意模态QoI
    • 自编码器初始化(ADMN_AE):无腐蚀标注时,先用AE预训练控制器的感知层——重建目标迫使latent space按QoI聚类(t-SNE可视化验证)
    • 消融证明:纯task loss无法学到QoI感知分配
  3. 可微分层选择:

    • Gumbel-Softmax采样(温度1)+ Top-L离散化 + Straight-through estimator
    • 实现在总预算L层约束下对C个backbone层的可微分选择

损失函数 / 训练策略

Stage 1: Task loss + LayerDrop(0.2) + Full-backbone dropout(10%)。Stage 2: \(\mathcal{L}_{total} = \mathcal{L}_{model} + \mathcal{L}_{corr}\)(或AE初始化+\(\mathcal{L}_{model}\))。

实验关键数据

数据集 任务 方法 6层 8层 12层 16层 上界(24层)
GDTM(高斯噪声) 定位(cm↓) Naive Alloc 112.5 97.6 46.9 31.0 29.6
ADMN 51.4 39.0 33.1 30.3
ADMN_AE 53.6 38.4 33.5 29.4
GDTM(低光) 定位(cm↓) Naive Alloc 90.3 67.3 27.1 17.7 18.8
ADMN 49.5 23.9 18.0 17.3
MM-Fi 分类(↑) Naive Alloc 5.56% 12.96% 29.01% 42.90% 44.44%
ADMN 35.03% 39.25% 41.92% 43.31%
AVE 分类(↑) Naive Alloc 36.16% 46.89% 65.71% 67.95% 71.19%
ADMN 57.07% 62.95% 67.48% 66.60%

GDTM(Blur, 8层):ADMN定位误差~11cm,接近上界(9.4cm),而减少75% FLOPs + 60%延迟。

消融实验要点

  • LayerDrop阶段:MAE预训练+微调双阶段加LayerDrop效果最好(Fig 6)
  • QoI监督必要性:纯task loss控制器无法学到QoI感知(Table 5: task loss 46.2% vs ADMN 57.07%)
  • AE latent space:t-SNE证实AE自动将不同corruption级别聚类(Fig 5)
  • 全backbone dropout:必要,否则模型无法处理某模态完全缺失的极端情况
  • 三模态泛化:RGB+Depth+mmWave三模态实验验证通用性(Fig 7)
  • 不等计算模态:视觉backbone 3倍于audio的FLOPs场景下,ADMN正确分配(Table 4)
  • 6 seeds稳定性:标准差<5%,大预算更稳定

亮点

  • 双重自适应是核心创新——同时适应计算预算变化和输入质量变化,前所未有
  • LayerDrop从单模态文本Transformer扩展到多模态ViT是非平凡的工程贡献——需要全backbone dropout等特殊处理
  • ADMN_AE不需要任何QoI标注就能学到感知分配——实用价值极高
  • 控制器仅占总FLOPs ~1%,额外开销极小
  • 6 seeds × 3数据集 × 3/4层预算 × 3-4种corruption = 大规模消融实验

局限与展望

  • 每个层预算需单独训练控制器(通用控制器初步结果可行但待完善)
  • 批推理不兼容(不同样本有不同层配置,难以batch)
  • 可与Early Exit结合进一步提效
  • 仅在嵌入级融合架构上验证,数据级/late fusion待探索

与相关工作的对比

  • vs DynMM/AdaMML(模型选择): 这些方法选择预定义的专家模型;ADMN在单个模型内部做层级分配,更灵活
  • vs PrefixKV(同系列笔记): PrefixKV按层分配KV cache预算;ADMN按模态分配层预算——两者都是"自适应跨维度分配"
  • vs ASF(同系列笔记): ASF在统一规范空间融合传感器并估计可用性;ADMN通过层分配实现更细粒度的资源控制

启发与关联

  • 层分配的QoI感知思路可迁移到VLM:如低质量图像给视觉encoder少分配层,高质量文本给LLM多分配层
  • AE初始化的QoI聚类可用于自动检测传感器退化——不需要显式标注

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 双重自适应(计算+QoI)是全新问题定义和解决方案
  • 实验充分度: ⭐⭐⭐⭐⭐ 3数据集、3-4类corruption、6 seeds、大量消融+定性分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰、方法描述详尽、消融极为彻底
  • 价值: ⭐⭐⭐⭐⭐ 解决了多模态部署的实际双重约束问题,AE方案无需QoI标注