NeurIPS 2025 多模态 adaptive depth LayerDrop quality-of-information dynamic compute budget layer allocation sensor corruption

ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources¶

会议: NeurIPS 2025
arXiv: 2502.07862
代码: https://github.com/nesl/ADMN
领域: 多模态VLM / 模型压缩
关键词: multimodal, adaptive depth, LayerDrop, quality-of-information, dynamic compute budget, layer allocation, sensor corruption

一句话总结¶

提出 ADMN（Adaptive Depth Multimodal Network），通过两阶段训练——(1) Multimodal LayerDrop 微调使 backbone 适应任意层配置，(2) QoI感知控制器动态分配层预算给各模态——在严格计算约束下根据每个模态的信息质量(QoI)自适应分配层数，匹配全量模型精度同时减少 75% FLOPs 和 60% 延迟。

背景与动机¶

多模态系统部署在动态环境中面临双重挑战： 1. 计算资源变化：多租户、设备异构、热节流导致可用计算预算随时间变化，且需严格遵守（不能超过上限） 2. 输入质量变化：传感器损坏、天气变化等导致各模态的信号质量动态波动——被严重损坏的模态不应消耗与正常模态相同的计算资源

现有方法的局限：静态多模态网络无法适配变化的计算预算；现有动态网络（Early Exit、DynMM等）优化平均case效率但无法处理严格预算约束；且几乎所有方法都忽略了各模态QoI的影响。

核心问题¶

如何构建一个同时适应动态计算约束和动态输入质量的多模态网络——按计算预算总量控制总层数，并根据各模态QoI按需分配层？

方法详解¶

整体框架¶

两阶段训练：Stage 1 构建层自适应的多模态backbone，Stage 2 训练QoI感知控制器分配层预算。

关键设计¶

Multimodal LayerDrop（Stage 1）:
- 先在 MAE 预训练阶段引入 LayerDrop（率0.2），使ViT backbone对缺失层具有鲁棒性
- 再在多模态任务微调时保持 LayerDrop，使融合层和输出层适应各种backbone层配置
- 全backbone Dropout：10%概率丢弃某模态backbone的全部层——模拟该模态完全不可用的极端情况
- 结果：单套权重可在任意层预算下工作
QoI感知控制器（Stage 2）:
- 轻量级架构：下采样输入→模态特定卷积→Transformer融合→MLP输出层分配logits
- 腐蚀感知监督（ADMN）：用额外的腐蚀预测loss \(\mathcal{L}_{corr}\) 显式教控制器注意模态QoI
- 自编码器初始化（ADMN_AE）：无腐蚀标注时，先用AE预训练控制器的感知层——重建目标迫使latent space按QoI聚类（t-SNE可视化验证）
- 消融证明：纯task loss无法学到QoI感知分配
可微分层选择:
- Gumbel-Softmax采样（温度1）+ Top-L离散化 + Straight-through estimator
- 实现在总预算L层约束下对C个backbone层的可微分选择

损失函数 / 训练策略¶

Stage 1: Task loss + LayerDrop(0.2) + Full-backbone dropout(10%)。Stage 2: \(\mathcal{L}_{total} = \mathcal{L}_{model} + \mathcal{L}_{corr}\)（或AE初始化+\(\mathcal{L}_{model}\)）。

实验关键数据¶

数据集	任务	方法	6层	8层	12层	16层	上界(24层)
GDTM(高斯噪声)	定位(cm↓)	Naive Alloc	112.5	97.6	46.9	31.0	29.6
		ADMN	51.4	39.0	33.1	30.3
		ADMN_AE	53.6	38.4	33.5	29.4
GDTM(低光)	定位(cm↓)	Naive Alloc	90.3	67.3	27.1	17.7	18.8
		ADMN	49.5	23.9	18.0	17.3
MM-Fi	分类(↑)	Naive Alloc	5.56%	12.96%	29.01%	42.90%	44.44%
		ADMN	35.03%	39.25%	41.92%	43.31%
AVE	分类(↑)	Naive Alloc	36.16%	46.89%	65.71%	67.95%	71.19%
		ADMN	57.07%	62.95%	67.48%	66.60%

GDTM(Blur, 8层)：ADMN定位误差~11cm，接近上界(9.4cm)，而减少75% FLOPs + 60%延迟。

消融实验要点¶

LayerDrop阶段：MAE预训练+微调双阶段加LayerDrop效果最好（Fig 6）
QoI监督必要性：纯task loss控制器无法学到QoI感知（Table 5: task loss 46.2% vs ADMN 57.07%）
AE latent space：t-SNE证实AE自动将不同corruption级别聚类（Fig 5）
全backbone dropout：必要，否则模型无法处理某模态完全缺失的极端情况
三模态泛化：RGB+Depth+mmWave三模态实验验证通用性（Fig 7）
不等计算模态：视觉backbone 3倍于audio的FLOPs场景下，ADMN正确分配（Table 4）
6 seeds稳定性：标准差<5%，大预算更稳定

亮点¶

双重自适应是核心创新——同时适应计算预算变化和输入质量变化，前所未有
LayerDrop从单模态文本Transformer扩展到多模态ViT是非平凡的工程贡献——需要全backbone dropout等特殊处理
ADMN_AE不需要任何QoI标注就能学到感知分配——实用价值极高
控制器仅占总FLOPs ~1%，额外开销极小
6 seeds × 3数据集 × 3/4层预算 × 3-4种corruption = 大规模消融实验

局限与展望¶

每个层预算需单独训练控制器（通用控制器初步结果可行但待完善）
批推理不兼容（不同样本有不同层配置，难以batch）
可与Early Exit结合进一步提效
仅在嵌入级融合架构上验证，数据级/late fusion待探索

与相关工作的对比¶

vs DynMM/AdaMML（模型选择）: 这些方法选择预定义的专家模型；ADMN在单个模型内部做层级分配，更灵活
vs PrefixKV（同系列笔记）: PrefixKV按层分配KV cache预算；ADMN按模态分配层预算——两者都是"自适应跨维度分配"
vs ASF（同系列笔记）: ASF在统一规范空间融合传感器并估计可用性；ADMN通过层分配实现更细粒度的资源控制

启发与关联¶

层分配的QoI感知思路可迁移到VLM：如低质量图像给视觉encoder少分配层，高质量文本给LLM多分配层
AE初始化的QoI聚类可用于自动检测传感器退化——不需要显式标注

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双重自适应（计算+QoI）是全新问题定义和解决方案
实验充分度: ⭐⭐⭐⭐⭐ 3数据集、3-4类corruption、6 seeds、大量消融+定性分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰、方法描述详尽、消融极为彻底
价值: ⭐⭐⭐⭐⭐ 解决了多模态部署的实际双重约束问题，AE方案无需QoI标注