跳转至

Efficient Multimodal Spatial Reasoning via Dynamic and Asymmetric Routing

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=BQASoLmREU
代码: 无(论文正文未提供公开仓库链接)
领域: 多模态VLM / 空间推理 / 推理加速
关键词: 动态路由, 非对称剪枝, 多跳推理, KV-cache压缩, 多模态空间推理

一句话总结

这篇论文提出 DARE,用“跨层+跨hop 的可微分动态路由”对视觉和文本 token 做非对称保留,在多模态空间推理任务上平均减少 40.37% FLOPs 和 46.07% KV-cache,同时多数任务精度不降反升。

研究背景与动机

领域现状:近期多模态空间推理(如 VoT、MVoT)通过“边看边想”的多跳机制,把中间视觉思维和文本思维不断拼回上下文,再进入下一轮推理。这个范式在复杂空间任务上确实有效,但代价是序列长度随 hop 增长,注意力计算近似二次增长,显存尤其是 KV-cache 很快成为瓶颈。

现有痛点:已有压缩方法大多只在单一模态或单次前向里工作,常见做法是固定层保留率、统一跨模态剪枝,或者启发式选 token。问题在于多跳推理里 token 重要性并不稳定:同一个 token 在浅层可能很关键,到深层可能已经冗余;视觉 token 在跨模态融合后通常更快失去边际价值,而文本 token 往往在深层仍承担语义推理职责。

核心矛盾:效率和性能冲突的根因不是“token 总量太大”这么简单,而是“不同模态、不同层、不同 hop 的有效信息密度变化不同”。如果用同一把剪刀全局裁剪,要么保留过多冗余导致算力浪费,要么误删后续推理仍需的关键信息。

本文目标:作者把问题拆成三个子目标: 1. 在层内和 hop 间动态建模 token 重要性,而不是固定保留率。 2. 区分视觉与文本的冗余模式,做非对称压缩。 3. 把 token 剪枝与 KV-cache 管理联动,真正降低推理显存和时延。

切入角度:作者观察到一个稳定现象:视觉 token 的重要性在中后层明显下降,而文本 token 在后层仍活跃。这个“视觉信息向文本流动”的规律提示我们,不该把视觉和文本视为同分布对象,而应采用模态感知的不同保留策略。

核心 idea:DARE 的核心是“可微分、跨层跨hop、模态非对称的 token 路由 + 渐进式 KV-cache 保留”,即在早层保留更丰富跨模态信号,在后层激进裁剪视觉冗余,同时维持文本语义链条。

方法详解

整体框架

DARE 可以看成插在每个 Transformer 层里的“轻量路由器系统”。每一层都会分别给视觉 token 和文本 token 打分,决定谁继续向后传播。训练时用可微分近似保持端到端学习,推理时变为确定性的 top-k 保留。

与许多“单次压缩”方法不同,DARE 同时在两个维度上自适应:一是层内深度维(同一 hop 内不同层的保留变化),二是跨 hop 维(随着推理轮次推进,保留策略继续更新)。这样可以避免在早期过度裁剪,也避免在后期保留大量已经被语言通道吸收的视觉冗余。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A[多模态输入<br/>图像+问题] --> B[模态感知打分路由<br/>每层分别评估视觉/文本重要性]
    B --> C[跨层跨hop自适应保留<br/>可微分选择保留比例]
    C --> D[视觉两阶段压缩<br/>前期软保留后期硬裁剪]
    D --> E[渐进式KV-cache保留<br/>执行掩码阻断被剪token]
    E --> F[多跳推理输出答案]

关键设计

1. 模态感知动态路由:把“保留谁”变成可学习决策

在第 \(l\) 层、模态 \(m\in\{t,v\}\) 上,路由器对第 \(i\) 个 token 产出重要性分数 \(s^{(i,m)}_l=\sigma(W^{(m)}_l x^{(i,m)}_l+b^{(m)}_l)\)。 这里的 sigmoid 让分数落在 \([0,1]\),可直接解释为保留倾向。训练阶段,被选中的 token 不只是“通过/不通过”,还会按分数缩放激活,形成“结构选择 + 表征强度”联合优化。这样一来,梯度可以穿过路由过程回流到主干网络和路由头,避免了纯离散决策难训练的问题。

这一设计针对的痛点是:静态规则无法表达“当前层、当前 hop、当前模态”的细粒度差异。DARE 让模型自己学会在何处保留空间证据、何处只留语义摘要。

2. 跨层跨hop可微保留:在全局预算下做细粒度调度

作者给每个 hop-层-模态定义可学习保留率 \(\rho^{(m)}_{h,l}\),并用 Gumbel-Softmax 近似离散选择:

\[ q^{(i,m)}_{h,l} = \frac{\exp((s^{(i,m)}_{h,l}+g_i)/\tau)}{\sum_j \exp((s^{(j,m)}_{h,l}+g_j)/\tau)} \]

其中 \(g_i\sim\text{Gumbel}(0,1)\)\(\tau\) 控制软硬程度。训练时通过直通估计器保持可导;推理时直接按分数取 top-\(\rho^{(m)}_{h,l}\)。同时引入目标保留率约束(如文中常用文本 70%、视觉 40%)的 MSE 正则,既保证总体压缩预算,又允许局部层/hop 偏离,实现“有弹性的预算控制”。

这个机制的价值在于:它不是把所有层压成同一稀疏度,而是让不同推理阶段拥有不同信息带宽,贴合多跳推理的信息流现实。

3. 视觉两阶段非对称压缩:顺着跨模态融合方向裁剪

DARE 对视觉 token 采用“两阶段策略”。在前期层(\(l\le l_c\))做软保留,让模型继续利用空间细节;在后期层(\(l>l_c\))做硬抑制,使用 \(L^{(v)}_{hard}=\sum_{h}\sum_{l=l_c+1}^{L}\sum_i \mu\max(0,s^{(i,v)}_{h,l}-\epsilon)\) 惩罚残余高分视觉 token,推动激进裁剪。

直觉上,这相当于承认“视觉信息早融合、后抽象”的流水线结构:前段需要图像证据,后段更多是语言推理。实验里也确实观察到视觉保留率随深度快速下降、文本保留率相对稳定或略升。该非对称设计是 DARE 相比对称剪枝基线(如 UniPrune)的关键性能来源。

4. 渐进式 KV-cache 保留:把算力压缩转化为显存收益

仅仅减少前向 FLOPs 不够,多跳推理常常首先卡在 KV-cache。DARE 通过执行掩码把已剪 token 从注意力可见集和缓存写入路径中共同移除: \(M_{h,l}=M_{causal}+E_{h,l}\),其中 \(E_{h,l}\) 会给被剪 token 施加 \(-\infty\)

作者还保留每个 hop 的前缀 \(\kappa\) 个 token(最终选 \(\kappa=2\))来维持 BOS/CLS 和早期跨模态对齐稳定性。这个设计使缓存开销可近似写成 \(\mathbb{E}[mem_{h,l}] = \rho^{(v)}_{h,l}mem^{full-v}_{h,l}+\rho^{(t)}_{h,l}mem^{full-t}_{h,l}\), 把“保留率学习”直接映射到可预测的显存节省。

一个完整示例

下面用一个“厨房空间问答”的典型流程说明 DARE 在一次多跳推理里如何工作:

输入问题是“站在水槽处的人要去烤箱应向哪边转,以及依据是什么”。

第 1 hop(浅层):模型需定位水槽、烤箱和可通行区域。此时视觉 token 保留率较高(接近目标上限),文本 token 同步保留,确保“看见什么”和“怎么描述”同时在线。

第 2-3 hop(中层):路由器发现大量背景贴图、墙面纹理等视觉 token 分数下降,被逐步剪掉;而与“左侧/右侧、相邻墙面”有关的文本线索保留较多。

第 4-5 hop(深层):视觉侧进入硬裁剪阶段,主要靠文本语义链完成结论整合。最终输出“应向左转”,并给出“烤箱位于左侧相邻墙面且中间无遮挡”的依据。

这一过程体现了 DARE 的核心策略:不是一次性压缩,而是让“保留焦点”随推理进度移动。

损失函数 / 训练策略

总损失写为 \(L=L_{task}+L^{(t)}_{ratio}+L^{(v)}_{soft}+L^{(v)}_{hard}\)

其中 \(L_{task}\) 是原始任务损失,\(L^{(t)}_{ratio}\) 约束文本保留率接近目标,\(L^{(v)}_{soft}\)\(L^{(v)}_{hard}\) 分别负责视觉软保留与后期硬抑制。

实现上,作者在 VolCano 与 Anole-7B 两种交错式多模态架构上都验证了 DARE;训练使用 AdamW,主报告配置中常见目标保留率为视觉 40%、文本 70%,并在 A100 上完成实验。

实验关键数据

主实验

DARE 在四类评测上都给出“效率显著提升 + 精度稳定或提升”的结果。下表汇总最核心对比(取论文主表中代表性数字):

任务 基线 基线Acc DARE配置 DARE Acc FLOPs变化 延迟变化 显存/KV变化
VSR VolCano 67.18 DARE-LH 68.09 19842G → 11310G(-43.0%) 0.63s → 0.41s 8.91GB → 6.13GB
V-Star VolCano 58.40 DARE-LH 60.07 21785G → 13585G(-37.6%) 0.69s → 0.43s 9.37GB → 6.62GB
EmbSpatial VolCano 58.29 DARE-LH 68.09 26543G → 17965G(-32.3%) 0.72s → 0.45s 9.73GB → 7.09GB
MAZE (Anole-7B) VoT 86.56 DARE-LH 93.32 25640G → 12740G(-50.3%) 0.79s → 0.43s KV见下表

从趋势看,DARE-LH(层+hop 路由)普遍优于 DARE-L(仅层路由),说明 hop 维度上的动态保留是有效增益。

消融实验

论文消融集中回答三个问题:哪些组件真的有用、保留率怎么取、KV 策略是否稳健。

消融设置 代表结果 结论
去掉视觉硬抑制或改成对称剪枝(UniPrune) VSR: 63.71(UniPrune) vs 68.09(DARE-LH) 非对称视觉后期裁剪是关键增益来源
保留率网格搜索 文本70% + 视觉40%附近精度最好 视觉可更激进裁剪,文本更需保留语义链
前缀 token 数 \(\kappa\) 扫描 \(\kappa=0/1\) 精度显著下降;\(\kappa=2\) 恢复性能且缓存低 小前缀可稳住解码与跨模态对齐
KV-cache对比(VSR) VoCoT 5.45GB, DARE-L 3.28GB, DARE-LH 2.97GB DARE 在缓存侧有真实收益,不只是 FLOPs 好看

关键发现

  • DARE 的收益不是“用精度换速度”,而是很多任务上实现精度与效率双提升,尤其在多跳空间推理中更明显。
  • 视觉 token 的价值随深度衰减非常稳定,支持“前软后硬”的两阶段视觉策略;文本 token 在后层仍是推理主干。
  • hop-aware 路由显著优于只看层的路由,说明多跳任务里“时间维(推理轮次)”是压缩策略必须建模的维度。
  • KV-cache 管理是实用部署的决定性因素,DARE 的执行掩码+前缀保留让长链推理更可扩展。

亮点与洞察

  • DARE 把“压缩”从静态工程技巧提升为“随推理过程演化的决策问题”。这比固定剪枝率更接近多模态推理的真实信息流结构。
  • 非对称路由的价值非常直观:视觉负责“把世界读进来”,文本负责“把结论推出来”,两者不该被同样地裁剪。这个观点对很多 VLM 加速工作都有迁移意义。
  • 论文把 KV-cache 单独作为一等公民来设计,而不是只汇报 FLOPs,这一点非常务实。真实推理系统里,显存约束常常比算力先触顶。
  • “小而稳的前缀保留”这个技巧值得复用。它几乎不增加太多内存,却能显著降低过度剪枝带来的解码不稳定。
  • 在方法论上,DARE 证明了“可解释的 token 重要性热图 + 可微分学习路由”可以兼得,为后续做可控推理预算分配提供了可行路径。

局限与展望

  • 目前主要在空间推理和相关 VQA/幻觉检测上验证,虽然有泛化迹象,但对视频长时序、多图多轮对话等更复杂场景仍需系统评测。
  • 视觉两阶段分界层 \(l_c\) 采用数据驱动阈值法,工程上有效,但不同架构深度、不同视觉编码器下的可迁移性还可继续研究。
  • 路由器本身参数开销不大,但训练流程更复杂(含多项正则、Gumbel-Softmax 温度调度),部署方需要额外调参经验。
  • 论文重点优化推理阶段 token 计算与缓存,尚未深入讨论训练阶段端到端吞吐提升(例如更激进的训练时稀疏执行)。
  • 未来可探索把路由决策与任务难度估计联动,实现“样本自适应预算”,让简单样本更省、困难样本更稳。

相关工作与启发

  • vs SoT / prompt 压缩类方法:SoT 通过提示词约束输出长度,本质是外部策略;DARE 是模型内部路由学习,能在层与 hop 两维自适应,精度-效率折中更稳。
  • vs LightFastV / SparseVLM:这些方法通常偏“单模态或单阶段压缩”,在多跳累积场景容易漏掉跨hop依赖;DARE 明确建模跨hop保留,并把视觉与文本策略拆开。
  • vs Heima(潜空间推理):Heima 在压缩上更激进,但可能牺牲空间细节可解释性;DARE 保留显式多模态思维链,兼顾可解释性与性能。
  • vs UniPrune(对称可微剪枝):UniPrune 证明可微剪枝有效,但忽略模态异质性;DARE 的非对称策略和视觉后期硬抑制是进一步提升的关键。

对我自己的启发是:做多模态推理加速时,不要问“该删多少 token”,而要问“在这一步、这个模态里,哪些 token 还在创造信息增量”。DARE 给出了一个可训练、可部署的回答框架。

评分

  • 新颖性: ⭐⭐⭐⭐☆ DARE 把跨层跨hop动态路由、模态非对称压缩和KV-cache策略统一到一个框架里,组合创新较强。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖多类基准、两种架构、主结果+消融+敏感性+稳定性,证据链较完整。
  • 写作质量: ⭐⭐⭐⭐☆ 叙事清晰、图表充分,但方法细节分散在主文与附录,首次阅读有一定门槛。
  • 价值: ⭐⭐⭐⭐⭐ 对需要长链多模态推理且受显存/时延约束的系统非常实用,具备明确工程落地意义。