跳转至

LightAVSeg: Lightweight Audio-Visual Segmentation

会议: ICML 2026
arXiv: 2605.08805
代码: 无
领域: 视听分割 / 移动端推理 / 跨模态交互
关键词: AVS, 通道调制, 线性复杂度, SeaFormer, 移动 CPU

一句话总结

LightAVSeg 通过解耦 "语义筛选 (what)" 和 "空间定位 (where)",用全局通道调制替换 \(\mathcal{O}(N^2)\) 的跨模态注意力,让 AVS 模型在 20.5M 参数下达到 50.4 mIoU (MS3),并在 Snapdragon 8 Elite 上做到 163.4 ms 的端侧延迟,比 AVSegFormer-R50 快约 \(8\times\)

研究背景与动机

领域现状:Audio-Visual Segmentation (AVS) 旨在像素级定位视频中正在发声的物体,主流方法 (AVSegFormer / SelM) 用 Transformer 跨模态注意力做密集 token 融合,能拿到 70+ mIoU,但代价是模型重 (151M 参数) 和延迟极高 (Snapdragon 8 Elite 上 1271 ms / 帧)。

现有痛点:把 AVS 部署到 AR/VR/手机端非常困难。已有的 "轻量化" 工作往往只换 backbone (如把 ResNet-50 换成 MobileNetV2),但跨模态交互模块本身才是瓶颈——它的复杂度是 \(\mathcal{O}(N^2)\) 其中 \(N \propto H \times W\),分辨率一升就直接爆炸。

核心矛盾:注意力机制对 AVS 来说其实是 overkill——音频本质上提供的是 "是谁在发声" 的全局语义信息,而视觉特征已经携带充分的空间结构,构建密集 pixel-to-pixel 亲和度矩阵纯属浪费算力。

本文目标:设计一个移动友好的 AVS 框架,把跨模态交互的复杂度从 \(\mathcal{O}(N^2)\) 降到 \(\mathcal{O}(N)\),同时保持与 R50 系列对手相当的精度;并且避免轻量模型容易学到的虚假跨模态关联问题。

切入角度:作者基于一个观察——"音频负责 what,视觉负责 where"。如果把这两件事在结构上解耦,音频就只需通过通道级调制把相关视觉通道权重拉高,不需要参与任何空间维度的密集计算。

核心 idea:用迭代式的 Reciprocal Audio-Visual Encoder 在每个 stage 用全局视觉描述子门控更新音频状态、再以通道偏置形式注入视觉特征;用 Cross-Modal Fusion Decoder 在 upsampling 路径维持音频递归路径;用 Multi-Scale Audio-Visual Alignment Loss 在训练时强制像素级对齐,推理时直接丢弃。

方法详解

整体框架

输入为视频帧 \(x_v \in \mathbb{R}^{T \times 3 \times H \times W}\) 和原始音频波形 \(x_a\)。视觉流用 SeaFormer-Large 提取多尺度特征金字塔 \(\{V_i\}_{i=1}^N\),音频流先做 STFT 得到 log-mel 频谱再用 MobileNetV2 编码为初始全局状态 \(A_0 \in \mathbb{R}^{T \times C_a \times 1 \times 1}\)。Reciprocal Encoder 在每个 stage 同时更新音频状态 \(A_i\) 和视觉特征 \(\widetilde{V}_i^{enc}\)。Decoder 在 upsampling 时维护一条递归音频路径 \(A_i^\ast \to \hat{A}_i\),并把它注入视觉解码特征 \(\widetilde{V}_i^{dec}\)。训练用 \(\mathcal{L} = \mathcal{L}_{\text{seg}} + \lambda \mathcal{L}_{\text{msa}}\),其中 \(\mathcal{L}_{\text{seg}}\) 是 Dice + BCE,\(\lambda = 0.5\)

关键设计

  1. Reciprocal Audio-Visual Encoder (语义筛选):

    • 功能:在每个视觉 stage 上用视觉全局描述子门控更新音频状态,使音频随网络深度变得越来越 scene-specific,并反过来调制视觉特征。
    • 核心思路:先把当前视觉特征 \(V_i\)\(1{\times}1\) max pooling 得到全局描述子 \(V_i^{1\times1}\)(故意丢掉空间信息,强制此处只做语义选择);然后 \(A_i = \text{Conv}_{1\times1}(A_{i-1}) \odot \sigma_h(\text{Conv}_{1\times1}(V_i^{1\times1}))\) 用 h-sigmoid 门控;再以 \(\widetilde{V}_i^{enc} = V_i + \mathcal{B}(A_i)\) 通过空间广播把音频作为通道偏置加回视觉。
    • 设计动机:传统跨模态注意力构建 \(N \times N\) 亲和矩阵成本 \(\mathcal{O}(N^2)\);这里只做点对点投影 + 广播,严格 \(\mathcal{O}(N)\)。这种 "音频只管 what / 视觉只管 where" 的解耦既省算力又能让 visually irrelevant 的声源 (背景噪声) 被早期抑制。
  2. Cross-Modal Fusion Decoder (空间定位 + 递归音频路径):

    • 功能:在解码 upsampling 过程中持续注入音频引导,避免分辨率变化稀释 encoder 阶段建立的全局语义一致性。
    • 核心思路:维护一条与视觉解码并行的音频路径,每 stage 把上一解码音频 \(A_{i-1}\) 与对应 encoder 音频 \(A_i\) 通过 ReLU 的 \(1{\times}1\) 卷积融合得到 \(A_i^\ast\);然后再用视觉全局描述子门控得到 \(\hat{A}_i = A_i^\ast \odot \sigma_h(\text{Conv}_{1\times1}(\widetilde{V}_i^{enc1\times1}))\);最后 \(\widetilde{V}_i^{dec} = \widetilde{V}_i^{enc} + \mathcal{B}(\text{Conv}_{1\times1}(\hat{A}_i))\) 把它当作全局通道偏置加进视觉解码特征。
    • 设计动机:upsampling 过程中视觉特征空间尺度剧烈变化,若音频引导只在 encoder 注入一次,到高分辨率层就会失去作用;递归路径保证每一层都能 "听到" 当前任务相关的音频上下文。
  3. Multi-Scale Audio-Visual Alignment Loss (\(\mathcal{L}_{\text{msa}}\)):

    • 功能:用前景 mask 显式监督每个 scale 的 "音频-视觉通道相似度图",缓解轻量模型学到虚假跨模态关联。
    • 核心思路:对每个 scale \(i\)\(\widetilde{V}_i^{dec}\)\(\hat{A}_i\) 沿通道维 \(\ell_2\) 归一化,算空间余弦相似图 \(\text{sim}_i = \langle \bar{v}_i, \bar{a}_i \rangle\),用温度 \(\tau=0.1\) 锐化后 sigmoid 得 \(s_i\);上采样到 ground-truth 大小并用 BCE 与前景 mask \(M\) 对齐:\(\mathcal{L}_{\text{msa}} = \frac{1}{S} \sum_i \text{BCE}(\hat{s}_i, M)\)
    • 设计动机:作者刻意选择 BCE 而非 KL 散度,因为 KL 估计方差大且对归一化敏感;BCE 在有界 \([0,1]\) 分数上更稳定。多尺度监督迫使浅层做粗糙语义对齐、深层做精细边界,呈现 "coarse-to-fine" 的渐进精化。推理期可以直接丢弃这个分支,零额外开销。

损失函数 / 训练策略

总损失 \(\mathcal{L} = \mathcal{L}_{\text{seg}} + 0.5 \mathcal{L}_{\text{msa}}\),其中 \(\mathcal{L}_{\text{seg}} = \mathcal{L}_{\text{dice}} + \mathcal{L}_{\text{bce}}\)。输入 \(224 \times 224\),AdamW (lr \(10^{-4}\), batch 8) 训练 60 epoch;视觉 backbone SeaFormer-Large 预训练,音频 backbone MobileNetV2 在 AudioSet 上预训练并冻结。移动端用 TNN 框架部署测延迟。

实验关键数据

主实验

方法 Backbone 参数 Mobile (ms) S4 \(\mathcal{M}_J\) MS3 \(\mathcal{M}_J\)
AVSegFormer R50+VGGish 151.1M 1271.4 76.5 49.5
SelM R50+VGGish 117.6M 1003.8 76.6 54.5
AVSBench (Sea+MNetV2) Sea+MNetV2 30.2M 237.1 47.9 35.2
AVSegFormer (Sea+MNetV2) Sea+MNetV2 51.0M 432.6 53.8 40.7
LightAVSeg (Ours) Sea+MNetV2 20.5M 163.4 75.6 50.4

消融实验

配置 MS3 \(\mathcal{M}_J\) 说明
ResNet-50 (R50) backbone 52.9 精度上限,但 675 ms 移动延迟无法接受
SeaFormer-Tiny 30.6 22.1 ms 极快但精度崩
SeaFormer-Base 44.2 80.2 ms / 44.2 mIoU 中庸
SeaFormer-Large (选用) 50.4 163.4 ms 精度延迟最优平衡
\(\mathcal{L}_{\text{seg}}\) 49.3 baseline
\(+\mathcal{L}_{\text{AVM}}\) 49.2 加 AVSBench 的 KL 几乎无效
\(+\mathcal{L}_{\text{mix}}\) 48.8 反而掉点
\(+\mathcal{L}_{\text{msa}}\) (本文) 50.4 BCE-based 对齐稳定有效

关键发现

  • 在 MS3 多源场景下 LightAVSeg (50.4) 反而超过了重型 AVSegFormer-R50 (49.5),作者认为全局通道调制比密集 attention 更善于抑制多源混叠的噪声;这与 "轻量模型反而少受 spurious attention 之害" 的观察一致。
  • 单纯换轻量 backbone (AVSegFormer-Sea) 只能拿到 40.7 MS3 mIoU,说明交互模块才是真正瓶颈——这是本文最核心的实证 takeaway。
  • \(\mathcal{L}_{\text{msa}}\) 的多尺度监督导致 "coarse-to-fine" 演化:浅层激活图先做全局语义筛选、深层逐步逼近边界,这种结构与 deep supervision 思想一致但目标更聚焦。

亮点与洞察

  • 把跨模态交互显式分解为 "语义筛选 (what) + 空间定位 (where)" 是一个非常 portable 的设计原则——任何 "模态 A 提供全局上下文 / 模态 B 携带空间结构" 的任务都可以套用,比如 RGB-D 分割、文本引导分割。
  • 把音频以 "全局通道偏置" 加回视觉的简单做法既零参又表达力够,重新证明了 channel modulation 在跨模态场景的低成本高效率优势。
  • 训练专用的 alignment loss 在推理期完全丢弃,是 "训练时做苦力、推理时清零开销" 范式的好示例,可以迁移到任何受限延迟预算的部署场景。

局限与展望

  • 音频流仅用频谱级 MobileNetV2 提取一个全局向量,没保留任何时间细节;对快速变化的多源场景 (如对话、乐器轮替) 可能不够。
  • \(\mathcal{L}_{\text{msa}}\) 假设 "全局音频对应整张前景",对多源场景下 "不同声源各占不同前景区域" 的细粒度对齐不足。
  • 仅在 \(224 \times 224\) 上测试,对更高分辨率的实际部署 (1080p 视频帧) 没给数据。
  • 移动端延迟仅在 Snapdragon 8 Elite 上跑,对中低端芯片 (天玑 / 高通 7 系) 没覆盖。

相关工作与启发

  • vs AVSegFormer / SelM:他们用 cross-attention 做密集像素融合,\(\mathcal{O}(N^2)\);本文用通道调制 + 广播,\(\mathcal{O}(N)\),在 MS3 上甚至小胜重型 R50 版本。
  • vs SeaFormer / TopFormer:这些是纯视觉的移动端分割工作,本文把它们的 "squeeze-enhanced attention" 思路迁移到跨模态场景,并加入音频-视觉解耦设计。
  • vs AVSBench (KL 对齐):AVSBench 用 KL 散度做模态对齐;本文论证 BCE 在 bounded 分数上更稳定且能直接对齐 "高响应区域 vs 前景 mask"。

评分

  • 新颖性: ⭐⭐⭐⭐ "what/where 解耦 + 通道调制" 把 AVS 跨模态交互做到线性复杂度
  • 实验充分度: ⭐⭐⭐⭐ S4/MS3/AVSS 三 benchmark + backbone/loss 充分消融 + 移动端延迟实测
  • 写作质量: ⭐⭐⭐⭐ 框架图与公式都清晰,行文紧凑
  • 价值: ⭐⭐⭐⭐⭐ 直接服务移动 AR/视频编辑等真实场景,是 AVS 落地端侧的关键一步