LightAVSeg: Lightweight Audio-Visual Segmentation¶

会议: ICML 2026
arXiv: 2605.08805
代码: 无
领域: 视听分割 / 移动端推理 / 跨模态交互
关键词: AVS, 通道调制, 线性复杂度, SeaFormer, 移动 CPU

一句话总结¶

LightAVSeg 通过解耦 "语义筛选 (what)" 和 "空间定位 (where)"，用全局通道调制替换 \(\mathcal{O}(N^2)\) 的跨模态注意力，让 AVS 模型在 20.5M 参数下达到 50.4 mIoU (MS3)，并在 Snapdragon 8 Elite 上做到 163.4 ms 的端侧延迟，比 AVSegFormer-R50 快约 \(8\times\)。

研究背景与动机¶

领域现状：Audio-Visual Segmentation (AVS) 旨在像素级定位视频中正在发声的物体，主流方法 (AVSegFormer / SelM) 用 Transformer 跨模态注意力做密集 token 融合，能拿到 70+ mIoU，但代价是模型重 (151M 参数) 和延迟极高 (Snapdragon 8 Elite 上 1271 ms / 帧)。

现有痛点：把 AVS 部署到 AR/VR/手机端非常困难。已有的 "轻量化" 工作往往只换 backbone (如把 ResNet-50 换成 MobileNetV2)，但跨模态交互模块本身才是瓶颈——它的复杂度是 \(\mathcal{O}(N^2)\) 其中 \(N \propto H \times W\)，分辨率一升就直接爆炸。

核心矛盾：注意力机制对 AVS 来说其实是 overkill——音频本质上提供的是 "是谁在发声" 的全局语义信息，而视觉特征已经携带充分的空间结构，构建密集 pixel-to-pixel 亲和度矩阵纯属浪费算力。

本文目标：设计一个移动友好的 AVS 框架，把跨模态交互的复杂度从 \(\mathcal{O}(N^2)\) 降到 \(\mathcal{O}(N)\)，同时保持与 R50 系列对手相当的精度；并且避免轻量模型容易学到的虚假跨模态关联问题。

切入角度：作者基于一个观察——"音频负责 what，视觉负责 where"。如果把这两件事在结构上解耦，音频就只需通过通道级调制把相关视觉通道权重拉高，不需要参与任何空间维度的密集计算。

核心 idea：用迭代式的 Reciprocal Audio-Visual Encoder 在每个 stage 用全局视觉描述子门控更新音频状态、再以通道偏置形式注入视觉特征；用 Cross-Modal Fusion Decoder 在 upsampling 路径维持音频递归路径；用 Multi-Scale Audio-Visual Alignment Loss 在训练时强制像素级对齐，推理时直接丢弃。

方法详解¶

整体框架¶

LightAVSeg 是一个双流架构：视觉流和音频流各自轻量编码，再经一条层级融合通路把音频线索逐步注入视觉表征。输入为视频帧 \(x_v \in \mathbb{R}^{T \times 3 \times H \times W}\) 和原始音频波形 \(x_a\)。视觉流用 SeaFormer-Large 提取多尺度特征金字塔 \(\{V_i\}_{i=1}^N\)，音频流先做 STFT 得到 log-mel 频谱再用 MobileNetV2 编码为初始全局状态 \(A_0 \in \mathbb{R}^{T \times C_a \times 1 \times 1}\)（与视觉帧逐帧时间对齐）。Reciprocal Encoder 负责“语义筛选 (what)”，在每个 stage 用全局视觉描述子门控更新音频状态 \(A_i\)、再以通道偏置回写视觉特征 \(\widetilde{V}_i^{enc}\)；Cross-Modal Fusion Decoder 负责“空间定位 (where)”，在 upsampling 时维护一条递归音频路径 \(A_i^\ast \to \hat{A}_i\) 并把它注入视觉解码特征 \(\widetilde{V}_i^{dec}\)，最后由分割头输出 mask。训练时额外挂一个多尺度音视对齐损失约束跨模态一致性，总损失 \(\mathcal{L} = \mathcal{L}_{\text{seg}} + \lambda \mathcal{L}_{\text{msa}}\)，其中 \(\mathcal{L}_{\text{seg}}\) 是 Dice + BCE，\(\lambda = 0.5\)；该对齐分支推理期直接丢弃。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    XV["视频帧 x_v"] --> VE["视觉流：SeaFormer-Large<br/>多尺度视觉特征金字塔"]
    XA["原始音频 x_a"] --> AE["音频流：STFT log-mel + MobileNetV2<br/>初始全局音频状态 A_0"]
    VE --> ENC["Reciprocal Encoder（语义筛选·what）<br/>全局通道调制逐 stage 更新音频与视觉，O(N)"]
    AE --> ENC
    ENC --> DEC["Cross-Modal Fusion Decoder（空间定位·where）<br/>递归音频路径上采样持续注入视觉"]
    DEC --> HEAD["分割头 → 发声物体像素 mask"]
    DEC -.训练期监督.-> MSA["多尺度音视对齐损失 L_msa<br/>每尺度音视相似图 vs 前景 mask，推理丢弃"]

关键设计¶

1. Reciprocal Audio-Visual Encoder（语义筛选）：音频只管“what”，用全局通道调制更新视觉，全程 \(\mathcal{O}(N)\)

跨模态注意力构建 \(N \times N\) 亲和矩阵、复杂度 \(\mathcal{O}(N^2)\)，分辨率一升就爆炸；但对 AVS 来说这其实是 overkill——音频提供的本质是“是谁在发声”的全局语义，视觉特征已经携带充分空间结构，没必要做密集 pixel-to-pixel 亲和。Encoder 因此只做点对点投影 + 广播：先把当前视觉特征 \(V_i\) 做 \(1{\times}1\) max pooling 得全局描述子 \(V_i^{1\times1}\)（故意丢掉空间信息、强制此处只做语义选择），再用 h-sigmoid 门控更新音频状态 \(A_i = \text{Conv}_{1\times1}(A_{i-1}) \odot \sigma_h(\text{Conv}_{1\times1}(V_i^{1\times1}))\)，最后 \(\widetilde{V}_i^{enc} = V_i + \mathcal{B}(A_i)\) 把音频作为通道偏置空间广播加回视觉。这样既严格 \(\mathcal{O}(N)\)，又让音频随网络深度越来越 scene-specific，并把背景噪声这类 visually irrelevant 的声源在早期就抑制掉。

2. Cross-Modal Fusion Decoder（空间定位 + 递归音频路径）：在 upsampling 路径持续注入音频引导

如果音频引导只在 encoder 注入一次，到了 decoder 高分辨率层、视觉特征空间尺度剧变，encoder 建立的全局语义一致性就被稀释掉了。Decoder 维护一条与视觉解码并行的递归音频路径：每个 stage 把上一解码音频 \(A_{i-1}\) 与对应 encoder 音频 \(A_i\) 经 ReLU 的 \(1{\times}1\) 卷积融合得 \(A_i^\ast\)，再用视觉全局描述子门控得 \(\hat{A}_i = A_i^\ast \odot \sigma_h(\text{Conv}_{1\times1}(\widetilde{V}_i^{enc1\times1}))\)，最后 \(\widetilde{V}_i^{dec} = \widetilde{V}_i^{enc} + \mathcal{B}(\text{Conv}_{1\times1}(\hat{A}_i))\) 当作全局通道偏置加进视觉解码特征。这条递归路径保证每一层都能“听到”当前任务相关的音频上下文，不会到高分辨率层就失去音频引导。

3. 多尺度音视对齐损失 (\(\mathcal{L}_{\text{msa}}\))：用前景 mask 显式监督每个尺度的音视相似图，压住虚假关联

轻量模型容易学到虚假的跨模态关联，需要一个显式信号把“音频该对应哪块视觉”钉住。对每个尺度 \(i\)，把 \(\widetilde{V}_i^{dec}\) 和 \(\hat{A}_i\) 沿通道维做 \(\ell_2\) 归一化，算空间余弦相似图 \(\text{sim}_i = \langle \bar{v}_i, \bar{a}_i \rangle\)，用温度 \(\tau=0.1\) 锐化后 sigmoid 得 \(s_i\)，上采样到 GT 大小用 BCE 与前景 mask 对齐 \(\mathcal{L}_{\text{msa}} = \frac{1}{S} \sum_i \text{BCE}(\hat{s}_i, M)\)。这里刻意选 BCE 而非 KL——KL 估计方差大、对归一化敏感，BCE 在有界 \([0,1]\) 分数上更稳，消融里 AVSBench 的 KL 对齐几乎无效、混合损失甚至掉点，只有这个 BCE 版稳定有效。多尺度监督还迫使浅层做粗糙语义对齐、深层做精细边界，呈“coarse-to-fine”渐进精化；而且这个分支推理期直接丢弃、零额外开销。

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{\text{seg}} + 0.5 \mathcal{L}_{\text{msa}}\)，其中 \(\mathcal{L}_{\text{seg}} = \mathcal{L}_{\text{dice}} + \mathcal{L}_{\text{bce}}\)。输入 \(224 \times 224\)，AdamW (lr \(10^{-4}\), batch 8) 训练 60 epoch；视觉 backbone SeaFormer-Large 预训练，音频 backbone MobileNetV2 在 AudioSet 上预训练并冻结。移动端用 TNN 框架部署测延迟。

实验关键数据¶

主实验¶

方法	Backbone	参数	Mobile (ms)	S4 \(\mathcal{M}_J\)	MS3 \(\mathcal{M}_J\)
AVSegFormer	R50+VGGish	151.1M	1271.4	76.5	49.5
SelM	R50+VGGish	117.6M	1003.8	76.6	54.5
AVSBench (Sea+MNetV2)	Sea+MNetV2	30.2M	237.1	47.9	35.2
AVSegFormer (Sea+MNetV2)	Sea+MNetV2	51.0M	432.6	53.8	40.7
LightAVSeg (Ours)	Sea+MNetV2	20.5M	163.4	75.6	50.4

消融实验¶

配置	MS3 \(\mathcal{M}_J\)	说明
ResNet-50 (R50) backbone	52.9	精度上限，但 675 ms 移动延迟无法接受
SeaFormer-Tiny	30.6	22.1 ms 极快但精度崩
SeaFormer-Base	44.2	80.2 ms / 44.2 mIoU 中庸
SeaFormer-Large (选用)	50.4	163.4 ms 精度延迟最优平衡
仅 \(\mathcal{L}_{\text{seg}}\)	49.3	baseline
\(+\mathcal{L}_{\text{AVM}}\)	49.2	加 AVSBench 的 KL 几乎无效
\(+\mathcal{L}_{\text{mix}}\)	48.8	反而掉点
\(+\mathcal{L}_{\text{msa}}\) (本文)	50.4	BCE-based 对齐稳定有效

关键发现¶

在 MS3 多源场景下 LightAVSeg (50.4) 反而超过了重型 AVSegFormer-R50 (49.5)，作者认为全局通道调制比密集 attention 更善于抑制多源混叠的噪声；这与 "轻量模型反而少受 spurious attention 之害" 的观察一致。
单纯换轻量 backbone (AVSegFormer-Sea) 只能拿到 40.7 MS3 mIoU，说明交互模块才是真正瓶颈——这是本文最核心的实证 takeaway。
\(\mathcal{L}_{\text{msa}}\) 的多尺度监督导致 "coarse-to-fine" 演化：浅层激活图先做全局语义筛选、深层逐步逼近边界，这种结构与 deep supervision 思想一致但目标更聚焦。

亮点与洞察¶

把跨模态交互显式分解为 "语义筛选 (what) + 空间定位 (where)" 是一个非常 portable 的设计原则——任何 "模态 A 提供全局上下文 / 模态 B 携带空间结构" 的任务都可以套用，比如 RGB-D 分割、文本引导分割。
把音频以 "全局通道偏置" 加回视觉的简单做法既零参又表达力够，重新证明了 channel modulation 在跨模态场景的低成本高效率优势。
训练专用的 alignment loss 在推理期完全丢弃，是 "训练时做苦力、推理时清零开销" 范式的好示例，可以迁移到任何受限延迟预算的部署场景。

局限与展望¶

音频流仅用频谱级 MobileNetV2 提取一个全局向量，没保留任何时间细节；对快速变化的多源场景 (如对话、乐器轮替) 可能不够。
\(\mathcal{L}_{\text{msa}}\) 假设 "全局音频对应整张前景"，对多源场景下 "不同声源各占不同前景区域" 的细粒度对齐不足。
仅在 \(224 \times 224\) 上测试，对更高分辨率的实际部署 (1080p 视频帧) 没给数据。
移动端延迟仅在 Snapdragon 8 Elite 上跑，对中低端芯片 (天玑 / 高通 7 系) 没覆盖。

评分¶

新颖性: ⭐⭐⭐⭐ "what/where 解耦 + 通道调制" 把 AVS 跨模态交互做到线性复杂度
实验充分度: ⭐⭐⭐⭐ S4/MS3/AVSS 三 benchmark + backbone/loss 充分消融 + 移动端延迟实测
写作质量: ⭐⭐⭐⭐ 框架图与公式都清晰，行文紧凑
价值: ⭐⭐⭐⭐⭐ 直接服务移动 AR/视频编辑等真实场景，是 AVS 落地端侧的关键一步