MPerS: Dynamic MLLM MixExperts Perception-Guided Remote Sensing Scene Segmentation¶

会议: CVPR 2026
arXiv: 2605.10769
代码: 无（论文未提供）
领域: 多模态VLM / 遥感语义分割
关键词: 遥感分割, MLLM caption, Mixture-of-Experts, 文本引导分割, DINOv3

一句话总结¶

MPerS 让 LLaVA / ChatGPT / Qwen 三个 MLLM 从多视角 prompt 生成高质量遥感场景描述，再用动态 MixExperts 门控网络挑出最有用的文本语义、通过语言查询引导注意力来指导 DINOv3 视觉特征做密集分割，在 Vaihingen / Potsdam / SynDrone 三个遥感数据集上刷到 SOTA。

研究背景与动机¶

领域现状：遥感（RS）场景语义分割长期依赖单模态高分影像，主流做法是堆叠多尺度 CNN、注意力或 CNN+Transformer 混合骨干去提取地物特征。近年视觉-语言学习兴起，研究者开始把文本语义引入分割，希望用 caption 补充图像之外的场景信息。

现有痛点：单模态影像对遥感场景的感知非常有限，且需要大量昂贵的像素级人工标注。已有的多模态分割方法（如 MetaSegNet、SegCLIP）几乎都把精力放在「怎么把文本特征和视觉特征在架构上融合」，却几乎不管caption 本身的质量从哪来——要么用简单的类别文本（丢掉空间关系），要么用单一 LLM + 简单 prompt 生成的描述（容易出现幻觉地物、缺细粒度）。

核心矛盾：密集遥感场景里地物又多又杂，一段好的 caption 既要说清地物的类别和数量，又要刻画它们之间的空间关系；而单个模型、单个视角的描述天生覆盖不全，质量差的文本反过来还会污染下游融合。换句话说，「文本语义对分割到底有没有用」这件事，取决于 caption 质量，而这恰恰是前人忽略的环节。

本文目标：(i) 系统地生成高质量遥感 caption 并验证其有效性；(ii) 设计一个能自动挑出「对分割最有帮助」的文本语义的融合框架。

切入角度：作者借鉴人类感知场景时会整合多种异质感官的直觉——既然单一视角不够，那就让多个 MLLM 专家从不同视角同时描述同一张图，再用门控机制动态地取长补短。

核心 idea：用「多视角 prompt × 多 MLLM 专家 + 动态 MoE 门控」生成并筛选高质量文本，再用语言查询引导注意力把文本语义注入 DINOv3 视觉特征来做密集分割。

方法详解¶

整体框架¶

MPerS 的输入是一张遥感图像 \(I \in \mathbb{R}^{H\times W\times 3}\)，输出是逐像素的分割图。整条管线分两大块：文本侧先用多视角 prompt 驱动三个 MLLM 生成 caption、过一道相似度检查、再经冻结 CLIP 文本编码器和动态 MixExperts 门控压成一个「最有用」的文本 token \(T_{\text{MixExperts}}\)；视觉侧用冻结 DINOv3 加一个轻量细节先验编码器（LDPE）提双路视觉特征并融合出多级 skip 特征。两侧在语言查询引导注意力（LQGA）里相遇——文本当 query、视觉当 key/value，把文本语义「焊」进视觉特征，最后送进 U-Net 风格解码器逐级上采样得到分割结果。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["遥感图像 I"] --> B["多视角 prompt<br/>+ caption 检查<br/>(三 MLLM 生成)"]
    A --> E["双路视觉编码<br/>DINOv3 + LDPE"]
    B --> C["CLIP 文本编码<br/>(冻结)"]
    C --> D["动态 MixExperts<br/>文本编码器 (DMTE)"]
    D --> F["语言查询引导<br/>注意力 (LQGA)"]
    E --> F
    F --> G["U-Net 解码器"]
    G --> H["分割图"]

关键设计¶

1. 多视角 prompt + caption 检查：把"造一段好描述"当成正经环节来做

前人要么用类别文本（无空间信息）、要么用单一 prompt 让一个 LLM 随手写一句，结果幻觉地物、细节缺失。作者主张高质量遥感 caption 必须同时讲清三件事：地物数量（Number）、类别（category）、位置关系（location relationship）。为此他们设计三类不同视角的 prompt——分别聚焦「现有地物分析」「类别占比」「位置关系」——同时喂给三个 MLLM（LLaVA-v1.5-7B、ChatGPT-4o、Qwen2.5-3B），让每个专家从自己擅长的角度感知场景，产出一组 caption \(P_c:[caption_1, caption_2, \dots]\)。为了过滤掉无效描述，再加一道 Caption 检查策略：在 caption 和对应图像之间算相似度矩阵，设阈值 \(\tau=0.55\)，低于阈值就重新生成，并校验句子是否齐了数量/类别/位置三要素。这一步直接保证了进入下游融合的文本不是"垃圾进垃圾出"，消融里它带来的增益最大

2. 动态 MixExperts 文本编码器（DMTE）：让门控自动决定信哪个 MLLM 专家

三个 MLLM 给的描述各有侧重，简单平均会被弱专家拖累。DMTE 把三组 caption 经冻结 CLIP 文本编码器变成 token \(\{\Phi_{\text{MLLM}_1}^t, \Phi_{\text{MLLM}_2}^t, \Phi_{\text{MLLM}_3}^t\}\) 后，用一个动态路由机制按当前场景给每个专家算门控权重。门控值由三专家 token 的均值过门控网络 \(g(\cdot)\) 再经 sigmoid 得到：

\[G_m = \sigma\Big(g\big(\tfrac{1}{M}\textstyle\sum_{n=1}^{M}\Phi_{\text{MLLM}_n}^t\big)\Big)_m, \qquad T_{\text{MixExperts}} = \sum_{m=1}^{M} W_m\, G_m\, \Phi_{\text{MLLM}_m}^t\]

其中 \(M=3\)，\(W_m\) 是可学习的专家权重，\(G_m\) 是第 \(m\) 个专家的动态门控值（送门控前还经一层 Linguistic Attention 适配）。这样每张图都能动态地"偏向"当前场景下描述最准的那个专家，输出单一融合文本 token \(T_{\text{MixExperts}}\)。消融显示，多专家比"多 prompt 单 MLLM"或"单 MLLM caption + DMTE"都更强（mIoU 76.36/76.41 → 77.10），说明专家多样性确实在贡献信息

3. 双路视觉编码：DINOv3 通用表征 + 轻量细节先验编码器（LDPE）补遥感细粒度

冻结的 DINOv3 提供强大的通用密集表征 \(f_{\text{dino}}^v\)，但它缺遥感专属的领域先验，对小地物、细边界不够敏感。作者并联一个由轻量 CNN 块构成的 LDPE 提取遥感细节先验 \(f_{\text{detail}}^v\)，它兼当 DINOv3 的 adapter。两路特征送进单膨胀的 DilateFormer 后融合为 \(f_{\text{F}_d}^v\)，并从 DINOv3 与 LDPE 的中间层抽出三组 skip 特征 \(f_{F_i}^v\ (i=1,2,3)\) 供解码器逐级利用。这一冻结大模型 + 轻量可训练分支的组合，让模型既蹭到 DINOv3 的泛化力、又补回遥感任务要的细节，且训练开销小

4. 语言查询引导注意力（LQGA）：用文本当 query 去"问"视觉、且不丢原始视觉信息

有了好文本和好视觉，还得让文本真正去引导分割而非简单拼接。LQGA 把视觉特征 \(F_v\) 和文本 token \(T_{\text{MixExperts}}\) 映射到共享空间后做引导注意力——文本当 query \(Q_{text}\)、视觉当 key \(K_{vision}\) 和 value \(V_{vision}\)，算出文本引导权重并经均值归一化 \(\xi\)：

\[w_{text} = \xi\Big(\text{softmax}\big(\tfrac{Q_{text}K_{vision}^T}{\sqrt{d}}\big)\cdot V_{vision}\Big), \qquad F_v' = \text{view}(w_{text}\cdot F_v) + F_v\]

关键在于残差项 \(+F_v\)：文本引导后的特征叠回原始视觉特征，保证融合时不抹掉原有视觉信息。随后再把 \(F_v'\) 和原始视觉特征 \(f^v\) 拼接、过 \(1\times1\) 卷积得到最终文本引导视觉特征 \(Z^v = \text{Conv}_{1\times1}(\text{concat}(F_v', f^v))\)。该模块多级堆叠，首层 \(f^v\) 是编码得到的深层视觉特征，后续层 \(f^v\) 换成上一层的 \(Z^v\)，让文本引导在多尺度上反复作用

损失函数 / 训练策略¶

只用交叉熵损失 \(\mathcal{L}_{ce}\) 训练即取得满意结果。骨干用冻结 DINOv3（SAT/LVD 预训练，0.3B 蒸馏权重或 7B 全权重），CLIP 文本编码器同样冻结；优化器 AdamW、batch size 8、初始学习率 0.001、multi-step 调度，单卡 A800-80GB 训练。

实验关键数据¶

主实验¶

三个公开遥感分割数据集（Vaihingen / Potsdam / SynDrone），对比 8 个单模态与文本引导多模态 SOTA。下表为 Vaihingen 与 Potsdam 上的 mIoU/mF1（MPerS 用 LVD-0.3B 蒸馏权重，便于实际部署）：

数据集	指标	MPerS (LVD-0.3B)	次优方法	提升
Vaihingen	mIoU(%)	77.10	RS3Mamba 74.08	+3.02
Vaihingen	mF1(%)	86.79	RS3Mamba 84.71	+2.08
Vaihingen	mIoU(%)	77.10	SegCLIP 72.23	+4.87
Potsdam	mIoU(%)	81.04	RS3Mamba 78.92	+2.12
Potsdam	mF1(%)	89.32	RS3Mamba 87.98	+1.34
SynDrone	mIoU(%)	72.17	SegCLIP 62.38	+9.79

用 DINOv3 7B 全权重时 Vaihingen 进一步到 mIoU 78.42 / mF1 87.65。相比只用单一 LLM caption 的 MetaSegNet，Vaihingen mIoU 提升 10.72%。小目标增益尤其明显：DMTE 让"car"类 IoU 比次优高 6.75%；SynDrone 上"Vehicle"从 SegCLIP 的 61.85% 升到 78.27%。

消融实验¶

Vaihingen 上逐组件叠加（Baseline = 冻结 DINOv3）：

配置	OA(%)	mIoU(%)	F1(%)	说明
Baseline	87.57	73.76	84.42	仅 DINOv3
+ LDPE	87.95	74.68	85.12	加细节先验编码器
+ LDPE + LQGA	88.27	76.36	86.30	加文本引导注意力
Full (+ DMTE)	88.52	77.01	86.74	完整模型

caption 质量分析（Table 6，Vaihingen）：

配置	mIoU(%)	mF1(%)
baseline	73.76	84.42
+ 简单 prompt caption	75.59	85.81
+ 多 prompt 单 MLLM caption	76.36	86.30
+ DMTE(单 MLLM caption)	76.41	86.33
MPerS (多 prompt 多 MLLM)	77.10	86.79

关键发现¶

LQGA 贡献最大的单步增益：加上文本引导注意力使 mIoU 从 74.68 跳到 76.36（+1.68），OA/mIoU/mF1 较 baseline 分别 +0.7/+2.6/+1.88，证明文本语义确实在密集分割里起了实质作用。
caption 质量是关键变量：从简单 prompt（75.59）→ 多 prompt（76.36）→ 多 prompt 多 MLLM（77.10）逐级上升，验证了本文"先把 caption 做好"的核心主张。
DINOv3 权重来源很关键：在遥感任务上，网络数据预训练的 LVD 权重显著优于卫星数据预训练的 SAT（平均 69.04 vs 65.01），作者因此主用 LVD-0.3B。
小/稀疏目标受益最大：DMTE 引导模型关注小目标，car、Vehicle、Person 等密集/稀有类提升远超大面积类。

亮点与洞察¶

把"caption 从哪来"当成一等公民：以往多模态分割都在卷融合架构，本文第一个系统研究"不同 MLLM 生成的文本引导描述对密集遥感分割到底有没有用"，并用消融把 caption 质量这个变量单独拎出来量化——这个问题意识比具体模块更有价值。
MoE 用在"文本专家"而非"视觉专家"上：动态门控不是在 FFN 层选专家，而是在三个独立 MLLM 的描述之间选，把"信哪个模型的话"做成可学习的逐图路由，思路可迁移到任何多源文本/多标注融合任务。
文本当 query 的引导注意力 + 残差保留：用文本去"问"视觉、并用 \(+F_v\) 残差确保不抹掉视觉信息，是一个轻巧且可复用的跨模态融合 trick。
冻结大模型 + 轻量可训练分支：DINOv3、CLIP 全冻结，只训 LDPE/DMTE/LQGA/解码器，省算力又蹭泛化力，在标注昂贵的遥感场景特别实用。

局限与展望¶

依赖闭源/重型 MLLM：caption 由 ChatGPT-4o 等生成，离线/大规模场景下 API 成本、可复现性与延迟都是问题；论文也未给开源代码。
MoE 规模很小：只用 3 个 MLLM 专家，作者自己承认"MoE 架构与设计值得进一步研究"，专家数量、路由策略仍有探索空间。
caption 检查较朴素：仅靠固定相似度阈值 \(\tau=0.55\) 和三要素校验过滤，阈值对不同数据集是否鲁棒、是否会漏掉细粒度错误，文中未充分讨论。
公式与符号存在小笔误（如 \(f_{\text{dion}}^v\)/\(f_{\text{detial}}^v\) 拼写、QGCA 与 LQGA 混用），⚠️ 部分细节以原文为准。改进方向：引入轻量本地 caption 模型替代 API、把专家路由扩展到更多模态/更大专家池。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究多 MLLM caption 对密集遥感分割的有效性，MoE 用在文本专家上的角度新颖
实验充分度: ⭐⭐⭐⭐ 三数据集 + 8 对比方法 + 组件/caption 双消融，证据链完整，但缺更大专家池的扩展实验
写作质量: ⭐⭐⭐ 结构清晰，但符号拼写与模块命名（QGCA/LQGA）有若干笔误
价值: ⭐⭐⭐⭐ "先把 caption 做好"的问题意识与逐图文本专家路由对多模态分割有实际借鉴意义