跳转至

✂️ 语义分割

🤖 AAAI2026 · 31 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (4) · 📷 CVPR2026 (103) · 🔬 ICLR2026 (11) · 🧠 NeurIPS2025 (48) · 📹 ICCV2025 (78) · 🧪 ICML2025 (22)

🔥 高频主题: 语义分割 ×14 · 遥感 ×5 · 少样本学习 ×3 · 域适应 ×2 · 扩散模型 ×2

A²LC: Active and Automated Label Correction for Semantic Segmentation

提出 A²LC 框架,在传统主动标签校正(人工逐一纠错)的基础上增加一个自动校正阶段(Label Correction Module),利用标注员的反馈自动修正相似的错误mask,并设计自适应平衡采集函数缓解类别不平衡,在 Cityscapes 上仅用 20% 预算即超越前 SOTA,同等预算下 mIoU 提升 27.23%。

Adaptive Morph-Patch Transformer for Aortic Vessel Segmentation

提出 Morph-Patch Transformer (MPT),通过基于速度场的自适应 patch 划分策略生成形态感知 patch(保持血管拓扑完整性),并引入语义聚类注意力(SCA)动态聚合语义相似 patch 的特征,在 AVT、AortaSeg24 和 TBAD 三个主动脉分割数据集上均达 SOTA。

Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

提出 Generative Clean-Image Backdoors (GCB),通过 Conditional InfoGAN (C-InfoGAN) 自动发现图像中天然存在且与分类任务无关的特征作为后门触发器,以极低投毒率(≤0.5%)实现高攻击成功率(≥90% ASR)且几乎不损伤干净准确率(CA drop ≤1%),首次打破了 clean-image backdoor 中隐蔽性与攻击力的固有矛盾。

Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-Domain Few-Shot Segmentation

提出 HSL 框架,通过双重风格随机化 (DSR)、层次语义挖掘 (HSM) 和原型置信度调制阈值 (PCMT) 三个模块,解决跨域少样本分割中源域和目标域之间的分割粒度差异问题,在四个目标域数据集上达到 SOTA。

Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation

本文提出Causal-Tune,一种基于因果机制的VFM微调策略,通过DCT频域变换和高斯带通滤波器将VFM特征分离为因果(域不变)和非因果(域特定)成分,仅对因果成分施加可学习token精炼,在域泛化语义分割中有效抑制VFM伪影并提升泛化性能。

CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion

提出 CtrlFuse,通过 mask prompt 引导 SAM 微调,实现红外-可见光图像的交互式可控融合,在融合质量和下游分割/检测任务上同时取得提升。

Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation

提出 FLEX-Seg 框架,将扩散模型合成数据中图像与语义掩码之间固有的边界不对齐(misalignment)转化为学习鲁棒表示的机会,通过粒度自适应原型 (GAP)、不确定性边界强调 (UBE) 和难度感知采样 (HAS) 三个模块,在域泛化语义分割任务上取得 SOTA。

EAGLE: Episodic Appearance- and Geometry-Aware Memory for Unified 2D-3D Visual Query Localization

提出 EAGLE 框架,借鉴鸟类记忆巩固机制,通过外观感知元学习记忆 (AMM) 驱动的分割分支与几何感知定位记忆 (GLM) 驱动的跟踪分支协同工作,结合 VGGT 实现高效的 2D-3D 统一视觉查询定位,在 Ego4D-VQ 基准上达到 SOTA。

Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

首次将 DINOv2 引入水下实例分割任务,通过 AquaStyle Aligner(傅里叶频域风格注入)和 ObjectPrior Prompter(二值掩码先验提示)两个模块实现高效领域适配,在 UIIS 和 USIS10K 数据集上以更少参数大幅超越 SAM 基方法。

From Attribution to Action: Jointly ALIGNing Predictions and Explanations

提出 ALIGN 框架,通过联合训练可学习掩码生成器(masker)和分类器,迭代对齐模型归因图与任务相关区域掩码,同时提升预测准确性和可解释性,在 VLCS 和 Terra Incognita 域泛化基准上超越 6 个强基线。

Generalizable Slum Detection from Satellite Imagery with Mixture-of-Experts

提出 GRAM(Generalized Region-Aware Mixture-of-Experts),一个两阶段测试时自适应框架:第一阶段用 MoE 架构在12个城市的百万级卫星图像上训练区域特化专家,第二阶段通过跨区域预测一致性筛选可靠伪标签进行自训练,实现对未见非洲城市的贫民窟分割泛化。

Guideline-Consistent Segmentation via Multi-Agent Refinement

提出一个免训练的多智能体框架,通过 Worker(分割执行)和 Supervisor(指南验证)的迭代循环,配合 RL 自适应停止策略,实现严格遵循复杂文本指南的语义分割,在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

提出InfoCLIP,基于信息论视角设计信息瓶颈压缩和互信息蒸馏两个目标,在CLIP微调过程中去除预训练pixel-text对齐中的噪声并保留语义对齐知识,在6个开放词汇语义分割测试集上全面超越SOTA(A-847: 16.6, A-150: 38.5, PC-59: 63.5 mIoU),且仅增加0.53M参数和极少计算开销。

JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion

提出JoDiffusion框架,通过在潜在空间中联合扩散图像与像素级标注掩码,首次实现仅基于文本提示同时生成语义一致的图像-标注对,在Pascal VOC、COCO和ADE20K上显著超越现有Image2Mask和Mask2Image方法。

LWGANet: Addressing Spatial and Channel Redundancy in Remote Sensing Visual Tasks with Light-Weight Grouped Attention

针对遥感图像中的空间冗余(大面积均质背景)和通道冗余(极端尺度变化导致单一特征空间低效)问题,提出 LWGANet 轻量化骨干,通过 Top-K 稀疏全局特征交互(TGFI)和异构分组注意力(LWGA)模块实现高效多尺度特征表示,在 12 个数据集 4 类遥感任务上达到 SOTA。

Multigranular Evaluation for Brain Visual Decoding

提出BASIC多粒度评估框架,从结构(四级分割mask匹配)和语义(MLLM提取对象/属性/关系图的精确率-召回率-F1)两个轴统一评估脑视觉解码质量,横跨fMRI/EEG × Image/Video/3D六种模态组合,解决现有指标饱和、缺乏神经科学基础和细粒度诊断能力的问题。

Otter: Mitigating Background Distractions of Wide-Angle Few-Shot Action Recognition with Enhanced RWKV

针对广角视频中小样本动作识别的背景干扰问题(主体占比小、时序关系退化),提出基于增强 RWKV 的 Otter 框架,通过复合分割模块(CSM)突出主体和时序重建模块(TRM)恢复时序关系,在 SSv2/Kinetics/UCF101/HMDB51 等基准上达到 SOTA。

RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation

提出 RS2-SAM2 框架,通过双向层次融合模块将文本信息注入 SAM2 图像编码过程,并设计伪掩码提示生成器为 SAM2 提供密集提示,在遥感指称分割任务上取得 SOTA。

RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images

提出 RSVG-ZeroOV,一个免训练框架,通过"概览-聚焦-进化"三阶段策略融合 VLM 的交叉注意力图和扩散模型的自注意力图,实现零样本开放词汇遥感视觉定位。

S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing

提出 S5 框架,首次将半监督语义分割扩展为遥感基础模型(RSFM)的预训练范式,通过构建百万级 RS4P-1M 数据集和 MoE 多数据集微调策略,在多个遥感分割与检测基准上达到 SOTA。

SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection

提出 SAM-DAQ,通过深度引导并行适配器(DPA)和查询驱动时序记忆(QTM)模块将 SAM2 适配到 RGB-D 视频显著性检测任务,解决了手动提示依赖、高显存消耗和计算负担三大挑战。

SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model

提出 SAQ-SAM,从语义对齐视角改进 SAM 的后训练量化(PTQ),通过感知一致性裁剪(PCC)处理掩码解码器中的极端异常值,并用提示感知重建(PAR)保持图像-提示交互的语义对齐。

Segment and Matte Anything in a Unified Model (SAMA)

提出SAMA——一种SAM的轻量级扩展框架,通过多视图局部编码器(MVLE)捕获细粒度局部特征、局部化适配器(Local-Adapter)将局部细节注入解码过程,以及双任务预测头,仅增加1.8%参数即可在统一模型中同时实现高质量交互式分割和Alpha Matting,在DIS-5K和多个Matting基准上达到SOTA。

Segment Anything Across Shots: A Method and Benchmark

提出针对多镜头视频目标分割(MVOS)的 SAAS 方法和 Cut-VOS 基准,通过镜头切换模拟数据增强(TMA)、镜头切换检测与理解模块(TDM+TCH)、以及局部记忆库实现跨镜头鲁棒分割。

SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation

提出语义与空间双重校正框架SSR,通过跨模态原型对比学习(CMPA)解决CLIP模态间语义不对齐导致的非目标前景过度激活问题,以及超像素引导校正(SGC)解决仿射传播中背景过度激活问题,在PASCAL VOC和MS COCO上全面超越单阶段和多阶段SOTA方法。

Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models

提出对称流匹配(SymmFlow),将语义分割、分类和图像生成统一到单一模型中,通过对称学习目标联合建模正反向流变换,仅需25步推理即在语义图像合成上达到SOTA(CelebAMask-HQ FID 11.9,COCO-Stuff FID 7.0),同时在分割和分类上取得有竞争力的结果。

Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective

从可解释性角度系统研究CLIP内部机制,发现"分心"现象(distraction)——CLIP在深层将大量注意力资源分配给与目标无关的token,提出免训练的RF-CLIP方法通过注意力重分配将被分散的资源重新聚焦到目标区域,在8个基准上达到SOTA性能并保持推理高效。

Text-guided Controllable Diffusion for Realistic Camouflage Images Generation

提出CT-CIG,首个文本引导的可控伪装图像生成方法。利用VLM设计伪装揭示对话机制(CRDM)生成高质量文本提示,结合轻量控制网络和频率交互精炼模块(FIRM),在Stable Diffusion框架上生成逻辑合理、纹理真实的伪装图像,开创了Text-guided CIG新范式。

Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

提出AffordDex,一个两阶段框架:第一阶段通过模仿学习预训练人类手部运动先验(自然的运动轨迹),第二阶段通过残差模块和VLM引导的负可供性分割(NAA)进行强化学习精炼,实现既像人类一样自然、又功能正确的灵巧机器人抓取(如避开刀刃抓握刀柄),在多个泛化级别上显著超越SOTA。

Tracking and Segmenting Anything in Any Modality

SATA提出了一个统一的跟踪与分割框架,通过解耦混合专家(DeMoE)机制建模跨模态共享知识和特有信息,并引入任务感知多目标跟踪(TaMOT)管线统一所有任务输出,在18个跟踪和分割benchmark上展现了优越性能。

Vista: Scene-Aware Optimization for Streaming Video Question Answering Under Post-Hoc Queries

Vista 提出了一种场景感知的流式视频问答框架,通过将流式视频动态分割为语义连贯的场景单元,对每个场景进行时空压缩并卸载到 CPU,在用户提问时选择性召回最相关的场景,实现了在低 GPU 内存占用和低延迟下的高精度视频问答。