跳转至

✂️ 语义分割

📷 CVPR2026 · 122 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (31) · 🧪 ICML2026 (14) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (45) · 📹 ICCV2025 (73) · 🧪 ICML2025 (18)

🔥 高频主题: 语义分割 ×86 · 遥感 ×7 · 对抗鲁棒 ×6 · 目标检测 ×6 · 扩散模型 ×4

3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion

提出 3M-TI,一个无需标定的多相机跨模态扩散框架,通过在 VAE 潜空间中用跨模态自注意力(CSM)自动对齐并融合未标定的 RGB-热红外图像对,结合错位增强策略,在移动端热成像超分辨率任务上达到 SOTA,并显著提升下游目标检测与语义分割性能。

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

提出 Omnivorous Vision Encoder,通过轻量级 adapter 在冻结的 DINOv2 之上进行跨模态对齐蒸馏训练(RGB/Depth/Segmentation),使单一编码器对不同视觉模态产生一致嵌入,同时保留原始判别语义。

Annotation-Efficient Coreset Selection for Context-dependent Segmentation

针对伪装目标、医学病灶等"上下文相关"分割任务标注极贵的问题,本文用基于点标注的最优传输给每张图打"重要性分",再用最大距离熵策略挑出兼顾覆盖与多样的核心集(CostSet),在 40% 剪枝率下相对全量训练仅掉约 1% IoU。

Attack for Defense: Adversarial Agents for Point Prompt Optimization Empowering Segment Anything Model

PPD(Point Prompt Defender)把 SAM 的点提示优化建模成一个"攻—防"对抗强化学习游戏:一个攻击智能体专门激活会拖垮分割质量的提示点、一个防御智能体学着把这些坏点关掉以恢复精度,训练完后只部署防御智能体,就能在不重训的情况下即插即用地净化任意粗糙提示集,让 SAM 在自然图像和医学图像上的分割都更准、更鲁棒。

Bayesian Decomposition and Semantic Completion for Few-shot Semantic Segmentation

把小样本语义分割(FSS)按贝叶斯公式拆成「先验 + 似然 + 类一致性」三个轻量概率项,用 SAM 出结构化候选区、用一个二分类小网络(CALM)同时估似然与一致性、再用注意力补全模块(SCM)把碎片候选拼成完整 mask,在 PASCAL-5\(^i\) / COCO-20\(^i\) 上做到 SOTA 且高效。

Beyond Appearance: Camouflaged Object Detection via Geometric Structure

DepthSAM 把单目深度估计基础模型 Depth Anything v2 适配到伪装目标检测:冻结主干,用稀疏 MoE 适配器(SMEA)把"重建整个场景的几何"扭转成"只突出伪装目标的几何",再用空间-频域双流融合模块(GSFM)把几何线索和语义对齐,在 COD10K/CAMO/NC4K 三个基准上刷新 SOTA(COD10K 的 \(S_\alpha\)\(F^\omega_\beta\) 比次优分别高 3.0%、4.3%)。

Beyond Text: Visual Description Assembly by Probabilistic Model for CLIP-based Weakly Supervised Semantic Segmentation

针对 CLIP-based 弱监督分割中"文本原型与视觉特征存在模态鸿沟、且静态文本无法适配多样实例"的问题,本文用可逆神经网络把 CLIP 视觉特征建模成层级高斯混合模型,从视觉空间里显式解耦出类内属性、按实例响应动态组装成视觉描述原型替代文本查询,并用密度权重自适应回退到文本锚点,在 VOC/COCO 上把单阶段 WSSS 刷到 79.9%/51.4% mIoU 的新 SOTA。

BiPA: Bilevel Prompt Adaptation for Underwater Instance Segmentation

BiPA 把 SAM 的 dense prompt 学习重新表述为一个「prompt 在上层、模型参数在下层」的双层优化问题,再用贝叶斯优化 + 两阶段训练策略把它做成可解,配上一个前景注意力注入模块补局部细节,从而把通用 SAM 高效迁移到严重退化的水下场景,在 UIIS / USIS10K 上 mAP 全面超过此前 SOTA。

AFRO: Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

提出AFRO自监督3D视觉预训练框架,通过逆动力学模型(IDM)推断潜在动作、扩散Transformer前向动力学模型(FDM)预测未来特征、逆一致性约束保证时序对称性,在RH20T大规模数据上预训练后,MetaWorld 14任务平均成功率76.0%(vs DynaMo-3D 64.9%、PointMAE 63.9%),4个real-world任务也取得最优。

Bootstrap Your Own AV-Proxies: Adaptive Contrastive and Prototype Learning for Audio-Visual Segmentation

针对音视分割(AVS)里"单模态内部噪声 + 音视语义鸿沟"两大顽疾,本文提出 BYOAVP:用 BYOL 式无负样本对比学习(SSAE)让视觉语义去监督音频、抑制画外音/背景音,再用动量更新的动态原型(DPC)做像素级分类并跨模态强化发声区域;无需 SAM/离线原型等任何先验,在 AVSBench + VPO 两个数据集六个子任务上全面刷到 SOTA。

Boundary-Responsive Differentiable Gating for Superpixel-Based Segmentation

BRDG 把"可微超像素 + 边界门控 + 选择性精修"组成三智能体流水线:只在被判定为"边界"的超像素上启用高精度精修头,稳定区域内部直接走廉价粗分类,从而在手术分割上同时拿到高精度(mIoU +4.5~7.0、Boundary-F1 +10)和实时速度(150 FPS、24M 参数)。

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

提出DEO(Distillation for Earth Observation),一种双教师对比蒸馏框架——用多光谱自蒸馏教师学习光谱表示、用光学VFM教师(DINOv3)注入高级语义先验,使单一学生网络同时擅长光学和多光谱遥感任务,在语义分割、变化检测和分类上全面达到SOTA。

CDICS: Delving Into Fine-Grained Attribute for In-Context Segmentation via Compositional Prompts and Phased Decoupling

CDICS 把传统 in-context segmentation 从"一张参考图定义一个目标"升级为"语义+部件+颜色三类参考图组合定义目标",并用一个解耦的两阶段解码器(先粗粒度语义定位、再用外观约束精修)把"是什么"和"长什么样"两个子问题拆开学,在组合提示分割任务上把 IoU 从 42.9% 提到 57.6%、误分率(FPR)从 8.3% 砍到 3.9%。

DeBias-CLIP: CLIP Is Shortsighted — Paying Attention Beyond the First Sentence

发现 CLIP 模型在长文本场景中严重偏向于编码首句摘要和早期 token("近视"行为),通过三种零参数增量的训练增强策略——去除摘要句、句子随机采样、token 前缀填充——实现了全方位 SOTA 的长文本检索性能,同时改善了短文本检索。

CLP: A Real-World Dataset of Contaminated Lens Protectors for Robust Semantic Segmentation

作者用一个 3D 打印的"玻璃片支架"在手机镜头前固定可替换的脏污玻璃片,造出了 CLP——一个真实物理污染的镜头保护罩数据集(泥、水滴、雾凝结三类污染 × 0/1/3/5 cm 四种镜头-保护罩间距),提供严格对齐的「干净/退化」图像对和 125 类稠密语义标注,并系统评测了一大批分割与修复模型,给出"鲁棒性更靠适配策略而非模型规模""任务感知修复才真正帮分割"等基准结论。

Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation

针对"用文生图模型合成分割训练数据"时"微调会过拟合、不微调又域不对齐"的两难,本文提出 Concept-Aware LoRA(CA-LoRA):先用一个"概念损失"度量出 T2I 模型里对某个目标概念(视角 / 风格)最敏感的投影层,再只对这 top-k% 层做 LoRA 微调,从而只学想要的概念、保留预训练知识,生成既对齐目标域又多样的图像-标签对,在 Cityscapes few-shot 上 +2.30% mIoU、域泛化平均 +1.53% mIoU。

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

提出 CFT(Concept-Guided Fine-Tuning),利用 LLM 生成类别级语义概念并通过 GroundedSAM 零样本分割获取概念掩码,再以 AttnLRP 的 relevance map 与概念区域对齐为目标微调 ViT,仅用 1500 张图即可显著提升 5 个 OOD 基准上的鲁棒性。

ConceptPrism: Concept Disentanglement in Personalized Diffusion Models via Residual Token Optimization

提出 ConceptPrism,通过引入图像级残余 token 和跨图像排斥损失,在个性化 T2I 扩散模型中自动将共享目标概念与图像特有的残余信息解耦,在 DreamBench 上 CLIP-T/DINO/CLIP-I 全面最优。

Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

本文提出"对话式图像分割(CIS)"任务——把可供性、物理稳定性、用户意图等抽象概念落到像素级 mask 上,配套构建了 CONVERSEG 基准、一套全自动 VLM 数据引擎(无需人工标注合成 61K prompt–mask 对)以及单遍模型 CONVERSEG-NET,在 CONVERSEG 上 gIoU 达 70.5%(3B)/73.3%(7B),同时在 RefCOCO/ReasonSeg 等传统基准保持竞争力。

CrackSSM: Reviving SSMs for Crack Segmentation via Dynamic Scanning

针对裂缝这种细长、断续、不规则的目标,CrackSSM 把 Mamba 视觉模型里"固定路径扫描"换成由裂缝方向强度驱动的自适应 token 重排(动态扫描),让相邻裂缝像素在 1D 序列里也相邻,从而恢复 S6 的因果建模能力;再配合小波高频先验引导的解码,在三个裂缝数据集上以 2.95M 参数 / 4.69G FLOPs 取得超过 SCSegamba 等 SOTA 的精度。

Cross-Domain Few-Shot Segmentation via Multi-view Progressive Adaptation

针对跨域小样本分割(CD-FSS)中"目标域样本少 + 域差距大导致源模型在目标域的小样本能力弱"两难,本文提出 Multi-view Progressive Adaptation(MPA),从数据策略两个视角"由易到难"渐进自适应——用累积式强增强生成越来越复杂的多视图(HPA),再用串行+并行双链预测充分压榨这些视图的监督信号(DMP),在四个数据稀缺域上比 SOTA 平均高 7.0%(1-shot),且去掉源域训练也几乎不掉点、训练时间省 80%。

DeDelayed: Deleting Remote Inference Delay via On-Device Correction

提出 DeDelayed 端云协同推理框架,将轻量本地图像模型与延迟感知的云端时序预测视频模型结合,通过时序预测训练补偿网络延迟,在 100ms 延迟下比纯本地推理提升 6.4 mIoU、比纯远程推理提升 9.8 mIoU。

Denoise and Align: Towards Source-Free UDA for Robust Panoramic Semantic Segmentation

DAPASS 在没有源域数据的前提下,把针孔相机预训练的分割模型迁移到全景图像:用置信度一致性把目标域样本拆成可靠/不可靠两堆、再靠双层优化和类平衡复制粘贴清洗伪标签,并用一个跨分辨率注意力模块对齐 ERP 畸变下的局部细节与全局语义,在室外 C-to-D 和室内 Spin-to-Span 上分别刷到 55.04% / 70.38% mIoU。

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

提出 IFA-Net,从"建模什么是真"而非"学什么是假"的角度检测 AI 伪造:利用冻结 MAE 重建输入产生残差暴露偏离自然图像流形的区域,再通过两阶段闭环——粗检测→任务自适应先验注入→放大残差→精细化——迭代放大流形偏差,在 diffusion inpainting 和传统篡改检测上均取得 SOTA。

Differentiable Laplacian Matrix Guided Superpixel Segmentation

针对深度超像素模型必须靠不可微的「强制连通(EC)」后处理才能消掉碎片的痛点,本文提出一个完全可微、与模型无关的图拉普拉斯损失(外加最小语义距离损失和加权重建损失),在训练中就把超像素逼向连通,几乎不掉 ASA 的同时大幅减少碎片,朝「去掉后处理、真正端到端」迈了一步。

DIMOS: Disentangling Instance-level Moving Object Segmentation

针对"事件相机里外观与运动信息纠缠、小目标特征过稀"的痛点,DIMOS 用双解耦编码器从图像和事件两个模态里各自抽出外观+运动两路特征,再用对抗域适配 + 模态翻译做分布级和语义级对齐后融合,在 MouseSIS / SEVD-Fixed / EVIMO 三个小目标移动实例分割基准上刷到 SOTA。

Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation

提出一种跳过logits优化过程的开放词汇语义分割方法,基于"同类区域的logits到退化分布的分布差异一致"这一假设,直接通过最优传输路径或最大传输速度的解析解来构造分割图,在8个基准上达到SOTA且无需训练或模型特定调制。

DSS: Discover, Segment, and Select for Zero-shot Camouflaged Object Segmentation

提出DSS三阶段渐进式pipeline(Discover→Segment→Select),通过自监督视觉编码器+Leiden聚类发现前景(FOD)、SAM生成候选mask、启发式评分+MLLM成对比较选择最优mask,实现零样本无训练的伪装目标分割,尤其在多实例场景上显著优于现有方法。

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash 通过合并分割与关系预测 backbone、双向关系预测头、动态 patch 剪枝等策略,将全景场景图生成速度提升至 RTX 3090 上 56 FPS,同时在 PSG 数据集上达到 mR@50=30.9 的 SOTA 性能。

Dual-level Adapter Boosting Prompt-free Curvilinear Structure Segmentation

在冻结的 SAM 编码器上插入「块内 + 块外」双层适配器,再配一个聚合多层特征的无提示解码器和双阶段掩码精修,仅用 18 张标注图(每数据集 3-shot)就能把视网膜血管、道路、轮胎纹、电线等 12 个差异极大的曲线结构数据集做到 SOTA,且对训练时没见过的新类/新分布有很强的零提示泛化。

Efficient Video Object Segmentation and Tracking with Recurrent Dynamic Submodel

针对 SAM2 这类视频分割大模型推理太慢的问题,本文用一个"预测感知路由器"(吃上一帧分割掩码 + 当前帧视觉特征)为每一帧只激活一个子模型块集合,再用"重要性感知 LoRA"只微调最关键的块,在 DAVIS 2017 上实现 1.3× 真实加速、性能仅掉 <0.4%,且只训练 3% 参数。

ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark

ELVIS 提出了首个低光视频实例分割(VIS)框架,通过物理驱动的合成低光视频管线(含运动模糊建模)、无标定退化参数估计网络 VDP-Net、以及将增强解码器集成到 VIS 架构中实现退化与内容解耦,在合成和真实低光视频上分别实现 +3.7AP 和 +2.8AP 的提升。

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

提出EReCu统一框架,在DINO师生架构上通过多线索原生感知(MNP)提取纹理+语义先验引导伪标签进化融合(PEF),结合局部伪标签精修(LPR)恢复边界细节,首次统一伪标签引导和特征学习两大UCOD范式,在4个COD数据集上全面SOTA。

Exploring the Underwater World Segmentation without Extra Training

针对水下场景缺数据、缺模型的困境,本文一方面造了首个细粒度水下开放词汇分割数据集与基准(AquaOV255 / UOVSBench),另一方面提出 training-free 框架 Earth2Ocean——用几何自相似先验修正 CLIP 视觉特征、再用 MLLM 推理增强文本嵌入,无需任何水下训练就把陆地 VLM 迁到水下,平均 mIoU 提升 6+。

F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation

F2Net 把超高分辨率(UHR)遥感图像在频域上拆成高频和低频分量分路处理——高频分支保全分辨率抠边界细节、低频分支降采样后再分短程/长程两个子分支抠语义,用一个混合频率融合模块(HFF)整合三路特征,并配两个跨频损失稳住多分支训练,在 DeepGlobe / Inria Aerial 上分别拿到 80.22 / 83.39 mIoU 的 SOTA。

FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching

FlowDIS 把高精度二分图像分割(DIS)重新表述成一个流匹配问题——直接学一个时间相关的速度场把「图像分布」搬运到「掩码分布」,用确定性 ODE 取代扩散模型从噪声去噪的随机过程;再配上 PAIP 实例配对训练策略增强语言可控性,在 DIS5K 全部测试集刷新 SOTA,仅 1 步推理就比次优的 LawDIS 在 DIS-TE 上 \(F_\beta^\omega\) 高约 5.5%、MAE 低约 43%。

Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning

提出 STaRC 框架,通过有监督的帧级显著性学习统一驱动检索(显著性引导分割+检索)和描述生成(显著性提示注入解码器),显著提升密集视频描述(DVC)任务中的时序对齐和字幕质量。

FoV-Net: Rotation-Invariant CAD B-rep Learning via Field-of-View Ray Casting

提出 FoV-Net,首个在 CAD B-rep 学习中同时捕获局部表面几何和全局结构上下文的旋转不变框架,通过局部参考系 UV 网格(LRF UV)和视场光线投射(FoV)描述子实现了在任意 \(\mathbf{SO}(3)\) 旋转下的鲁棒分类和分割。

Frequency-Aware Affinity for Weakly Supervised Semantic Segmentation

针对 ViT 自注意力作为低通滤波器导致亲和力(affinity)只能扩散物体内部、丢失边界的问题,本文提出双频感知框架 DFA:用低频亲和力对齐物体内部语义、用高频(逆)亲和力矫正物体边界,再用基于最优传输的频率引导 CAM 生成把"生成 + 精修"合并成一步,在 PASCAL VOC(val 79.3% mIoU)和 MS COCO(val 51.5%)上刷新单阶段弱监督分割 SOTA。

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

将双手重建解耦为 2D 结构对齐(融合关键点/分割/深度先验)和 3D 空间交互对齐(穿透消除扩散模型),在 InterHand2.6M 上 MPJPE 达到 5.36mm,大幅超越 SOTA。

From Softmax to Dirichlet: Evidential Learning for Semi-supervised Semantic Segmentation

针对半监督分割中 softmax 置信度因网络过自信而无法可靠筛选伪标签的问题,本文用证据学习把每像素的类概率建模成 Dirichlet 分布、直接得到原则化的不确定性,并进一步提出 HESS 解耦"排他证据"与"集体证据",作为即插即用模块接到 UniMatch/UniMatch V2 上,在 Pascal/Cityscapes/COCO 三个基准的低标注设定下稳定涨点(最难的 1/16 划分上最高 +2.3% mIoU)。

Generalizable Co-Salient Object Detection via Mixed Content-Style Modulation

本文提出 CoMCS,用「内容调制 + 风格调制」双管齐下提升协同显著目标检测(CoSOD)在未见域上的泛化能力:用 CLIP 语义嵌入注入域不变的场景结构先验(MCM),用特征统计量合成扩展训练域风格(MSM),再用均匀性损失把原型在超球面上推开(SCM),在 CoCA 等四个 benchmark(含自建的未见域数据集 UND)上全面超越 17 个 SOTA。

GenMask: Adapting DiT for Segmentation via Direct Mask Generation

本文提出 GenMask,将 DiT 直接训练为生成黑白分割掩码(与生成彩色图像共用同一模型),通过发现二值掩码的 VAE 潜在表示是线性可分的特殊性质,设计了针对分割的极端长尾时间步采样策略,实现了单步推理即可产出分割结果,在 referring 和 reasoning 分割基准上达到 SOTA。

GeoGuide: Hierarchical Geometric Guidance for Open-Vocabulary 3D Semantic Segmentation

本文提出 GeoGuide,一个层次化几何引导的开放词表 3D 语义分割框架,通过基于不确定性的超点蒸馏、实例级掩码重建和跨实例关系一致性三个互补模块,利用预训练3D模型的几何先验来纠正 2D 到 3D 知识蒸馏中的几何偏差,在 ScanNet v2 上达到 64.8 mIoU 的 SOTA 性能。

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

GeoMotion 把运动分割从"显式估计相机位姿与点对应 + 迭代优化"重新表述为"直接从预训练 4D 重建模型(π3)的潜在几何特征里前馈解码运动掩码",靠一个特征聚合模块 + 5 层自注意力解码器,单次前馈就把物体运动从相机运动里解耦出来,在多个零样本基准上达到 SOTA,且每帧 0.31s,比迭代优化方法快 20 倍以上。

GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings

GeoSURGE 提出层级地理嵌入和语义融合模块,将全球图像地理定位问题建模为视觉表征与学习得到的地理表征之间的匹配,在 5 个基准的 25 项指标中取得 22 项 SOTA。

GKD: Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

提出 GKD 框架,通过将表示学习与任务学习解耦的多阶段蒸馏(先学通用特征 → 冻结编码器 → 再训任务头)+ 查询式软蒸馏机制(QSD),从 VFM 中蒸馏出具有跨域泛化能力的轻量学生模型,在 F2L 设置下平均 mIoU 提升 +10.6%,F2F +1.9%。

Heuristic Self-Paced Learning for Domain Adaptive Semantic Segmentation under Adverse Conditions

本文将无监督域适应中的类别课程学习重新定义为强化学习的序贯决策问题,提出 HeuSCM 框架,通过高维语义状态感知和类别公平策略梯度实现自主学习课程规划,在 ACDC、Dark Zurich 和 Nighttime Driving 上达到 SOTA(72.9 mIoU)。

High-Precision Dichotomous Image Segmentation via Depth Integrity-Prior and Fine-Grained Patch Strategy

针对高精度二分图像分割(DIS)"非扩散模型快但语义弱、扩散模型准但又大又慢"的两难,本文发现深度图里完整目标呈现"低方差、内部平滑、边界锐利"而背景呈"高方差混乱",把它命名为深度完整性先验,用现成单目深度估计模型(DAM-v2)产出伪深度作为新模态,配合跨模态融合网络 PDFNet、深度完整性损失和 8×8 细粒度分块策略,在 DIS-VD 上以不到扩散方法一半的参数量取得 \(F^{max}_\beta=0.915\) 的 SOTA。

Hilbert Curve-Based Attention Enabling Topology-Preserving Image Tensor Representation for Semantic Segmentation Network

针对无人机拍摄的建筑表面缺陷分割,本文提出 TPSegformer,在解码器的注意力计算前用希尔伯特曲线而非传统行优先展开把二维特征压成一维序列,从而在降维时保住像素的空间邻接关系,再配合双分支特征增强、高低分辨率融合和 Dice+边缘联合辅助监督,在自建 BD3 缺陷数据集上拿到 80.77% mIoU / 90.22% Acc。

HOPS: Hierarchical Open-vocabulary Part Segmentation with Attention-Aware Filtering and Affinity-Guided Enhancement

HOPS 用一套「CLIP 语义 ⊗ DINO 结构」的双向注意力融合,分两阶段把开放词汇部件分割(OVPS)做对:第一阶段用 AFM 过滤掉物体级的过分割,第二阶段用 AEM 把弱激活的小部件迭代「长」满,在 Pascal-Part-116 / ADE20K-Part-234 / PartImageNet 上全面刷新 SOTA。

Hyperbolic Prototype Learning with Uncertainty-Aware Consistency for Continual Test-Time Segmentation

针对持续测试时分割(CTTA)里自训练伪标签误差越滚越大的问题,本文把分割重构成 Poincaré 球(双曲空间)里的度量学习——用 HyperProtoSeg 学出大间隔、低畸变的类原型,再用 HBCA 按跨视图一致性把像素分成"可信核心"和"不确定边界"两类,分别施加测地距离损失和切空间方向一致性损失,从而在长序列域漂移下既快速适应又不崩,在三个合成到真实基准上平均超过 SOTA。

HySeg: Learning Generative Priors for Structure-Aware Remote Sensing Segmentation

HySeg 把遥感语义分割重新表述为"受生成式结构先验约束的后验推断":先用基于 MeanFlow 的 MeanStruct 模块在标签空间学一个编码拓扑连续性与区域邻接的结构先验,再用 P2A 把这个抽象先验投影成拓扑感知的逐像素亲和度,最后由 DAS 头按这些亲和度做受约束的消息传递,在四个遥感分割基准上即插即用地提升结构一致性与跨数据集泛化。

INSID3: Training-Free In-Context Segmentation with DINOv3

提出INSID3,一种仅依赖冻结DINOv3特征的无训练上下文分割方法,通过位置偏差消除、细粒度聚类和种子聚类聚合三阶段pipeline,在语义/部件/个性化分割任务上以单一自监督骨干网络超越了依赖SAM或微调的方法,平均mIoU提升+7.5%。

Joint Spectral Image Reconstruction and Semantic Segmentation with Cooperative Unfolding

针对压缩感知高光谱成像(CASSI)下游做语义分割时"先重建再分割"两阶段管线误差累积、且割裂了两任务互补线索的问题,本文提出首个协同重建-分割深度展开网络 CRSDUN,把 HSI 重建与分割统一进一个半二次分裂(HQS)优化框架交替求解,并用跨聚合超级token注意力(CASTA)在两条分支间双向传递像素级与语义级表征,在仿真和真实 CASSI 数据上重建与分割双双取得 SOTA 且算力更省。

Kαlos finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks

提出KαLOS元算法,通过"先定位后分类"原则和数据驱动的参数校准,将复杂的空间-类别标注一致性问题转化为标准名义可靠性矩阵,统一评估目标检测、实例分割、姿态估计等多种视觉任务的标注者间一致性(IAA)。

Learning and Aligning Click-Aware Shape Prior for Interactive Amodal Instance Segmentation

ClickPriorNet 把非模态实例分割(同时分割可见区域与被遮挡区域)做成交互式任务——用户每点几下,模型就用「上一轮掩码 + 当前点击」去形状码本里检索互补的形状先验,并用可变形注意力把先验对齐到目标实例上,从而在 KINS/D2SA/COCOA 三个数据集上以更少点击拿到更完整的非模态掩码。

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

提出基于条件二值分割的跨视角物体对应框架 CCMP,通过循环一致性约束提供自监督信号并支持测试时训练 (TTT),在 Ego-Exo4D 上达到 44.57% mIoU 的 SOTA 性能。

Leveraging Class Distributions in CLIP for Weakly Supervised Semantic Segmentation

针对 CLIP 生成的 CAM 因 MHSA 亲和力不准而"激活不全"的问题,CD-CLIP 发现"同类 patch 在全部类别上的概率分布高度相似",用 JS 散度构造分布感知亲和力(CDA)来补全前景,再用 DINO 的超类原型 CAM 提供边界监督(SBE)抑制过激活,单阶段在 PASCAL VOC 拿到 82.5% mIoU、MS COCO 拿到 54.1% mIoU。

Live Interactive Training for Video Segmentation

LIT (Live Interactive Training) 提出了一种让交互式视觉系统(如SAM2)在推理时从用户纠正中在线学习的框架,其轻量实现LIT-LoRA通过实时更新LoRA模块将用户反馈泛化到后续帧,在挑战性VOS基准上减少18-34%用户纠正次数,训练开销仅约0.5秒。

LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment

本文提出LoD-Loc v3,通过构建10万图像的大规模合成实例分割数据集InsLoD-Loc和将定位范式从语义轮廓对齐升级为实例轮廓对齐,解决了基于LoD城市模型的无人机定位中跨场景泛化差和密集城市歧义两大痛点,在Tokyo-LoDv3密集场景上比SOTA的(2m,2°)精度提升2000%。

Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation

针对无训练开放词汇语义分割中滑动窗口带来的跨窗口语义不一致问题,提出 GLA-CLIP 框架,通过全局键值扩展、代理锚点注意力和动态归一化三个机制实现跨窗口全局上下文整合,在8个基准上取得平均 44.0% mIoU 的 SOTA 表现。

Making Training-Free Diffusion Segmentors Scale with the Generative Power

揭示现有无训练扩散分割方法无法随生成模型能力增强而提升的根本原因——交叉注意力图到语义相关性之间存在两个gap(聚合gap和分数不平衡gap),提出自动聚合(auto aggregation)和逐像素重缩放(per-pixel rescaling)两项技术组成GoCA框架,首次使更强的扩散模型(SDXL、PixArt-Sigma、Flux)在无训练语义分割中显著超越旧模型。

MARIS: Marine Open-Vocabulary Instance Segmentation

这篇论文一手做了第一个细粒度的水下开放词汇实例分割基准 MARIS(16K 图、158 个细类),一手提出由几何先验增强模块(GPEM)和语义对齐注入机制(SAIM)组成的统一框架,用深度图几何先验对抗水下视觉退化、用水下感知的文本提示对抗语义错位,在 in-domain 与 cross-domain 两种设置下都显著超过现有 OV 分割基线。

MARSS: Radar Semantic Segmentation via Modular Attention and State Space Models

针对雷达频率图"各向异性、多尺度、稀疏噪声"三大特性,MARSS 用三个为雷达量身定制的模块(去噪编码 RADE、自适应多尺度融合 RFAF、Mamba+轴向注意力的状态空间解码 RADM)替换通用 CNN/Transformer 算子,在 CARRADA 上以 9.3M 参数把 RA 视角 mIoU 从 44.3% 提到 46.97%,对小而快目标尤其鲁棒。

MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator

提出学习型 Matting Quality Evaluator (MQE),在无 ground-truth 条件下逐像素评估 alpha 质量,既作为在线训练引导又作为离线数据筛选器,构建了 28K 片段 / 240 万帧的真实世界视频抠图数据集 VMReal,配合参考帧训练策略,显著超越所有现有方法。

MatchMask: Mask-Centric Generative Data Augmentation for Label-Scarce Semantic Segmentation

MatchMask 只用极少量带标注的 mask,先用「梯度探针」找出扩散模型里真正负责空间控制的少数关键层,再给这些层挂一个 0.7M 参数的 LoRA 适配器做 mask-to-image 合成,并用「相对过滤」剔除合成图里对不齐的噪声区域,从而在标注稀缺场景下把语义分割性能显著拉高(VOC 1/8 标注下 +6.8% mIoU)。

Mitigating Objectness Bias and Region-to-Text Misalignment for Open-Vocabulary Panoptic Segmentation

OVRCOAT 用一个轻量的「CLIP 置信度反向修正 mask transformer 的 objectness 分数(COAT)」+「mask 级别的图文对齐微调(OVR)」两件套,专治开放词汇全景分割里"训练时没见过的物体被当成背景丢弃"和"CLIP 区域特征对不准类别"两个老毛病,在 ADE20K 上把 PQ 推到新 SOTA(相对 +5.5%),且比之前的全量微调方案省显存。

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

提出 MixerCSeg,通过解析 Mamba 的隐式注意力机制将通道解耦为全局/局部分支,分别用 Self-Attention 和 CNN 增强,配合方向引导边缘门控卷积,以 2.05 GFLOPs / 2.54M 参数实现裂缝分割 SOTA。

Mixture of Prototypes for Test-time Adaptive Segmentation

把传统 TTA-Seg 里"每类一个原型"的做法升级为"每类一簇专家"——用 K-means 把源域类内原型聚成多个专家、用门控网络按样本动态加权融合,并用 min-max 熵优化只更新门控,在 Cityscapes→ACDC、GTA5→真实 等基准上刷出 TTA / 持续 TTA 新 SOTA。

Masked Representation Modeling for Domain-Adaptive Segmentation

提出在潜在空间而非输入空间做掩码建模的辅助任务MRM,通过轻量级Rebuilder模块对编码器特征做掩码-重建并用分割损失监督,在GTA→Cityscapes上为四种UDA基线平均带来+2.3 mIoU提升,推理时零额外开销。

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

PCA-Seg 提出并行代价聚合(Parallel Cost Aggregation)范式替代传统的串行空间-类别聚合架构,通过专家驱动感知学习(EPL)模块高效整合语义和空间上下文流,并用特征正交解耦(FOD)策略消除两种知识流的冗余,每个并行块仅增加 0.35M 参数即在 8 个开放词汇语义和部件分割基准上达到 SOTA。

PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation

PEARL 提出了一种基于 Procrustes 对齐和文本感知拉普拉斯传播的两步推理方法,在不引入额外训练或辅助骨干网络的前提下,通过修正 CLIP 最后一层自注意力中 key-query 的几何失配并利用文本语义引导标签传播,在训练免开放词汇语义分割上达到了新的 SOTA。

PIX-TAB: Efficient PIXel-Precise TABle Structure Recognition Approach with Speculative Decoding and Region-Based Image Segmentation

PIX-TAB 用「直接把行列像素坐标编进序列」的 PAPP token 让一个轻量编码器-解码器在推理时不再需要独立的 bbox 头,再叠加一套纯解析的推测解码和基于洪水填充的区域分割兜底大表格,做出一个能在手机上跑、比全量版本快 3 倍多的表格结构识别模型。

PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

本文定义了 UAV Reasoning Segmentation 任务,构建了包含 10K 高分辨率无人机图像和链式推理标注的 DRSeg 基准,并提出了双路径像素级多模态大模型 PixDLM 作为基线。

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

提出基于指针 (Pointer) 机制的命令序列表示,将 B-Rep 几何实体(边/面)显式引入自回归 CAD 生成,首次在命令序列方法中支持 chamfer/fillet 操作,同时大幅降低量化误差导致的拓扑错误。

PR-MaGIC: Prompt Refinement Via Mask Decoder Gradient Flow For In-Context Segmentation

PR-MaGIC 是一个免训练、测试时的提示精炼框架,把 SAM mask decoder 的梯度当作"判别器梯度流"反传到 query 图像嵌入上,迭代地把自动生成的劣质提示点"挪到"更对的位置,再用 top-1 相似度从多步候选里挑出最稳的掩码,作为即插即用模块给 PerSAM-F、Matcher 这类 one/few-shot 分割框架稳定涨点。

PromptMoE: A Segmentation Refinement Framework Leveraging Mixture of Experts for Improved Prompting

PromptMoE 把"给 SAM 出 prompt 来精修粗糙掩码"这件事,从固定启发式规则改成一个混合专家(MoE)问题:用 10 个互补的逐像素视觉线索当专家、一个稀疏路由器只挑出最相关的两个专家融合成引导图、再用一个空间多样化的采点模块在引导图上放置 prompt,在 5 个 benchmark 上相对最强基线平均提升 +6.24 IoU / +8.99 BIoU。

PRUE: A Practical Recipe for Field Boundary Segmentation at Scale

本文对18个分割和地理空间基础模型(GFM)进行了系统性评估,提出PRUE——一种结合U-Net骨干、复合损失函数和针对性数据增强的农田边界分割方案,在FTW基准上达到76% IoU和47% object-F1,分别比baseline提升6%和9%,同时提出了一套评估部署鲁棒性的新指标。

RAVEN: Radar Adaptive Vision Encoders for Efficient Chirp-wise Object Detection and Segmentation

RAVEN 把毫米波 FMCW 雷达的原始 ADC 流当作"按 chirp 到达的时序"来处理:用每接收通道独立的状态空间模型保住 MIMO 阵列的相位结构,再用一个轻量 cross-attention 当"可学习波束成形器"重建虚拟天线特征,并通过逐 chirp 提前退出在一帧还没收完时就出检测/分割结果,最终在两个车载雷达数据集上拿到 SOTA,同时把计算量压低多达 170×、端到端延迟降 4×。

RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation

提出 RealVLG 框架,包含 11B 级真实世界多粒度标注数据集 RealVLG-11B 和基于强化学习微调的统一模型 RealVLG-R1,首次将视觉语言定位(VLG)与机器人抓取统一到同一范式中,实现从自然语言指令到 bounding box、分割掩码、抓取姿态和接触点的端到端预测,并展现出零样本泛化能力。

ReAttnCLIP: Training-Free Open-Vocabulary Remote Sensing Image Segmentation via Re-defined Attention in CLIP

ReAttnCLIP 把 CLIP 最后一层的注意力图拆成「patch↔patch、[CLS]→patch、patch→[CLS]」三块分别动手术——用原始 patch 嵌入相似度(外加旋转增强与中间层融合)替换 patch 间注意力、用中间层注意力重建更有信息量的 [CLS] 全局表示、并把 [CLS] 对 patch 的那一列直接清零,从而无需任何训练就在 10 个遥感数据集上取得开放词表分割的 SOTA(开放词表平均 +1.7%、地物提取 +1.1%)。

REL-SF4PASS: Panoramic Semantic Segmentation with REL Depth Representation and Spherical Fusion

提出 REL 深度表示(基于柱面坐标系的 Rectified Depth + EGVIA + LOA 三通道)和球面动态多模态融合(SMMF),用于全景语义分割,在 Stanford2D3D 上实现 63.06% 平均 mIoU(比 HHA 基线提升 2.35%),并将面对 3D 扰动时的性能方差降低约 70%。

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

ReSAM 把每个实例的稀疏点击通过 SAM 先得到粗掩码,再从掩码反推紧致框作为「自提示」重新查询 SAM,并用一个轻量的滚动队列做跨增广语义对齐,让 SAM 仅靠 1 个点标注就在三个遥感数据集上逼近全掩码监督(与全监督差距压到 1.3% / 4.9% / 8.5%),同时比原型对齐方法省 84% 显存。

Rethinking Box Supervision: Bias-Free Weakly Supervised Medical Segmentation

针对边界框弱监督医学分割中"框形偏置导致预测趋于矩形"的痛点,作者提出 WeakMed 框架,用一个可微的 Mask-to-Box(M2B)变换把预测掩码投影到与框对齐的表示上做监督以消除框形偏置,再用一个 Scale Consistency(SC)尺度一致性损失补偿 M2B 丢掉的细粒度信息,两个组件均只在训练时启用、不改网络结构、零推理开销,在 9 任务/9 数据集/6 模态上稳超已有弱监督方法并逼近全监督。

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

针对开放词表分割(OVS)落后于全监督模型的现状,本文用「几张带像素标注的支持图」补充文本提示,提出 RNS——一个检索增强的测试时适配器:为每张测试图临时训练一个轻量线性分类器,把检索来的视觉支持特征和文本支持特征做「学习式逐图融合」,在 A100 上不到 1 秒就把零样本到全监督的差距缩小到 11.5 mIoU。

Revisiting Geometric Obfuscation with Dual Convergent Lines for Privacy-Preserving Image Queries in Visual Localization

针对"把关键点替换成随机直线"的几何混淆会被邻域几何恢复攻击破解的问题,本文提出 Dual Convergent Lines(DCL):把每个关键点提升到一条连向两个固定锚点之一的直线,让攻击者的点恢复优化变成病态问题(要么塌缩到锚点、要么在分界处近平行而高方差发散),在保持与 l6P 求解器兼容、可实时定位的同时,成为目前唯一能抵御该攻击的几何混淆方案。

RMAE-ProGRess: Advancing Semantic Segmentation in Unstructured Environments

针对越野/非结构化场景的语义分割,本文用一个砍掉一半层数的 ViT-MAE 编码器(RMAE)抽取非相邻多层特征,再配一个由渐进式跳跃融合(PLF)、轻量通道注意力(LCAR)、瓶颈特征融合(BFF)三块组成的轻量解码器 ProGRess,在 RELLIS-3D / RELLIS-3DC / RUGD 三个越野数据集上以更小的参数量刷到 57.41% / 78.95% / 45.63% mIoU 的 SOTA。

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video

本文提出 RobotSeg,第一个同时支持图像和视频的机器人分割基础模型,基于 SAM 2 引入结构增强记忆关联器(SEMA)、机器人提示生成器(RPG)和标签高效训练策略,仅需首帧标注即可训练,在自动模式下 Whole Robot 分割达到 85.1 J&F,比 SAM 2.1 微调版高 4.9 分,同时参数仅 41.3M(远小于现有 638M+ 方案)。

RS-SSM: Refining Forgotten Specifics in State Space Model for Video Semantic Segmentation

提出 RS-SSM,通过频域分析提取各通道的特定信息分布特征(CwAP),并自适应反转遗忘门矩阵来补充性精炼 SSM 状态空间压缩时丢失的时空细节(FGIR),在 4 个视频语义分割基准上达到 SOTA 且保持高效率。

S2C2Seg: Semantic-Spatial Consistency and Category Optimization for Open-Vocabulary Segmentation

S2C2Seg 是一个免训练、可插在任意 CLIP-based 分割方法上的即插即用框架,它先用「全局语义 + 局部空间 + 跨视图一致性」三路打分把超大词表裁成一个紧凑的候选类别子集(CSS),再用类别置信度加权把 CLIP 全局特征和 CLIPSeg 局部预测自适应融合(CSG),在 8 个 benchmark 上给 SCLIP / ProxyCLIP / CorrCLIP 分别带来 +9.7 / +6.8 / +3.4 mIoU 提升,把平均 mIoU 推到 51.2% 的新 SOTA。

SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains

针对"分割模型被冻结、不能碰内部参数"的隐私部署场景,SAGE 不微调骨干网络,而是为每种风格学一个生成 border 形视觉提示的生成器,再用跨注意力按输入风格自适应融合这些提示贴回输入图,让冻结模型在五个 DGSS benchmark 上既超越同类隐私方法、又在所有设置下打败全量微调。

SAMIX: Reinforcing SAM2 with Semantic Adapter and Reference Selecting Policy for Mix-Supervised Segmentation

SAMIX 把 SAM2 的视频"实例追踪"记忆机制改造成跨图像的"语义追踪",用一个轻量语义适配器 + 强化学习训练的参考选择网络,为每张弱标注/无标注图像挑出一组同语义参考图作为密集上下文提示,生成高质量伪标签来统一监督混合标注(mask/box/scribble/point/class/无标注)训练,在 VOC、Cityscapes、伪装目标检测、息肉分割四个数据集上全面 SOTA。

SAMTok: Representing Any Mask with Two Words

SAMTok 把任意区域 mask 压成两个离散文本 token,让普通 MLLM(如 QwenVL)只靠 next-token prediction 就能像处理文字一样理解和生成 mask,无需任何分割解码头或定制损失,并因为 mask 变成了"文字"而首次可以用纯字符匹配的奖励做强化学习。

SARMAE: Masked Autoencoder for SAR Representation Learning

提出 SARMAE 框架,通过百万级 SAR 数据集 SAR-1M、散斑感知表征增强 (SARE) 和光学语义锚约束 (SARC),实现噪声鲁棒的 SAR 自监督预训练,在分类、检测和分割多个下游任务上取得 SOTA。

SDDF: Specificity-Driven Dynamic Focusing for Open-Vocabulary Camouflaged Object Detection

SDDF 提出开放词汇伪装目标检测(OVCOD)新任务,构建了 OVCOD-D 基准,通过子描述主成分对比融合策略去除冗余文本噪声,以及特异性引导的区域弱对齐和动态聚焦机制增强伪装目标与背景的区分能力,在开集设置下达到 56.4 AP。

Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

提出 EDA-PSeg 框架,通过图匹配适配器(GMA)和欧拉-边际注意力(EMA)两个核心模块,首次实现从针孔视图到 360° 全景图像的开放集无监督域自适应语义分割,同时处理几何视场角畸变和未知类别发现。

Seeing Both Sides: Towards Bidirectional Semantic Alignment for Open-Vocabulary Camouflaged Object Segmentation

BaCLIP 用一个双向交叉注意力模块(MREM)让文本和视觉特征互相校准,再把精炼后的文本嵌入改造成 SAM 的语义化提示,从而在开放词表伪装目标分割(OVCOS)的 OVCamo 基准上以更轻量的结构刷到 SOTA,cIoU 比前 SOTA 高出 4.5 个点。

SegGBC: Justifiable Coarse-to-Fine Granular-Ball Computing for Enhancing Clustering Image Segmentation

SegGBC 第一次把"粒球计算(Granular-Ball Computing)"这套粗到细的多粒度聚类范式搬到图像分割上,用直觉模糊集显式建模图像里的内在不确定性、用一个语义感知的"语义紧致度准则(SCMGB)"指导粒球的分裂与合并,既能独立做无监督分割、又能当即插即用前端把已有聚类分割方法的 SA / mIoU 各拉高 3% 以上。

Selective, Regularized, and Calibrated: Harnessing Vision Foundation Models for Cross-Domain Few-Shot Semantic Segmentation

HERA 把视觉基础模型(VFM)用于跨域小样本分割时的失败拆成「层敏感 + 注意力噪声 + 像素误差」三层问题,提出 select-regularize-calibrate 三阶段框架:先按 episode 自适应选出最稳的那一层(HLS),再用熵门控高斯先验正则该层的自注意力(PGR),最后融合多路残差校准像素预测(PAC),全程冻结 backbone、测试时只微调 <2.7% 参数、不碰源数据,就在四个 CD-FSS benchmark 上超过 SOTA 4.1+ mIoU。

SemLayer: Semantic-aware Generative Segmentation and Layer Construction for Abstract Icons

提出 SemLayer,一个基于生成模型的流水线,将扁平化的矢量图标恢复为语义化分层结构——先通过扩散模型将分割重新定义为上色任务,再进行遮挡区域的语义补全,最后用整数线性规划确定层级顺序,实现 mIoU +5.0、PQ +16.7 的分割提升。

SouPLe: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts

提出 SouPLe (Sound-aware Prompt Learning),通过将CLIP中固定的文本提示替换为基于图像特征生成的可学习上下文tokens,增强音频嵌入token与视觉特征之间的语义对应,在VGG-SS上cIoU提升3.75、开放集设定下cIoU提升6.32,全面超越先前方法。

SPAR: Single-Pass Any-Resolution ViT for Open-Vocabulary Segmentation

提出 SPAR,一种通过将细步幅滑窗教师的空间推理能力蒸馏到单次前向传递学生的方法,将 ViT 变为分辨率无关的密集特征提取器,在开放词汇分割中比单次前向基线提升 10.5 mIoU,同时比教师快 52 倍。

Structure-Aware Representation Distillation for Tiny-Dense Object Segmentation

SARD 把分割知识蒸馏从"模仿 mask"改成"对齐特征空间几何",用一张由边界、曲率、空间拥挤度合成的"结构重要度图" \(W(i)\) 给特征蒸馏损失加权,让轻量学生把容量集中到边界和密集接触区,在 Cityscapes / ADE20K / 工业岩石碎裂 RockFrag 上一致提升 mIoU 和边界 IoU(RockFrag 上比 CWD 提 +4.3 mIoU / +6.7 bIoU),且推理零额外开销。

Synthetic Object Compositions for Scalable and Accurate Learning in Detection, Segmentation, and Grounding

SOC 是一条"以物体为中心"的合成数据流水线:先用生成模型造出 2000 万个高质量单物体分割片段,再用 3D 几何布局 + 相机配置增广把它们拼进 200 万张图,配上像素级精确的掩码/框/指代表达——仅用 10 万张合成图训练,开放词表检测/分割/定位就能超过 GRIT 20M、V3Det 200K 等真实数据集(LVIS +10.9 AP,gRefCOCO +8.4 NAcc)。

Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation

本文提出TODSynth框架,通过MM-DiT的统一三模态注意力实现文本-图像-掩码联合控制的遥感图像合成,并创新性地提出控制-校正流匹配(CRFM)方法,在采样阶段利用下游分割模型的语义损失动态调整生成轨迹,使合成数据在FUSU-4k和LoveDA上分别提升4.14%和2.08%的mIoU。

Test-Time Multi-Prompt Adaptation for Open-Vocabulary Remote Sensing Image Segmentation

针对开放词汇遥感图像分割(OVRSIS)里被忽视的"文本歧义"问题,提出即插即用的 TMPA:先用 LLM 把朴素类名扩写成多条上下文感知描述,再在推理阶段用高置信视觉特征引导地校准文本嵌入,在 17 个遥感数据集上把 SegEarth-OV 平均涨 4.6%。

TF-SSD: A Strong Pipeline via Synergic Mask Filter for Training-free Co-salient Object Detection

不训练任何网络,把 SAM 生成的海量候选掩码当"原料池",用三级质量过滤 + DINO 注意力做图内显著性 + DINO 原型做跨图语义一致性,逐级把掩码收敛成协同显著预测,在 CoCA 上比此前 training-free SOTA 高 13.7% F-measure。

The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation

提出 GOLD 框架用于持续测试时适应(CTTA),核心发现是最小特征更新子空间("黄金子空间")与分类器权重行空间一致且天然低秩;通过 Average Gradient Outer Product (AGOP) 在线估计该子空间,结合轻量缩放向量进行特征适应,在分类和分割基准上以极低计算开销达到 SOTA 性能。

The Missing Point in Vision Transformers for Universal Image Segmentation

本文指出当前掩码分割模型(Mask2Former/OneFormer 等)的瓶颈不在掩码生成而在掩码分类,提出 ViT-P——一个把掩码生成与分类解耦的两阶段框架:冻结的提议生成器产出类别无关掩码,再用基于 ViT 的「点分类器」对每个掩码的最高值点做分类,在 ADE20K 全景 54.0 PQ、Cityscapes 语义 87.4 mIoU 等多个基准刷到 SOTA。

The Power of Prior: Training-Free Open-Vocabulary Semantic Segmentation with LLaVA

把冻结的 LLaVA 当成分割器:通过结构化问答让它"承认"图里有哪些类,再从 LLM 中间层的视觉-类别 token 距离里反查激活区域,最后用原型净化后的高置信区域当点/框提示喂给 SAM,完全不训练就在 VOC21(68.0% mIoU)和 COCO-Object(42.0%)上刷新 SOTA。

Towards High-Quality Image Segmentation: Improving Topology Accuracy by Penalizing Neighbor Pixels

提出 Same Class Neighbor Penalization (SCNP),通过在训练时将每个像素的 logit 替换为其同类邻域中最差预测,迫使模型优先修复邻域中的弱分类像素,从而以极低代价(仅 3 行代码、几毫秒/迭代)显著提升分割的拓扑精度。

Towards Robust Multi-Modal Semantic Segmentation with Teacher-Student Framework and Hybrid Prototype Distillation

提出 RobustSeg——一个带反馈回环的教师-学生自蒸馏框架,用「跨模态原型蒸馏 + 主模态 IFV 蒸馏」混合策略(HPD)让模型在传感器缺失/退化时保持鲁棒,同时几乎不损失全模态精度(DeLiVER 上缺失模态 +2.40% mIoU,全模态仅 -0.1%)。

Training-Free Open-Vocabulary Camouflaged Object Segmentation via Fine-Grained Object Binding and Adaptive Hybrid Prompt

本文提出一个完全免训练的开放词表伪装目标分割(OVCOS)框架:用 MLLM 为每张图生成细粒度的「对象描述 + 背景描述」补全稀疏文本语义,再用语义探针(Semantic Probe)解耦对象/背景特征、按 Spearman 排序一致性建模 patch 之间的类别相似度实现精确「对象绑定」,配合熵引导的文本嵌入调整(EGTEA)和自适应混合提示(AHPG)驱动 SAM,在 OVCamo 上大幅超过此前最强的免训练方法 ResCLIP(六指标平均 +16.8%)。

Uncertainty-Aware Modality Fusion for Unaligned RGB-T Salient Object Detection

针对 RGB 与热红外图像空间未对齐的显著目标检测,UMFNet 把"对齐"从显式几何配准改写成特征空间里的不确定性表示学习——用逐像素高斯分布隐式找跨模态一致区域、再用不确定性导出的置信图门控融合,在 5 个未对齐 + 3 个对齐基准上全面 SOTA,且比配准式方法更快更省。

Unified Spherical Frontend: Learning Rotation-Equivariant Representations of Spherical Images from Any Camera

USF 提出了一个模块化、镜头无关的球面视觉前端,通过将任意标定相机图像投影到单位球面上执行空间域球面重采样、卷积和池化操作,仅用距离加权核就能天然保证旋转等变性,在分类、检测和分割任务上展现了对随机旋转和跨镜头的零样本泛化鲁棒性。

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

提出 UniMatch,一个语义感知的粗到细 3D 形状匹配框架:粗阶段通过类别无关 3D 分割 + MLLM 命名 + FG-CLIP 语言嵌入建立部件级对应;细阶段通过组级排序对比损失(Group-wise RnC Loss)在扩展的函数映射框架中学习稠密对应,实现跨类别、非等距形状的通用匹配。

V²-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

V²-SAM 把单视图分割大模型 SAM2 改造成跨视图物体对应框架,用一个几何感知的坐标提示生成器(V2-Anchor)和一个外观感知的视觉提示生成器(V2-Visual)分别解决「目标在哪」和「目标长什么样」,再用三专家 + 循环一致性选择器(PCCS)自适应挑出最可靠的预测,在 Ego-Exo4D、DAVIS-17、HANDAL-X 三个基准上都刷新了 SOTA。

VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation

VGGT-Segmentor(VGGT-S)把多视图几何大模型 VGGT 当冻结骨干,在其上接一个三阶段的「联合分割头」,把 VGGT 可靠的物体级特征对齐转译成像素级掩码,并用单图自监督训练摆脱配对标注,在 Ego–Exo4D 跨视图分割上把平均 IoU 刷到 67.7%/68.0%,比之前最好方法高出 18.0%/12.8%。

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

提出 VidEoMT,一种纯编码器(encoder-only)视频分割架构,通过 query propagation 和 query fusion 将分割与时序关联统一在单个 ViT 编码器中,在保持与 SOTA 可比精度的同时实现 5×–10× 加速(ViT-L 达 160 FPS)。

VIRST: Video-Instructed Reasoning Assistant for SpatioTemporal Segmentation

VIRST 提出端到端框架将全局视频推理和像素级 mask 预测统一在单个视觉语言模型中,通过时空融合(STF)和时序动态锚点更新器(TDAU)实现时空一致的视频分割,在 ReVOS 上 J&F 达 70.8(+7.5 over SOTA),MeViS 62.9(+9.2),同时推理速度 5.1 FPS(比 VRS-HQ 快 1.3 倍)。

XSeg: A Large-scale X-ray Contraband Segmentation Benchmark for Real-World Security Screening

本文构建了目前最大的 X 光违禁品分割数据集 XSeg(98,644 张图像、295,932 个实例 mask、30 个细粒度类别),并提出域特化模型 APSAM,通过 Energy-Aware Encoder 利用 X 光双能量物理特性 + Adaptive Point Generator 智能扩展用户点击提示,mIoU 达 72.83%,比 SAM 微调高 4.96%。