跳转至

✂️ 语义分割

📹 ICCV2025 · 78 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (4) · 📷 CVPR2026 (103) · 🔬 ICLR2026 (11) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (48) · 🧪 ICML2025 (22)

🔥 高频主题: 语义分割 ×43 · 扩散模型 ×4 · 遥感 ×4 · 语音 ×4 · 推理 ×4

2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos

本文提出从人类活动视频中自动提取精确的双手可操作区域(affordance)数据集 2HANDS,并训练基于 VLM 的 2HandedAfforder 模型,实现根据文本提示预测双手抓握的精确物体区域分割,在新提出的 ActAffordance 基准上显著优于现有方法。

A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions

提出即插即用的物理动作恢复方法,通过Mask条件运动修正模块(MCM)修复视频动捕中的瑕疵帧,以及基于预训练+测试时适应的物理运动迁移模块(PTM)实现高难度野外动作的物理仿真,显著提升动作的物理真实性。

A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions

提出即插即用的物理运动修复框架,通过Mask条件运动校正模块(MCM)修复视频运动捕捉中的缺陷帧,结合基于RL测试时适应的物理运动传输模块(PTM),首次实现对野外高难度运动(如体操、武术后空翻)的物理仿真修复。

Advancing Visual Large Language Model for Multi-granular Versatile Perception

本文提出 MVP-LM,一个基于视觉大语言模型的多粒度通用感知框架,通过创新的多粒度解码器和 CoT 启发的数据统一策略,首次在单一模型中同时支持词级/句级指令下的框/掩膜预测四种感知组合,在全景分割、目标检测、视觉定位和指示表达分割等任务上取得有竞争力的性能。

AnimalClue: Recognizing Animals by their Traces

提出 AnimalClue,首个大规模动物痕迹识别数据集,包含 159,605 个边界框覆盖 968 个物种的五类间接线索(脚印、粪便、蛋、骨骼、羽毛),并建立了分类、检测、实例分割和特征预测四项基准。

Auto-Vocabulary Semantic Segmentation

本文提出 Auto-Vocabulary Semantic Segmentation (AVS) 新任务,通过 AutoSeg 框架自动从图像中发现目标类别并分割,无需人为指定词汇表,在 PASCAL VOC 上达到 87.1 mIoU,远超唯一同类方法 ZeroSeg (20.1),甚至超越部分需要指定类别的开放词汇方法。

Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection

本文提出 RISE——一种检索自增强的无监督伪装目标检测范式,通过从训练集本身构建前景/背景原型库并利用 KNN 检索生成伪标签,在无任何标注的条件下大幅超越现有无监督和基于提示的方法。

Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?

提出SatDiFuser框架,将生成式地理空间扩散模型(DiffusionSat)转化为判别式遥感基础模型,通过系统分析多阶段多时间步扩散特征并设计三种融合策略(全局加权、局部加权、MoE联合融合),在语义分割和分类任务上优于现有SOTA遥感基础模型,最高提升+5.7% mIoU和+7.9% F1。

CAVIS: Context-Aware Video Instance Segmentation

提出CAVIS,通过引入上下文感知实例追踪器(CAIT)融合物体边界周围的上下文信息来增强实例关联,并设计原型化跨帧对比损失(PCC)保证跨帧特征一致性,在VIS和VPS任务上全面刷新SOTA。

CLOT: Closed Loop Optimal Transport for Unsupervised Action Segmentation

提出闭环最优传输(CLOT)框架,通过三级循环特征学习(帧嵌入→段嵌入→交叉注意力精化帧嵌入)联合求解三个OT问题,在帧级和段级表征之间建立显式反馈循环,显著提升无监督动作分割的边界检测和聚类质量。

ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction

提出ConformalSAM框架,利用Conformal Prediction校准基础分割模型SEEM在目标域的输出不确定性,筛除不可靠像素标签后作为未标注数据的监督信号,配合后期自依赖训练策略,在PASCAL VOC上1/16标注设定下达到81.21 mIoU。

CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation

揭示CLIP用于分割时patch间"类间相关性"是性能瓶颈的根本原因,提出CorrCLIP通过SAM限制patch交互范围(scope reconstruction)+DINO计算更一致的相似度值(value reconstruction)+空间/语义特征增强+SAM mask后处理,在8个benchmark上training-free方法平均mIoU从48.6%提升到53.6%。

Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild

CAV-SAM 将参考-目标图像对之间的对应关系表示为伪视频序列,通过基于扩散模型的语义过渡模块(DBST)桥接语义差异,以及测试时几何对齐模块(TTGA)对齐几何变化,使SAM2的视频分割能力零训练地适配参考分割任务,在跨域少样本分割基准上超越SOTA约5% mIoU。

Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild

将reference-target图像对之间的对应关系表示为用扩散模型生成的伪视频序列,利用SAM2的iVOS能力进行分割,结合test-time轻量微调对齐几何变化,在跨域few-shot分割上比SOTA方法提升约5% mIoU,且无需meta-training。

DDB: Diffusion Driven Balancing to Address Spurious Correlations

提出Diffusion Driven Balancing(DDB)方法,利用Stable Diffusion的文本反演和图像修复能力,自动生成少数组样本来平衡数据集中的虚假相关性,结合基于ERM模型预测概率和积分梯度的双重剪枝策略确保生成质量,在Waterbirds和MetaShift上达到最优最差组准确率。

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

提出DeRIS框架,将指代图像分割任务解耦为感知(perception)和认知(cognition)两个分支,通过回环协同(Loopback Synergy)机制迭代增强两分支的交互,并引入非指代样本转换增强策略,在RefCOCO/+/g和gRefCOCO数据集上取得SOTA。

Dynamic Dictionary Learning for Remote Sensing Image Segmentation

本文提出动态字典学习框架 D2LS,通过多阶段交替交叉注意力迭代更新类别感知语义嵌入(字典),并引入对比约束增强类间可分性,在遥感图像粗粒度和细粒度分割任务上均超越 SOTA。

E-SAM: Training-Free Segment Every Entity Model

E-SAM 是一个无需额外训练的框架,通过三个级联模块——多层级掩码生成(MMG)、实体级掩码精炼(EMR)和欠分割修复(USR)——系统性地解决 SAM 自动掩码生成(AMG)中的过分割和欠分割问题,在基准指标上超越现有实体分割方法 +30.1 分

Enhancing Transformers Through Conditioned Embedded Tokens

揭示 Transformer 自注意力矩阵存在固有的 ill-conditioning 问题,通过理论分析建立自注意力条件数与嵌入令牌条件数的直接关系,提出 Conditioned Embedded Tokens 方法(对嵌入矩阵添加基于 SVD 的修正项),在图像分类、目标检测、实例分割和 NLP 等多种任务上一致提升性能。

Ensemble Foreground Management for Unsupervised Object Discovery

本文提出 UnionCut——一种基于最小割和集成方法的前景联合体检测方法,为无监督目标发现(UOD)提供数学上有保证的前景先验,使 UOD 算法能够准确判断发现区域是否为前景并在恰当时刻停止探索;同时提出蒸馏版 UnionSeg 大幅提升效率和精度。

Exploiting Domain Properties in Language-Driven Domain Generalization for Semantic Segmentation

提出DPMFormer框架,通过域感知提示学习将输入图像的域特有属性转化为文本上下文提示,并结合域鲁棒一致性学习,解决语言驱动域泛化语义分割中视觉与文本上下文的语义错位问题。

Exploring Probabilistic Modeling Beyond Domain Generalization for Semantic Segmentation

提出 PDAF(概率扩散对齐框架),通过概率扩散建模显式估计潜在域先验(LDP),为现有分割网络提供域偏移补偿,在不需要目标域配对样本的情况下实现跨域泛化的 SOTA 性能。

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

挑战OVSS中"平均80个模板"的默认做法,发现每个类别存在特定的"专家模板"(class-expert)远优于平均分类器,提出用预测熵无监督选择专家模板+融合专家预测的FLOSS方法,在不需要标签和训练的情况下一致提升现有OVSS方法。

Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling

提出一个遥感模型预训练流水线,包括 1300 万张光学遥感图像数据集 OpticalRS-13M 和基于语义丰富度选择性编码/重建的高效 MIM 方法 SelectiveMAE,仅用 40% 图像 patch 即可训练出与全量 patch 相当的模型,同时实现 2 倍以上加速。

Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation

提出持续视频实例分割(CVIS)新问题,设计分层视觉提示学习(HVPL)模型,通过帧级和视频级两个层面的遗忘补偿机制,有效缓解旧类别的灾难性遗忘。

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

提出HiMTok(分层掩码Token化器),将分割掩码表示为最多32个由粗到细的离散token,使LMM像生成文本一样直接生成分割结果,无需额外的图像条件掩码解码器,在多个分割基准上达到SOTA。

How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?

提出 SSP (Stepping Stone Plus) 框架,将光流作为辅助掩码提示与两类文本提示协同工作,配合视觉-文本对齐模块 (VTA),在音视频语义分割任务中实现 SOTA 性能。

Hybrid-TTA: Continual Test-time Adaptation via Dynamic Domain Shift Detection

Hybrid-TTA 提出一种持续测试时自适应(CTTA)框架,通过动态域偏移检测(DDSD)模块判断当前输入是否来自新域,自适应地在全参数微调(Full Tuning)和高效微调(Adapter Tuning)之间切换;同时引入掩码图像建模自适应(MIMA)作为辅助任务增强模型稳定性,在 Cityscapes-to-ACDC 基准上达到 62.2% mIoU,且推理速度比可比方法快约 20 倍

Implicit Counterfactual Learning for Audio-Visual Segmentation

本文提出隐式反事实框架(ICF),通过多粒度隐式文本作为模态桥梁减少音视频表征差距,并利用语义反事实生成正交反事实样本缓解模态偏好问题,配合协作分布感知对比学习实现无偏的跨模态理解,在三个 AVS 数据集上达到 SOTA。

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation

提出 Inter2Former,通过动态混合注意力(DHA)将边界 token 路由到全注意力、非边界 token 路由到线性复杂度的 BSQ 注意力,配合动态提示嵌入(DPE)、混合专家(HMoE)和动态局部上采样(DLU),在 CPU 设备上实现高精度交互式分割的 SOTA 性能与高效推理。

Joint Self-Supervised Video Alignment and Action Segmentation

提出 VAOT/VASOT 框架,基于融合 Gromov-Wasserstein 最优传输和结构先验,首次将自监督视频对齐和动作分割统一到单一模型中,视频对齐性能优于现有方法,动作分割也达到 SOTA。

Know "No" Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP

通过分析 CLIP 预训练数据中否定表达的稀缺和错位问题,设计两条基于 LLM/MLLM 的否定数据生成管线来微调 CLIP 文本编码器,开发出 NegationCLIP,在增强否定理解能力的同时保持通用性能,并提出 NegRefCOCOg 基准用于全面评估否定理解。

Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation

提出一种端到端的弱监督语义分割方法,通过在 ViT 中引入多个 [CLS] token(每个类别一个)、对 [CLS] token 输出嵌入进行随机掩码以及剪枝冗余注意力头,直接利用自注意力图生成类别特定的伪分割掩码,无需额外的 CAM 模块。

Latent Expression Generation for Referring Image Segmentation and Grounding

提出 Latent-VG 框架,通过从单个文本描述生成多个潜在表达式(共享同一主语、但具有不同视觉属性),利用互补的视觉细节弥补稀疏文本与丰富视觉信息之间的语义差距,在指代图像分割和指代表达理解任务上同时达到 SOTA。

LawDIS: Language-Window-based Controllable Dichotomous Image Segmentation

提出LawDIS,一种基于Stable Diffusion的语言-窗口双控可控二分图像分割框架,在宏观模式下通过语言提示指导目标分割,在微观模式下通过可变尺寸窗口精细化局部细节,在DIS5K上全面超越11种SOTA方法。

LawDIS: Language-Window-based Controllable Dichotomous Image Segmentation

提出 LawDIS,一个基于潜在扩散模型的可控二分图像分割框架,通过宏观语言控制(LS)和微观窗口细化(WR)两种模式的协同,实现高质量前景目标掩码生成,在 DIS5K 基准上全面超越 11 种 SOTA 方法。

LayerAnimate: Layer-level Control for Animation

提出LayerAnimate框架,将传统动画生产中的图层分离理念与视频扩散模型结合,实现图层级别的精细控制(运动分数、轨迹、草图),并设计自动化数据策划pipeline解决图层数据稀缺问题,在6种视频生成任务中全面超越现有方法。

Learn2Synth: Learning Optimal Data Synthesis Using Hypergradients for Brain Image Segmentation

提出Learn2Synth训练框架,通过超梯度(hypergradients)学习最优的合成数据增强参数,使在合成数据上训练的分割网络在真实数据上达到最优精度,兼顾域内高精度和域外强泛化,在脑MRI分割任务中全面超越SynthSeg和监督学习基线。

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation

提出一套完整的 affordance 学习系统:(1) 从第一人称视频自动提取精确的可抓取/功能性 affordance 分割标注,(2) 基于 DINOv2 + 深度几何引导的 GAT 模型实现跨域 affordance 分割(mIoU 提升 13.8%),(3) Aff-Grasp 框架在 179 次真实机器人试验中达到 77.1% 抓取成功率。

LEGION: Learning to Ground and Explain for Synthetic Image Detection

提出 LEGION 框架和 SynthScars 数据集,利用多模态大语言模型(MLLM)实现合成图像的伪影检测、像素级分割和文本解释三位一体,并创新性地将检测器从"防御者"扩展为"控制者",引导生成模型产出更高质量的图像。

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

提出LeGrad——一种专为ViT设计的逐层可解释性方法,通过计算激活值对各层注意力图的梯度作为解释信号,并跨层聚合以生成高质量的空间显著性图,在分割、扰动和开放词汇场景均展现出优越的空间保真度。

MOVE: Motion-Guided Few-Shot Video Object Segmentation

本文提出运动引导的少样本视频目标分割新任务及大规模数据集 MOVE(224 类运动、4300 视频、314K mask),并设计解耦运动-外观网络 DMA,通过帧差提取运动原型+外观原型的双分支架构,在新基准上显著优于现有 FSVOS 方法。

O-MaMa: Learning Object Mask Matching between Egocentric and Exocentric Views

将跨视角(ego-exo)物体分割任务重新定义为 mask matching 问题,利用 FastSAM 生成候选 mask、DINOv2 提取语义特征、对比学习匹配跨视角物体,在 Ego-Exo4D 基准上以仅 1% 可训练参数实现 SOTA。

Object-level Correlation for Few-Shot Segmentation

提出 OCNet,通过模仿生物视觉过程构建目标级别(而非图像级别)的 support-query 关联,先挖掘查询图像中的通用物体,再从中识别目标物体,有效抑制背景中的无关物体噪声。

OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation

提出 OmniSAM,首次将 SAM2 应用于全景语义分割的无监督域适应任务,通过滑动窗口将全景图切分为 patch 序列并利用 SAM2 的记忆机制捕获跨 patch 对应关系,结合 FoV-based 原型自适应和动态伪标签更新策略,在室内外场景均大幅超越 SOTA(+10.22% / +6.58%)。

On the Generalization of Representation Uncertainty in Earth Observation

系统研究了预训练表示不确定性在地球观测(EO)领域的泛化能力,发现 EO 预训练的不确定性在不同地理位置、EO 任务和目标粒度上具备强泛化能力,同时对地面采样距离(GSD)高度敏感。

Online Generic Event Boundary Detection

本文提出在线通用事件边界检测(On-GEBD)这一新任务——在流式视频中实时检测事件边界,并设计了基于认知科学事件分割理论(EST)的 ESTimator 框架,通过一致事件预测器(CEA)和在线边界判别器(OBD)的协同,在 Kinetics-GEBD 上 Avg F1 达到 0.748,超越所有在线基线且接近离线方法的性能。

Online Reasoning Video Segmentation with Just-in-Time Digital Twins

提出一种基于"即时数字孪生(Just-in-Time Digital Twin)"概念的多智能体框架,将感知和推理解耦,无需 LLM 微调即可实现在线视频推理分割,在语义、空间、时间三类推理任务中全面超越现有方法。

Open-World Skill Discovery from Unsegmented Demonstration Videos

受人类认知事件分割理论(EST)启发,提出 Skill Boundary Detection (SBD) 算法,利用预训练无条件动作预测模型的预测误差跳变来自动识别未分割演示视频中的技能边界,在 Minecraft 中显著提升条件策略和层级智能体的表现。

PartField: Learning 3D Feature Fields for Part Segmentation and Beyond

PartField 通过前馈模型学习连续 3D 特征场,用对比学习从混合的 2D/3D 部件提案中蒸馏知识,在类别无关的 3D 部件分割上比现有方法精度提高 20%+ 同时推理速度快数个数量级。

Prompt Guidance and Human Proximal Perception for HOT Prediction with Regional Joint Loss

提出 P3HOT 框架,通过文本 prompt 引导关注人体接触部位、深度感知模块过滤无关背景、以及 Regional Joint Loss 保证区域内类别一致性,在 HOT(Human-Object Contact)检测任务上取得 SOTA。

RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping

构建了首个大规模推理式 affordance 分割基准 RAGNet(273k 图像、180 类别、26k 推理指令),并提出 AffordanceNet 框架,将 VLM 预训练的 affordance 预测与抓取姿态生成相结合,展现出强大的开放世界泛化和推理能力。

Refer to Any Segmentation Mask Group With Vision-Language Prompts

提出全模态指代表达分割(ORES)任务及 RAS 框架,通过掩码级 LMM 和非自回归解码机制,根据视觉-语言混合提示从候选掩码中选择目标掩码组,在新 ORES 数据集及经典 RES/GRES 基准上取得 SOTA。

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

提出ReferDINO,通过将GroundingDINO视觉定位基础模型端到端适配到指代视频目标分割(RVOS)任务,设计定位引导可变形掩码解码器、目标一致性时序增强器和置信度查询剪枝策略,在五个基准上显著超越SOTA(Ref-YouTube-VOS上+3.9% \(\mathcal{J}\&\mathcal{F}\)),并实现51 FPS实时推理。

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

利用视频扩散模型中学到的通用视觉-语言映射,通过保留完整生成模型架构并将目标从预测噪声转变为预测掩码潜变量,实现对视频中任意可用语言描述的概念(包括非物体的动态过程)进行开放世界指代分割。

Region-based Cluster Discrimination for Visual Representation Learning

提出 RICE(Region-Aware Cluster Discrimination),通过构建十亿级区域数据集、设计 Region Transformer 层和统一区域聚类判别损失,联合优化目标感知和 OCR 能力,显著提升视觉编码器在分割、检测和 MLLM 多任务上的表现。

Rethinking Detecting Salient and Camouflaged Objects in Unconstrained Scenes

构建首个无约束显著性和伪装目标检测数据集USC12K(覆盖四种场景类型),提出基于SAM的USCNet网络,通过属性关系建模(ARM)模块显式建模显著和伪装目标的关系,并设计新指标CSCS衡量混淆程度,在所有场景中达到SOTA。

ROADWork: A Dataset and Benchmark for Learning to Recognize, Observe, Analyze and Drive Through Work Zones

提出首个大规模施工区域(work zone)数据集ROADWork,涵盖4375段视频、9650张丰富标注图像和129K带路径图像,揭示基础模型在施工场景下严重失效(AP仅2.9-4.2),微调后性能大幅提升(+32.2 AP),并提出识别、观察、分析、驾驶四层认知框架。

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

针对SAM 2在长视频中因贪心选择策略导致的错误累积问题,提出一种training-free的约束树搜索记忆策略,维护多条分割路径并在视频级别选择最优结果,在9个VOS和3个VOT benchmark上平均提升3.7 J&F,长视频场景最高提升5.3。

SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation

提出 SCORE 框架,利用多粒度场景上下文(区域上下文+全局上下文)增强开放词汇遥感实例分割,通过 Region-Aware Integration 和 Global Context Adaptation 两个模块分别强化视觉和文本表示。

SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation

提出SCORE框架,通过引入区域上下文(RAI)和全局上下文适配(GCA)两个模块,将遥感专用CLIP的多粒度场景知识注入到开放词汇实例分割pipeline中,在多个遥感数据集上的跨数据集评估中平均mAP超越前SOTA 5.53%。

Skeleton Motion Words for Unsupervised Skeleton-Based Temporal Action Segmentation

提出 Skeleton Motion Quantization (SMQ) 方法,通过关节解耦的时序自编码器和骨架运动词量化模块,实现无监督骨架序列时序动作分割,在 HuGaDB、LARa 和 BABEL 三个数据集上大幅超越现有无监督方法。

SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation

提出SPADE——一种面向开放词汇全景场景图生成(PSG)的空间感知去噪网络,通过DDIM逆向校准将预训练扩散模型适配为PSG特定的空间先验提取器,并设计关系图Transformer捕获长程和局部上下文,在闭集和开集场景中均大幅超越SOTA,尤其在空间关系预测上表现突出。

Stepping Out of Similar Semantic Space for Open-Vocabulary Segmentation

揭示现有开放词汇分割(OVS)测试集与训练语义空间高度相似的评估偏差,提出新基准 OpenBench 和方法 OVSNet,通过梯度无关聚合(GFA)融合异构特征和代理校准(PC)零成本扩展训练空间,在已有基准和 OpenBench 上均取得 SOTA。

TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models

提出 TAViS,一种文本桥接的音频-视觉分割框架,通过耦合 ImageBind 的跨模态对齐能力与 SAM2 的精确分割能力,引入文本桥接的混合提示机制和对齐监督策略,在单源、多源、语义及零样本分割场景上均取得 SOTA 性能。

Temporal Rate Reduction Clustering for Human Motion Segmentation

提出 Temporal Rate Reduction Clustering (TR²C) 方法,将最大编码率约简(MCR²)原理与时序连续性正则化相结合,联合学习符合子空间联合(UoS)分布的时序一致表示与亲和度矩阵,在五个基准上大幅刷新人体运动分割 SOTA。

TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

提出 TinyViM,一种基于频率解耦的轻量级卷积-Mamba 混合视觉骨干,通过拉普拉斯混合器将低频分量输入 Mamba 建模全局上下文、高频分量用深度卷积增强,配合频率斜坡 Inception 结构逐层调节频率配比,在分类/检测/分割任务上以 2-3 倍吞吐量超越现有 Mamba 模型。

TopoTTA: Topology-Enhanced Test-Time Adaptation for Tubular Structure Segmentation

首个针对管状结构分割(TSS)的测试时适应(TTA)框架,通过拓扑元差分卷积(TopoMDCs)适应跨域拓扑结构差异,并通过拓扑硬样本生成(TopoHG)策略修复拓扑连续性断裂,在10个数据集上平均clDice提升31.81%。

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

提出 OmniAVS 数据集和 OISA 模型,将指代音频-视觉分割从简单声学属性感知拓展至全模态表达(文本/语音/声音/图像的任意组合)深度推理(理解声音内容+世界知识),在新基准及多个相关任务上取得 SOTA。

Training-Free Class Purification for Open-Vocabulary Semantic Segmentation

提出 FreeCP,一种无需训练的类别净化框架,通过冗余净化和歧义净化两阶段策略,解决开放词汇语义分割中因过完备词汇表导致的类别冗余和视觉-语言歧义问题,作为即插即用模块在八个基准上显著提升现有方法性能。

Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation

首次提出个性化开放词汇语义分割(Personalized OVSS)任务,设计基于文本提示调优的即插即用方法,通过"负掩码提案"抑制假阳性和视觉嵌入注入丰富个性化概念表征,仅用少量图像-掩码对即可识别用户感兴趣的特定物体实例,同时保持原有OVSS性能。

UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis

提出 UniGlyph,一种以分割掩码为统一条件信号的视觉文本生成框架,通过自适应字形条件(AGC)和字形区域损失(GRL)替代传统的渲染字形条件,实现单一 ControlNet 架构下中英文文字图像生成的 SOTA,尤其在小字体和复杂排版场景大幅领先。

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation

VEGGIE 提出了一个端到端统一框架,将 MLLM 与视频扩散模型连接,仅用扩散损失就能在单一模型中同时完成指令式视频编辑、概念定位和推理分割等 8 种任务。

VSC: Visual Search Compositional Text-to-Image Diffusion Model

提出 VSC,一种基于视觉搜索的组合文本到图像扩散生成方法,通过为每个属性-对象对单独生成参考图像并融合视觉原型嵌入,结合分割引导的交叉注意力定位训练,显著提升多属性-对象绑定的准确性和扩展性。

VSSD: Vision Mamba with Non-Causal State Space Duality

提出非因果状态空间对偶(NC-SSD),通过保留 token 贡献的相对权重取代隐状态的累积衰减,将 Mamba2 的 SSD 无缝转化为非因果形式,构建 VSSD 视觉骨干,在分类/检测/分割多任务上超越现有 SSM 模型,同时训练速度提升 20%-50%。

What If: Understanding Motion Through Sparse Interactions

提出 Flow Poke Transformer (FPT),直接预测场景中物体运动的多模态概率分布(而非单一确定性结果),通过稀疏"戳动 (poke)"交互条件化,实现可解释的运动理解和运动部件分割。

WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

提出 WildSeg3D,首个前馈式3D分割模型,无需场景特定训练,通过动态全局对齐(DGA)解决多视角点图对齐误差,结合多视角组映射(MGM)实现实时交互式3D分割,比现有SOTA快40倍且精度更优。

ZIM: Zero-Shot Image Matting for Anything

提出ZIM——一种零样本图像抠图模型,通过标签转换器将SA1B分割标签转为精细抠图标签构建SA1B-Matte数据集,并设计层次像素解码器和提示感知遮罩注意力机制,在保持零样本泛化能力的同时实现微观级精细抠图。