跳转至

✂️ 语义分割

🔬 ICLR2026 · 31 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (122) · 🧪 ICML2026 (14) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (45) · 📹 ICCV2025 (73) · 🧪 ICML2025 (18)

🔥 高频主题: 语义分割 ×15 · 推理 ×5 · 对齐/RLHF ×2 · 扩散模型 ×2

Advancing Complex Video Object Segmentation via Progressive Concept Construction

这篇论文提出 Segment Concept(SeC),把大视觉语言模型抽取到的目标级“概念表示”按需注入 SAM 2.1 风格的视频目标分割流程,在复杂多镜头场景下显著减少外观相似干扰与目标重现失败,并构建了专门考察语义级 VOS 能力的 SeCVOS benchmark。

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

提出对齐感知遮蔽学习(AML)策略,通过量化视觉-语言 patch 级对齐度并过滤低对齐像素,让 RIS 模型在训练时聚焦可靠区域,无需架构改动即在 RefCOCO 全部 8 个 split 上达到 SOTA。

Benchmarking Open-ended Segmentation

针对"开放式分割"里模型生成自由文本描述、却被嵌入相似度强行映射回固定词表的评测漏洞,本文用基于词法关系(精确/同义/下义/部分)的映射函数 + 曲线下面积式的 LAC 协议把评测准确率从偏离人类 37.7% 拉到与人类判断对齐 90%+,并顺手训出第一个带对比损失的开放式分割 MLLM(OPAL),在开放式全景分割上刷到新 SOTA。

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

提出 ByteFlow Net,一种无需分词器的分层字节级语言模型,利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元,在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。

Decomposed Attention Fusion in MLLMs for Training-free Video Reasoning Segmentation

把视频推理分割重构成视频问答任务,直接从 MLLM 的注意力 rollout 中抽取定位线索,再用"对比式去背景 + 视频帧互补"两种融合把噪声注意力图提纯成干净的物体掩码,最后用注意力引导 SAM2 出精细掩码——全程不训练,效果逼近训练型方法。

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

把指代视频目标分割(RVOS)重新定义为「在文本引导下、把视频隐空间表征连续形变成掩码」的 ODE 流问题,直接微调预训练文生视频(T2V)模型 Wan2.1,用三个聚焦轨迹起点的策略稳住训练,在 MeViS、Ref-YouTube-VOS、Ref-DAVIS17 上全面刷到 SOTA。

Detective SAM: Adaptive AI-Image Forgery Localization

在 SAM2 之上挂一组轻量 adapter,把"扰动后特征分布漂移"这个取证线索自动转成热力图 prompt 去分割扩散编辑的篡改区域,再配一条 AutoEditForge 自动造数据流水线,让定位器能持续追上不断更新的图像编辑模型。

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

发现 SAM2 存在类似生物视觉的稀疏感知模式(解码器聚焦前景但编码器广泛计算、记忆帧中仅少量 token 有效且显著性时间一致),据此提出 Efficient-SAM2,通过对象感知的稀疏窗口路由(SWR)和稀疏记忆检索(SMR)消除冗余计算,在 SAM2.1-L 上实现 1.68× 端到端加速且仅损失 1% 精度。

Enabling True Global Perception in State Space Models for Visual Tasks

首次用梯度下界公理化定义"图像全局建模",并基于 2D-DFT 频域调制设计 GSSM 模块,在理论上证明并实验上验证 SSM 可实现真全局感知,同时保持线性对数复杂度。

Enhancing Image-Conditional Coverage in Segmentation: Adaptive Thresholding via Differentiable Miscoverage Loss

提出 COAT 框架,通过可微的 sigmoid soft TPR 近似作为损失函数,端到端训练图像自适应阈值预测器,在图像分割的 Conformal Risk Control 中大幅缩小逐图像覆盖率偏差(Coverage Gap)。

Falcon: Fast Proximal Linearization of Normalized Cuts for Unsupervised Image Segmentation

Falcon 把零样本无监督分割里经典的 Normalized Cut(NCut)从"谱松弛 + 递归二分 + 取整"的老套路,改写成一个直接在离散 K-way one-hot 标签上做近端梯度(proximal linearization)的求解器,既保证 KL 框架下的线性收敛,又把推理速度提了近一个数量级,在六个分割基准上刷新 SOTA。

gen2seg: Generative Models Enable Generalizable Instance Segmentation

把 Stable Diffusion / MAE 当作"实例上色器"微调,仅用室内家具和车两类窄域合成 mask 监督,就能零样本泛化到人、动物、艺术画、X 光等从未见过 mask 的物体类型与风格,性能逼近甚至在细结构上超过用 10 亿 mask 监督的 SAM。

Hierarchical Prototype Learning for Semantic Segmentation

HiPoSeg 在分割模型输出端挂一套「高层 + 低层」类别原型记忆库,用层级对比学习与跨层 margin 对齐把表示空间按「先认整体再分部件」的人类视觉方式组织起来,纯训练期插件、推理零开销,四个基准平均涨 +3.07%p mIoU。

LiFR-Seg: Anytime High-Frame-Rate Segmentation via Event-Guided Propagation

LiFR-Seg 把低帧率 RGB 图像中的语义特征,借助事件流估计出的高频运动场传播到任意中间时刻,并用不确定性加权与时间记忆缓解事件稀疏和长间隔退化,从而让低帧率硬件接近甚至在夜间超过高帧率 RGB 分割上界。

Locality-Attending Vision Transformer

提出 LocAt 模块化插件(GAug + PRR),通过可学习高斯核偏置注意力向局部邻域聚焦并精炼 patch 表示,在不修改训练目标的前提下使 ViT 在 ADE20K 分割上提升超 6%,同时分类精度不降反升。

Matting Anything 2: Towards Video Matting for Anything

基于 SAM2 构建一个可由点/框/掩码提示驱动的通用视频抠图模型 MAM2,通过"双模态解码器同时出 mask 与 trimap"以及"记忆分离孪生机制"解决透明物体跨帧崩溃问题,把抠图能力从人像扩展到火焰、气泡、水流等任意自然物体。

Object-Centric Refinement for Enhanced Zero-Shot Segmentation

针对 CLIP patch 特征"缺乏物体结构、难以聚成连贯语义区域"的痛点,OC-ZSS 在冻结的 CLIP 编码器里注入由 DINO 聚类引导的"物体提示",再用双阶段物体精炼注意力(ORA)配合多尺度粒度注意力,把 patch 特征反复打磨成物体中心表示,在归纳 / 直推 / 跨域三种零样本分割设定下都刷到 SOTA。

Panoptic Pairwise Distortion Graph

本文把场景图从"单图内"推广到"图像对之间",提出失真图(Distortion Graph, DG)这一以区域为原子节点的结构化表示,并配套了 50 万对图像的区域级失真数据集 PANDASET、三档难度的基准 PANDABENCH 和一个 DETR 风格的轻量架构 PANDA;实验表明前沿 MLLM 在区域级失真比较上几乎等于随机猜,而 PANDA 在各档难度上全面领先,且把预测出的 DG 喂给 MLLM 当思维链能再激发约 15% 的涌现提升。

QPrompt-R1: Real-Time Reasoning for Domain-Generalized Semantic Segmentation via Group-Relative Query Alignment

针对"既要实时、又要跨域鲁棒"的语义分割难题,本文发现 DGSS 慢的瓶颈不在 VFM 骨干而在笨重的分割头,于是把可学习 query 只注入 VFM 最后一层(QPrompt)实现近似 query-decoding 的轻量架构,再用仅训练期生效的 GRQA(群组相对 query 对齐)解锁泛化能力,最终在 54 FPS 下逼近重型 DGSS 方法。

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

提出 RegionReasoner,一个基于强化学习的多轮视觉推理框架,通过引用标注奖励和全局-局部一致性奖励,使推理轨迹必须显式引用参考区域坐标并保持语义连贯,在新构建的 RegionDial-Bench 上显著提升多轮定位和分割精度。

Revisiting [CLS] and Patch Token Interaction in Vision Transformers

深入分析Vision Transformer中[CLS]全局token和patch局部token之间的交互摩擦,发现归一化层隐式地区分了两类token,提出在归一化层和早期QKV投影中引入专门化处理路径,仅增加8%参数即实现分割性能提升超2 mIoU,同时保持分类精度。

S3OD: Towards Generalizable Salient Object Detection with Synthetic Data

针对显著目标检测(SOD)标注昂贵、数据稀缺、子任务(DIS / HR-SOD)各练各的痛点,本文用多模态扩散管线一次性生成图像+像素级掩码、配合难例反馈的迭代生成,造出 13.9 万张高分辨率合成数据集 S3OD,再用一个歧义感知的多掩码解码器统一建模,仅用合成数据训练就让跨数据集误差降低 20–50%,微调后在 DIS 与 HR-SOD 上刷到 SOTA。

Salient Object Ranking via Cyclical Perception-Viewing Interaction Modeling

针对显著物体排序(SOR)长期只依赖自底向上图像特征的问题,本文提出用"循环感知-观看交互"显式建模自顶向下的认知过程:让一个图像描述生成模块(SP)和一个显著性排序模块(GR)互相喂结果、迭代 K 轮,在 ASSR 与 IRSR 两个基准上把 SA-SOR 刷到 0.787 / 0.624,超过此前最优 QAGNet。

SAM-Veteran: An MLLM-based Human-like SAM Agent for Reasoning Segmentation

SAM-Veteran 把 MLLM 训练成一个"老练的 SAM 用户",通过"生成初始框 → 看 SAM 掩码后补点迭代细化 → 自适应判断何时停"这一套模仿人类的交互式分割流程,并用基于 GRPO 的多任务强化学习把这套行为学进 MLLM,在推理分割的域内和域外基准上都刷到新 SOTA。

SAM 3: Segment Anything with Concepts

SAM 3 把"找出并分割图像/视频里某个概念的所有实例"(Promptable Concept Segmentation, PCS)做成一个统一模型——用名词短语或图像样例当提示,靠一个共享骨干 + 检测器 + 记忆跟踪器输出所有匹配实例的 mask 与跨帧身份,再配一套人机协同数据引擎产出 4M 概念标签的训练集,最终在图像/视频 PCS 上把现有系统的精度翻倍。

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

发现文本到图像扩散模型的自注意力在去噪过程中存在一个"实例涌现点"(IEP),在该时刻自注意力在物体边界呈现剧烈散度变化。TRACE通过IEP定位+ABDiv边缘提取+单步蒸馏,以81×推理加速生成高质量实例边缘,无需任何实例标注即可将无监督实例分割提升+5.1 AP,tag监督全景分割超越点监督方法+1.7 PQ。

Universal Multi-Domain Translation via Diffusion Routers

提出 Diffusion Router (DR),用单个噪声预测网络通过 source/target 域标签条件化实现所有跨域映射,支持通过中心域的间接翻译和基于变分上界目标 + Tweedie 精化的直接非中心域翻译,在三个大规模 UMDT 基准上达到 SOTA。

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

本文定义了"城市社会语义分割"这一新任务(从卫星影像中分割学校、公园等由社会属性而非视觉外观定义的实体),构建了 SocioSeg 数据集(把异构地理空间数据统一渲染成一张数字地图层)并提出 SocioReasoner 框架——用 VLM 模仿人类标注员的"先定位、再渲染反馈、后精修"两阶段推理流程,再用 GRPO 强化学习端到端优化这条不可微的提示生成管线,在三级层次任务上全面超越 SOTA 并展现出强零样本泛化。

VINCIE: Unlocking In-context Image Editing from Video

提出VINCIE框架,首次证明in-context图像编辑模型可以完全从原生视频数据中学习,通过将视频标注为交错多模态序列并设计三个代理任务(NIP/CSP/NSP),在多轮编辑基准上达到SOTA,5轮编辑成功率从基线<2%提升至25%。

VIRTUE: Visual-Interactive Text-Image Universal Embedder

提出 VIRTUE,将分割模型 SAM2 与 VLM 结合构建视觉交互式通用嵌入器,支持用户通过点/框/掩码指定兴趣区域产生实体级+全局级联合嵌入,并构建百万级 SCaR 基准评估视觉交互检索能力,在 36 个 MMEB 任务(+3.1%-8.5%)和 5 个 SCaR 任务(+15.2%-20.3%)上均达到 SOTA。

WOW-Seg: A Word-Free Open World Segmentation Model

WOW-Seg 把"给分割区域起类别名"这件事从固定类别头的分类问题,改写成 VLLM 的"看图说话"自回归生成问题:用 Mask2Token 把任意 mask 编码成落在 VLM 特征空间里的视觉提示、用 Cascade Attention Mask 让一张图里的多个 mask 在并行训练/推理时互不干扰,仅用 1B 参数就在 LVIS / PACO 上刷新 SOTA。