✂️ 语义分割¶
🧪 ICML2026 · 4 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (1) · 📷 CVPR2026 (83) · 🔬 ICLR2026 (11) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (48) · 📹 ICCV2025 (73)
🔥 高频主题: 语义分割 ×2
- LightAVSeg: Lightweight Audio-Visual Segmentation
-
LightAVSeg 通过解耦 "语义筛选 (what)" 和 "空间定位 (where)",用全局通道调制替换 \(\mathcal{O}(N^2)\) 的跨模态注意力,让 AVS 模型在 20.5M 参数下达到 50.4 mIoU (MS3),并在 Snapdragon 8 Elite 上做到 163.4 ms 的端侧延迟,比 AVSegFormer-R50 快约 \(8\times\)。
- Segment Anything with Robust Uncertainty-Accuracy Correlation
-
针对 SAM 系列只输出 mask-level 单一置信度、在域漂移下出现"Mask-level Confidence Confusion"的问题,本文给 SAM2 接上 Weibull 双粒度贝叶斯 mask decoder 做像素级 epistemic 估计,并配以受人类视觉启发的 style + deformation 协同对抗扰动 + 校准损失,让 uncertainty 在 23 个 zero-shot 目标域始终与误差对齐,平均 J&F 达 79.87 同时不确定性图变得显著可信。
- SEMIR: Semantic Minor-Induced Representation Learning on Graphs for Visual Segmentation
-
SEMIR 把体素栅格当作母图 \(G\),通过参数化的边收缩 / 节点删除 / 边删除把它压成一张「边界对齐」的图 minor \(H\)(节点数从 \(\sim10^7\) 降到 \(\sim10^3\)),用 5–20 张少样本黑盒优化 \(\Theta\) 最大化边界 Dice,再在 minor 上用 GNN 做超节点分类,最后通过 minor 与体素之间的双射 exact lifting 回到原栅格——在 BraTS / KiTS / LiTS 三大肿瘤分割任务的少数类 Dice 上稳定超过 nnU-Net,且仅需 16GB T4 GPU。
- UGround: Towards Unified Visual Grounding with Unrolled Transformers
-
UGround 把 LMM-based 视觉定位从"用最后一层 \(\langle\text{SEG}\rangle\) token 当 prompt"的范式翻转为"用动态选中的中间层相似度图当 prompt",通过强化学习策略 SSC 让 \(\langle\text{SEG}\rangle\) 滑过所有 transformer 层、把相似度图同时当作 SAM 的软 logit mask 和反向监督信号,首次在单一框架内统一了 RES / RS / FP-RES / gRES / Multi-RS 五种视觉定位任务,并在 ReasonSeg test 上 cIoU +9.0%、gRefCOCO val N-acc +12.1%。