HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model¶
会议: ICCV 2025
arXiv: 2503.13026
代码: github.com/yayafengzi/LMM-HiMTok
领域: 图像分割 / 多模态大模型
关键词: 分层掩码Token化, 大型多模态模型, 分割, 向量量化, 视觉定位
一句话总结¶
提出HiMTok(分层掩码Token化器),将分割掩码表示为最多32个由粗到细的离散token,使LMM像生成文本一样直接生成分割结果,无需额外的图像条件掩码解码器,在多个分割基准上达到SOTA。
研究背景与动机¶
现有LMM驱动的分割方法主要有三种范式,各有不足:
边界点序列(如PolyFormer、VistaLLM):将掩码表示为多边形顶点序列,但有限的顶点数难以表示复杂形状和多区域
隐藏状态+掩码解码器(如LISA、PixelLM、PSALM):LMM输出特殊token的隐藏状态,再由额外的SAM/Mask2Former解码。存在三个局限: - LLM对精确空间定位学习不充分 - 掩码在输入输出间表示不一致(特殊token仅作标识,丢失了对应的hidden state信息) - 架构复杂,掩码解码器需再次使用原图
图像生成式(VQ-GAN量化为2D token):过于冗余、性能不够竞争力
核心问题:能否让LMM原生获得分割能力,像生成文本一样生成掩码,且无需外部分割模型?
方法详解¶
整体框架¶
HiMTok系统包含三部分: - 掩码Token化器(MT):将分割掩码编码为若干1D潜在token - 向量量化层(VQ):离散化潜在token - 掩码去Token化器(MD):从离散token重建分割掩码
配合3阶段训练方案将分割能力渐进式注入LMM: - Stage 1:训练HiMTok(单模态掩码重建) - Stage 2:LMM + HiMTok联合训练(低分辨率图像,对齐视觉-语言与掩码token) - Stage 3:仅训练LMM(高分辨率图像,精调)
关键设计¶
- 分层掩码Token化:受TiTok启发,将掩码图像压缩为32个1D离散token。关键创新是引入因果注意力机制:每个潜在token条件于输入掩码patch和前序token,确保由粗到细的层级关系:
前面的token主要对应粗糙位置和原型,后面的token聚焦局部细粒度细节。这种设计与LLM的自回归原则天然一致。
- 分层掩码损失(Hierarchical Mask Loss, HML):在不同层级进行显式监督确保分层特性。第 \(l\) 层级使用前 \(l\) 个mask token由MD独立重建 \(\hat{M}^{(l)}\),用不同大小高斯核模糊的掩码标签 \(M^{(l)}\) 进行监督:
每级损失包含BCE Loss + Dice Loss。少token对应粗略高斯分布,多token对应精细边界。训练时按逆幂律分布采样部分层级以提高效率。
- 双向信息流:在训练数据中同时包含 box→mask 和 mask→box 两个方向的转换,使LMM学习检测和分割之间的固有关联。边界框由LMM直接生成而非从掩码解析。有趣发现:先输出mask token再输出box(视觉思维链)可以提升视觉定位精度。
损失函数 / 训练策略¶
- Stage 1:掩码重建任务,HiMTok全量训练,256×256分辨率,codebook大小1024,32个latent token
- Stage 2:交叉熵损失 + 分层掩码损失联合优化,LMM(InternVL 2.5基础)+ HiMTok部分参与训练,低分辨率448×448输入,7.1M数据
- Stage 3:仅交叉熵损失,仅训练LMM,高分辨率输入,5.0M数据(分割数据比例降至0.24)
- GPU小时:A800共2,752 GPU-hours(192+1920+640)
实验关键数据¶
主实验¶
Referring Expression Segmentation (RefCOCO/+/g, cIoU):
| 方法 | w/ SFM | RefCOCO val | RefCOCO+ val | RefCOCOg val |
|---|---|---|---|---|
| LISA-7B(ft) | ✓ | 74.9 | 65.1 | 67.9 |
| PixelLM-7B | ✓ | 73.0 | 66.3 | 69.3 |
| PSALM | ✓ | 83.6 | 72.9 | 73.8 |
| u-LLaVA | ✓ | 83.0 | 77.1 | 77.1 |
| LMM_HiMTok-8B | ✗ | 81.1 | 77.1 | 75.8 |
| LMM_HiMTok-8B(ft) | ✗ | 85.0 | 79.7 | 80.0 |
| LMM_HiMTok-8B(ft)+SAM | ✓ | 85.9 | 80.5 | 80.1 |
不依赖任何分割基础模型(SFM)的情况下达到SOTA,大幅超越之前的SFM-free和SFM-based方法。
开放词汇分割 (mIoU):
| 方法 | ADE20K (A-150) | PASCAL Context | PASCAL VOC |
|---|---|---|---|
| PSALM | 18.2 | 48.5 | 81.3 |
| LaSagnA | 14.3 | 46.1 | 69.8 |
| LMM_HiMTok-8B | 25.0 | 43.9 | 82.0 |
消融实验¶
分层掩码损失(HML)的效果(RefCOCO val/RefCOCO+ val/RefCOCOg val):
| HML | RefCOCO | RefCOCO+ | RefCOCOg |
|---|---|---|---|
| ✗ | 79.2 | 64.7 | 63.9 |
| ✓ | 81.1 | 77.1 | 75.8 |
没有HML时RefCOCO+/g大幅下降(-12.4/-11.9),且必须使用全长32 token才能工作;有HML则支持灵活token长度。
Mask Token长度对REC(Visual Grounding)的影响:
| Token数 → box | Acc@0.5 | Acc@0.9 |
|---|---|---|
| 0 (直接预测box) | ~90.3 | ~57 |
| 16 → box | ~92 | ~73 |
| 32 → box | ~93 | ~78 |
mask token作为视觉思维链,显著提升了高精度定位(Acc@0.9)。
关键发现¶
- 16个mask token已能达到82.8% cIoU,32个再提升2.5%
- 双向信息流中,mask→box方向更有价值(因前序mask token比直接预测box更容易生成)
- 模型在ReasonSeg上val和test得分几乎相同(60.7 vs 60.8 gIoU),说明文本理解能力强
- 通用图像理解能力基本保持(MME各维度与InternVL2.5-8B可比)
- 小物体分割仍是主要挑战(cIoU显著低于整体)
亮点与洞察¶
- 范式突破:首次实现了不依赖外部分割模型的高质量LMM分割,掩码token如同新语言被LLM学习
- 输入输出一致性:掩码的token化和去token化在LLM输入输出中一致,这是此前hidden state方案做不到的
- 分层设计与LLM自回归天然契合:由粗到细的token层次完美匹配next-token-prediction
- 双向信息流的视觉CoT效果:先分割再定位的思路新颖,为LMM的视觉推理提供了新视角
- 架构简洁:去token化器是轻量级transformer,推理时不需要原图
局限与展望¶
- mask token长度需预定义,无法根据物体形状复杂度自适应
- 当前模型较被动,需要用户指定referring expression,不能主动分割所有感兴趣物体
- 缺少多尺度特征设计,细粒度区域分割表现受限
- 小物体分割性能与整体差距较大
- Stage 2训练需1,920 GPU-hours(A800),训练成本不低
相关工作与启发¶
- TiTok证明自然图像可被压缩为少量1D token,启发了掩码的紧凑表示
- VAR的coarse-to-fine next-scale prediction思路被应用到掩码层级
- InternVL 2.5作为基础LMM提供了强大的视觉语言基础
- LISA/PSALM等hidden state方案的局限性被清晰分析,为新范式提供了动机
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新的掩码表示范式,分层设计优雅,双向信息流有洞察
- 实验充分度: ⭐⭐⭐⭐ 覆盖RES/GRES/ReasonSeg/OVS/REC/通用理解,消融详尽
- 写作质量: ⭐⭐⭐⭐ 三种范式的对比图清晰,方法描述完整
- 价值: ⭐⭐⭐⭐⭐ 为LMM分割开辟了新方向,代码开源,实用价值高