SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook¶

会议: ICLR 2026
arXiv: 2503.06764
领域: LLM预训练
关键词: 图像tokenizer, 层次codebook, 语义引导, 理解+生成统一, SGHC, MLLM

一句话总结¶

提出SemHiTok——通过语义引导层次codebook(SGHC)统一理解和生成的tokenizer：预训练语义codebook上建像素子codebook，结构和训练解耦(分阶段优化)避免联合训练的语义-像素冲突，LLaVA设定下离散tokenizer中理解和重建都SOTA。

研究背景与动机¶

领域现状：统一MLLM需同时支持理解(高层语义)和生成(低层像素)的tokenizer。

现有痛点： - (1) CLIP族→语义好丢像素; VQGAN族→保像素缺语义 - (2) 联合训练(VILA-U混合loss→子最优; SDE encoder解耦但codebook混合) - (3) 双编码器(Janus)→token翻倍或词汇爆炸→不高效 - (4) TokenFlow shared mapping但联合训练仍影响性能

切入角度：观察到同语义code的patches有相似像素→在每个语义code下建子codebook→结构+训练都解耦。

方法详解¶

整体框架¶

语义分支(VQKD对齐SigLIP)→固定C_sem；像素分支(ViT)→学C_pix。语义+像素token沿channel拼接→统一离散表示。

关键设计¶

语义Codebook：SigLIP→EMA VQ量化→cosine+L1蒸馏→训练后固定不再修改
SGHC：C_pix={C_pix^1,...,C_pix^K}(K语义码×m子码)→patch i先由C_sem得index k→选第k子codebook量化像素
分阶段训练：Stage 1训练语义(VQKD)固定→Stage 2训练像素(L1+perceptual+GAN)→两阶段不冲突
统一MLLM集成：展平h=i*m+j；Dual-MLP adapter分别投影语义/像素→拼接送LLM

训练策略¶

SigLIP frozen; K语义码, m=8子码→总196,608; Qwen2.5-7B-Instruct base

实验关键数据¶

重建(Table 1, ImageNet-50k)¶

方法	类型	Codebook	rFID↓
LlamaGen	Only Recon	16,384	2.19
IBQ	Only Recon	262,144	1.00
VILA-U	Unified	16,384	1.80
TokenFlow	Unified	32,768	1.37
SemHiTok	Unified	196,608	1.16
SemHiTok-384	Unified	196,608	0.66

理解(Table 2, LLaVA-v1.5)¶

模型	分辨率	POPE	MME-P	SEED	GQA
SigLIP(连续)	256	83.8	1481	65.3	61.9
VILA-U	256	81.6	1312	56.9	55.3
SemHiTok	256	82.5	1356	62.9	60.3
SemHiTok-384	384	86.3	1466	64.1	62.3

关键发现¶

离散tokenizer中理解SOTA→接近甚至部分超越连续SigLIP
rFID 1.16/0.66→统一tokenizer中重建SOTA级
POPE 82.5 vs VILA-U 81.6(+0.9); SEED 62.9 vs 56.9(+6.0)
总codebook K*m=196K与LLM文本词汇量级相当(Qwen2 ~150K)→无膨胀

亮点与洞察¶

SGHC设计：同语义→相似像素的观察→子codebook细化→简洁优雅
分阶段训练：完全避免语义-像素冲突→更好trade-off→关键创新
无token膨胀：展平后可控(196K)→兼容现有LLM词汇→无缝集成
非冲突扩展：像素训练不影响已冻结语义codebook→理解能力不退化

局限性¶

主要验证256/384分辨率→更高分辨率扩展性未测
子codebook大小m=8固定→自适应m未探索
仅验证Qwen2.5-7B和Vicuna-7B→更大LLM待测
生成质量评估(MJHQ/GenEval)篇幅有限
语义codebook大小K的选择对性能的影响未充分消融
SGHC的像素子空间可能在某些语义code下数据不足→导致子codebook欠拟合
训练策略中各loss权重(lambda1/2/3)的敏感性分析有限

统一MLLM实验补充¶

在理解和生成任务上均超越先前统一离散MLLM
Und&Gen Discrete类别中多数benchmark SOTA
与部分连续tokenizer(Only Und.)性能可比

评分¶

新颖性: ⭐⭐⭐⭐⭐ SGHC+分阶段训练首创
技术深度: ⭐⭐⭐⭐ 简洁有效，动机清晰
实验充分度: ⭐⭐⭐⭐ 重建+理解+生成覆盖
实用性: ⭐⭐⭐⭐⭐ 直接集成现有MLLM→统一理解+生成
综合: ⭐⭐⭐⭐⭐ 统一视觉tokenizer的优雅方案