A Token-level Text Image Foundation Model for Document Understanding (TokenFD/TokenVL)¶

会议: ICCV 2025
arXiv: 2503.02304
代码: Token-family/TokenFD
领域: 自监督/表示学习
关键词: token-level对齐, 视觉基础模型, 文档理解, OCR-free, 多模态大模型

一句话总结¶

提出首个 token 级别文本图像基础模型 TokenFD，通过在 2000 万图像、18 亿 BPE token-mask 对上进行 token 级视觉-语言对齐预训练，实现 image-as-text 语义能力，并基于此构建文档理解 MLLM TokenVL，在 OCRBench 上得分 860（8B 组最高），在 DocVQA 等十项 VQA 任务上平均提升 8.8%。

背景与动机¶

领域现状: 通用视觉基础模型（VFM）如 CLIP、DINO、SAM 被广泛用于多模态大模型的视觉编码器。但这些模型都是在图像级（CLIP/DINO）或像素级（SAM）监督下训练的。
现有痛点: 对于包含密集小文字的文档图像，图像级 VFM 无法精确感知细粒度文本内容，导致下游 OCR 相关任务中出现基本的感知错误。有些方法尝试引入 SAM 作为额外高分辨率编码器，但双 VFM 组合导致 token 数量翻倍，既昂贵又缺乏灵活性。
核心矛盾: 当前不存在 token 粒度的细粒度文本图像基础模型。从图像级到像素级之间存在一个关键空白——token 级别的对齐，即每个 BPE 子词与其在图像中对应区域的精确映射。
本文目标 (1) 构建首个 token 级图像文本数据集；(2) 训练首个 token 级 VFM；(3) 将其应用于文档理解 MLLM 的构建。
切入角度: 利用 BPE tokenizer 将文本拆分为子词，为每个子词构造像素级 mask，实现 token 粒度的视觉-语言对齐——比 CLIP 的图像级对齐精细得多，比 SAM 的像素级分割有更强的语义。
核心 idea: 在 token（BPE 子词）粒度上对齐视觉特征和语言嵌入，使 VFM 获得"图像即文本"的语义能力。

方法详解¶

整体框架¶

三层产品系列：(1) TokenIT 数据集——2000 万图像 + 18 亿 token-mask 对；(2) TokenFD 基础模型——ViT + 反卷积上采样 + token 级对比学习，实现 image-as-text 对齐；(3) TokenVL MLLM——以 TokenFD 为视觉编码器 + InternLM 为 LLM，两阶段训练（token 对齐预训练 + 指令微调）。

关键设计¶

TokenIT 数据集构建:
- 功能：构建首个 token 级图像文本数据集
- 核心思路：四步流水线——①文本图像分割（自然场景用微调 SAM，文档用无监督聚类）；②文本识别（SOTA OCR 获取转录）；③BPE Tokenizer 拆分子词；④将字符级 mask 合并为 token 级 mask。每个样本包含原图、mask 图和 JSON 文件（记录 BPE token 信息）
- 设计动机：覆盖自然场景、文档、表格、图表、代码、GUI 等多种类型，三轮人工检验历时 4 个月确保质量
TokenFD 预训练:
- 功能：实现 token 级视觉-语言对齐
- 核心思路：输入图像经 ViT 编码器提取特征，两层反卷积上采样 4x 到更高分辨率，再线性投射到与语言嵌入相同维度。对每个 BPE token-mask 对，通过 mean pooling 在 mask 区域提取 token 级视觉特征 \(\mathbf{t}_i\)，用简单的 token 嵌入层（无需复杂文本编码器）获取语言嵌入 \(\mathbf{e}_i\)。三个损失函数联合优化：距离损失 \(\mathcal{L}_{dis}\)（L1 距离）、相似性损失 \(\mathcal{L}_{sim}\)（余弦相似度）、sigmoid 对比损失 \(\mathcal{L}_{sig}\)（类 SigLIP）
- 设计动机：不同于 CLIP 需要复杂文本编码器，TokenFD 直接用 token 嵌入层对齐——因为操作粒度已经是 BPE 子词，无需上下文编码
TokenVL（MLLM）:
- 功能：构建文档理解 MLLM
- 核心思路：两阶段训练。阶段1 LLM-guided Token Alignment：自回归 VQA 训练（隐式对齐）+ token 对齐分支（显式空间对齐，从 LLM 中间层提取视觉-语言特征在 token 级对齐）。阶段2 SFT：取消 token 对齐分支避免推理开销，在 VQA 数据上全参数微调。还设计了 token abstractor 用可学习 token 在每个窗口内自适应压缩视觉特征
- 设计动机：token 对齐分支在训练时强制 LLM 更多参考图像内容而非依赖语义上下文推测，推理时移除无额外开销

损失函数 / 训练策略¶

TokenFD 预训练：AdamW + cosine schedule，基础 lr=5e-4，在 TokenIT 上训练 2 epochs，64 张 H800 GPU
TokenVL 阶段1：冻结 InternLM，训练 TokenFD + token abstractor，lr=2e-4，1 epoch
TokenVL 阶段2：全参数可训练，lr=1e-5

实验关键数据¶

主实验（TokenFD 零样本/线性探测）¶

任务	方法	零样本 avg	线性探测 avg
文本分割	CLIP-L-1024px	15.81	-
	SAM-H	-	34.51
	InternViT2.5	-	42.21
	TokenFD	34.59	48.77
文本检索	CLIP-L	-	3.62
	InternViT2.5	-	13.29
	TokenFD	-	63.62

TokenVL 文档理解¶

模型	参数	DocVQA	InfoVQA	ChartQA	TextVQA	OCRBench
InternVL2.5-2B	2B	88.7	60.9	79.2	74.3	804
TokenVL-2B	2B	89.9	61.0	81.1	76.4	821
InternVL2.5-8B	8B	93.0	77.6	84.8	79.1	822
TokenVL-8B	8B	94.2	76.5	86.6	79.9	860

消融实验¶

配置	DocVQA	ChartQA	说明
w/o token abstractor, w/o TA	93.1	86.5	基线
w/ token abstractor, w/o TA	93.8	86.5	+token abstractor
w/ token abstractor, w/ TA	94.2	86.6	完整模型

关键发现¶

TokenFD 在零样本文本分割上比 CLIP 高 18.78%，在文本检索上比 InternViT2.5 高 50%+——token 级对齐对文本相关任务的优势压倒性
TokenVL-8B OCRBench 得分 860，比 InternVL2.5 高 38 分，比 TextHawk2 高 76 分——token 级 VFM 显著提升文档理解能力
Token alignment 分支在全图文本识别中显著降低编辑距离，证实显式空间对齐的有效性

亮点与洞察¶

VFM 粒度谱系的补全：从 CLIP（图像级）→ SAM（像素级）→ TokenFD（token 级），形成完整的视觉基础模型粒度谱系。Token 级恰好填充了语义和空间之间的关键空白
简单但有效的语言编码：不需要 CLIP 那样的复杂文本编码器，一个简单 token 嵌入层就够了——因为粒度已经是 BPE 子词，不需要上下文理解
数据工程的重要性：18 亿高质量 token-mask 对的构建历时 4 个月三轮审核，体现了基础模型研究中数据质量的关键作用

局限与展望¶

预训练需要 64 张 H800 GPU，计算资源门槛较高
仅提供 2B 和 8B 两个 TokenVL 版本，未探索更大规模模型
Token 级 mask 的质量依赖上游 OCR 和分割模型的准确性
仅在文档/OCR 相关任务上验证，对通用视觉理解的影响未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 token 级文本图像基础模型，填补了 VFM 粒度谱系的关键空白
实验充分度: ⭐⭐⭐⭐⭐ 文本分割/检索/VQA/OCRBench 全面覆盖，消融详细
写作质量: ⭐⭐⭐⭐ 结构清晰，产品系列层次分明
价值: ⭐⭐⭐⭐⭐ 对文档理解领域有重大推动，数据集+模型+代码全开源