Twin-T & TwintVQA: A Reliable Structure-Detail Separating VLM and a Comprehensive Benchmark for Chart and Table Tasks¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Samsara-1999/Twin-T-TwintVQA
领域: 多模态VLM
关键词: 图表理解, 表格问答, 双头视觉编码, 偏好学习, 评测基准

一句话总结¶

Twin-T 用「双头图像编码器 + Schur 式融合」显式把图表的结构线索（坐标轴、网格、布局）与细节线索（数值、图例、文字）拆开再重组，再用 MINT 偏好学习专门强化数字与关键词的保真度，配套提出覆盖 17 种图表、11 类任务、3 种格式的 TwintVQA 基准；7B 模型在主流图表-表格榜上超过 GLM-4.5V-106B，逼近 GPT-4o 与 Gemini-2.5-Pro。

研究背景与动机¶

领域现状：图表和表格是定量信息的主要载体，对它们做自动分析的需求随 VLM 普及而快速上升。主流图表专家模型（ChartLlama、ChartVLM、ChartAst 等）基本沿用「单一视觉编码器 + 文本解码器」的通用配方，靠大规模图表-表格指令微调来涨点。

现有痛点：作者指出两个具体短板。其一，单一编码器把结构线索和细粒度细节隐式地混在一起，缺少图表特有的归纳偏置，导致全局布局（轴、网格、表头）很难和局部数值、图例、文字区域对齐；已有工作加辅助 token、线性层、路由模块或跨层融合块，但都没有显式地分离并控制结构与细节的交互。其二，图表数据里数字密集，而模型对数字不够敏感——它们偏重视觉内容，却经常读错具体数值，在实际场景里可靠性差。

核心矛盾：人类读图是「先看结构、再抠细节」——看饼图时第一印象是各部分占比这个全局骨架，然后才落到颜色和具体数字上完成任务。现有 VLM 把这两类信号一锅炖，既没把结构当成解读细节的脚手架，也没把数字当成需要专门保真的关键 token。

本文目标：让 VLM 像人一样，先把结构与细节分开再整合，并在生成端专门保证数值和关键词的正确，同时补一个覆盖足够广的评测基准。

核心 idea：用「双头视觉编码（结构头 + 细节头）+ Schur 式去结构泄漏融合」替代单编码器，再用「针对数字/比较词加权 + 低熵 + 文本-视觉证据对齐」的偏好学习替代均匀对待所有 token 的偏好优化。

方法详解¶

整体框架¶

Twin-T 是一个两阶段训练的图表-表格专家 VLM，1B 版基于 Ovis2-1B、7B 版基于 Qwen2.5-VL-7B。阶段一（Dual-Head Visual Encoding）做视觉增强：除了原图，再用 Canny 从原图算出一张「结构图」，两张图过同一个共享、可训练的图像编码器，分别得到结构嵌入和原图嵌入；中间插入一个无参数的 Schur 式模块，软性地门控并扣掉原图嵌入里的结构方向，得到纯细节嵌入，再把结构与细节融合成融合视觉 token，喂给 connector 和文本解码器，用交叉熵做监督指令微调，让整个 VLM 适配这条双头通路。阶段二（MINT Preference Learning）做生成增强：在阶段一数据基础上构造偏好数据（chosen vs. rejected 回复），只训练文本解码器，用 MINT 损失同时提升数值保真、压低数字 token 的 logits 熵、增大文本-视觉证据对齐。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图"] --> B["Canny 提结构图"]
    A --> C["共享图像编码器"]
    B --> C
    C -->|"结构嵌入 + 原图嵌入"| D["双头视觉编码与 Schur 融合<br/>软门控 + 去结构泄漏"]
    D --> E["融合视觉 token<br/>Connector + 文本解码器<br/>阶段一 SFT"]
    E --> F["数值-关键词偏好<br/>加权 hinge + 低熵"]
    F --> G["文本-视觉证据偏好<br/>evidence span 对齐"]
    G --> H["可靠的图表-表格答案"]
    I["TwintVQA 基准<br/>17 图表 / 11 任务 / 3 格式"] -.评测.-> H

关键设计¶

1. 双头视觉编码与 Schur 式融合：把结构从图像特征里"减"出去

针对「单编码器把结构与细节隐式混在一起、全局布局难对齐局部数值」这个痛点，阶段一不直接用原图嵌入，而是显式构造两路信号。结构这条路利用一个先验：边、直线、框这类结构在图像里像素幅值更大、是高频成分，所以用 Canny 从原图抽出一张结构图，和原图分别过共享编码器，得到结构嵌入 \(E_{Stru}\in\mathbb{R}^{B\times N_{vis}\times D_{vis}}\) 和原图嵌入 \(E_{Img}\)（后者同时含结构与细节）。

由于 Canny 结构图常带伪边和背景杂讯（附录验证未净化的结构嵌入反而掉点），作者先用结构嵌入的范数衡量结构强度，再过一个 soft gate 而非硬阈值：

\[w_{Stru}[b,t]=\sigma\big(\alpha(\|E_{Stru}[b,t,:]\|_2-\tau)\big),\quad w_{Det}[b,t]=1-w_{Stru}[b,t]\]

其中 \(\alpha\) 是温度、\(\tau\) 是结构阈值，sigmoid 避免硬阈值带来的不稳定——结构强的 token 门值趋近 1、弱的趋近 0，提高结构信息的可区分度。接着用 Schur 式融合把结构方向从原图嵌入里投影扣除：取结构单位方向 \(u\) 和保留因子 \(\gamma[b,t]=\frac{\|E_{Stru}\|_2^2}{\lambda+\|E_{Stru}\|_2^2}\)（\(\lambda\) 越大保留越少结构），得到细节嵌入

\[E_{Det}[b,t]=E_{Img}[b,t]-\underbrace{\gamma[b,t]\,w_{Stru}[b,t]^2}_{\text{自适应扣除}}\,\mathrm{proj}\big(E_{Img}[b,t]\big)\]

最后按门权重重组 \(E_{fuse}=w_{Det}\,E_{Det}+w_{Stru}\,E_{Stru}\)。这里的巧妙之处在于「自适应扣除」：\(\gamma\) 让结构越强扣得越多，\(w_{Stru}^2\) 进一步只在高度结构化的位置发力、几乎不动弱结构 token，于是结构主导的位置被压掉结构泄漏、表示向细节偏移，而细节为主的位置基本保持原样。相比直接用 \(E_{Img}\)，这套设计在融合前就把结构和细节真正拆开了。消融显示，去掉双头编码器在 Overall 上掉约 5%、是阶段一最大功臣，结构门控和 Schur 融合各再贡献约 2~3%。

2. 数值-关键词偏好：让梯度集中到数字与比较词上

阶段一模型在数字 token 和比较词上仍会出错（Tab.6 验证）。图表-表格任务几乎都围着数字转——读值、比大小、算差/比值、看趋势，而普通偏好学习把所有生成 token 一视同仁，风格词和填充词的梯度白白稀释了对数值正确性的优化。MINT 的第一个组件就是 token 级地把训练火力压到数值和比较关键词（如 greater、smaller）上。

具体地，用掩码 \(M_{num},M_{key}\in\{0,1\}\) 标出数值与比较词位置，构造样本内归一化（均值≈1）的逐 token 权重 \(W[b,t]=\mathrm{norm}(1+M_{num}[b,t]+M_{key}[b,t])\)，再对这些"金 token"（被掩码标中的位置）施加加权 hinge 对比损失，强制 chosen 回复在这些 token 上的 logits 高于 rejected：

\[L_{NK}=\frac{1}{N}\sum_{t=0}^{N} W[b,t]\big[-(\ell^{ch}_{[b,t]}-\ell^{rj}_{[b,t]})\big]_{+}\]

为进一步稳住「从图里抄/算数字」这件事，再在数值位置 \(P\) 上加低熵正则 \(L_{Ent}=\frac{1}{|P|}\sum_{t\in P}H_{[b,t]}\)（\(H\) 是 logits 的香农熵），压低数字 token 的输出熵让生成更自信稳定。两者合成 \(L_{NKp}=L_{NK}+L_{Ent}\)。消融里去掉 Num-Key 在 7B 上 Overall 掉 27.44、NK Acc 掉 5.9%，是阶段二最关键的一块；去掉低熵正则数字熵从 13.4% 飙到 17.2%，印证它确实在收紧数字分布。

3. 文本-视觉证据偏好：把答案钉在图里的证据上

为让答案更可靠，作者希望模型不仅给最终值，还要暴露真实的推理证据并让这段证据切实对应图中事实。做法是把回复里的证据片段用 <evidence>...</evidence> 包起来——例如某城市人口 2024 年 0.50M、2025 年 0.52M，问相对增长时，chosen 回复写 <evidence>(0.52-0.5)/0.5=4%</evidence>，而 rejected 给粗糙或错误的证据（如 =3%）。

在这段证据 span 上，取文本 token 与视觉 token 末层隐状态的余弦相似度矩阵 \(Mat_{txt\text{-}vis}\)，对每个证据文本 token 取它对所有视觉 token 的最大相似度再平均，得到该 span 的文本-视觉匹配度 \(\mu\)，然后用 chosen 与 rejected 的匹配度差构造 hinge 损失：

\[L_{TV}=\frac{1}{B}\sum_{b=1}^{B}\big[-\big(\mu(Mat^{ch}_{txt\text{-}vis}[b])-\mu(Mat^{rj}_{txt\text{-}vis}[b])\big)\big]_{+}\]

当 chosen 的证据更贴合视觉时损失小，相当于奖励「证据落在图上而非凭空编」。最终 MINT 损失 \(L_{MINT}=L_{NKp}+L_{TV}\)。消融中去掉 Txt-Vis，Match 分从 95.8% 掉到 94.1%（1B 上更明显，从 90.6% 掉到 82.4%），说明它主要拉的是证据对齐度。

4. TwintVQA：补一个足够广的图表-表格评测基准

现有基准任务和图表类型太少、又偏重短答案，撑不起对模型能力的全面评估。TwintVQA 含 4,941 道题，覆盖 17 种图表/表格类型（bar、pie、line、bubble、heatmap、radar、donut、sankey、scatter、rose、box、waterfall、stacked、candle、gantt、composite、table）、11 类任务（Table→LaTeX、Chart→Python、Image/LaTeX/Python 的 Analysis 与 Summary、Multiple Choice、Numerical QA、Open QA）、3 种数据格式（Image、LaTeX、Python），并按 token 长度分 short/medium/long 三档。评测时每道 QA 由 GPT-4o-Mini 在 [0,1] 打分、取均值转百分比。训练侧从公开网络收集约 40K 图表-表格图，用 GPT-4o 按模板每图生成 5 对 QA、共约 200K 对；基准图来自 arXiv 论文与网络并人工筛选、约 5K 张，与训练集无重叠。

损失函数 / 训练策略¶

阶段一用交叉熵让模型基于融合视觉 token \(E_{fuse}\) 生成目标答案，适配整条双头通路；阶段二在阶段一对齐基础上只训练文本解码器，用 \(L_{MINT}=L_{NK}+L_{Ent}+L_{TV}\) 做偏好优化。所有实验在 NVIDIA A800 上跑、重复三次取平均。

实验关键数据¶

主实验¶

在 10 个图表-表格基准（AI2D、CharXivD/R、ChartMimic、ChartQA、LogicVista、OCRVQA、SEEDBench2、TableVQA、TwintVQA）上比较，Overall 为各榜总分：

模型	参数量	TwintVQA↑	Overall↑	说明
Twin-T-7B	7B	70.20	719.94	开源 SOTA，超 GLM-4.5V-106B
Twin-T-1B	1B	58.79	576.20	小模型领先，超多个更大模型
GLM-4.5V-106B	106B	60.62	667.08	被 7B 反超
GPT-4o	API	67.06	714.89	7B 逼近
Gemini-2.5-Pro	API	63.58	724.26	仅略高于 7B
Qwen2.5-VL-7B（基座）	7B	51.36	631.09	7B 较其涨 88.85
ChartAst-13B	13B	51.38	600.98	最强专家基线

Twin-T-7B 在 AI2D、CharXivR、LogicVista、SEEDBench2、TableVQA 和 TwintVQA 上拿到最强开源结果；作者也坦言 Twin-T 在 OCR 重和代码重建（ChartMimic、C2P）这两类任务上落后，主因是参数量和训练数据规模都小于商用/API 模型。

消融实验¶

阶段消融（Tab.4，7B，Overall）与阶段一/二组件消融（Tab.5/6）：

配置	Overall↑	关键变化	说明
Full（7B）	719.94	NK Acc 90.60 / Entropy 13.40 / Match 95.80	完整模型
w/o Stage 2	675.05 ▼44.89	—	去掉偏好学习
w/o Stage 1	672.52 ▼47.42	TwintVQA ▼13.15	去掉双头视觉
w/o Dual-head（S1）	642.28 ▼32.77	—	阶段一最大功臣
w/o Structure gating（S1）	656.98 ▼18.07	—	软门控约 +2.7%
w/o Schur fusion（S1）	660.26 ▼14.79	—	融合约 +2.2%
w/o Num-Key（S2）	692.50 ▼27.44	NK Acc ▼5.90	阶段二最关键
w/o Low-Entropy（S2）	702.36 ▼17.58	Entropy ▲3.80	数字熵明显上升
w/o Txt-Vis（S2）	695.65 ▼24.29	Match ▼1.70	证据对齐下降

关键发现¶

双头编码器是阶段一的主引擎：去掉它 Overall 掉约 5%，远大于门控（2.7%）和 Schur 融合（2.2%），说明「先把结构/细节拆开」这一步本身最值钱。
数值-关键词偏好是阶段二最关键的一块：去掉后 NK Acc 在 7B 上掉 5.9%；去掉低熵正则数字熵从 13.4% 升到 17.2%，直接印证它在压低数字 token 的不确定性。
超参有清晰最优：温度 \(\alpha\approx4\)（门够锐又不放大局部噪声）；结构阈值 \(\tau\) 在 7B 取中位数 p50、1B 偏向 p50~p75（小模型更需稍高阈值压噪）；\(\lambda\) 在 7B≈1、1B≈0.5（太小留结构泄漏、太大扣掉有用布局线索）。
结构图抽取选 Canny：相比 Sobel/Scharr/Laplacian/HED，Canny 速度-性能折中最好，推理仅多约 0.008s/图，远小于约 0.02s/token 的解码开销，且更不易过抽背景杂讯。
短板可解释：C2P（图→Python）对几乎所有模型都低，因为它要忠实重建程序、需代码对齐监督和更大容量，与 LaTeX 生成不同。

亮点与洞察¶

把"人怎么读图"翻译成显式的特征分解：先全局结构、后局部细节这个认知直觉，被落成 Canny 结构图 + 软门 + Schur 投影扣除，结构-细节分离是可计算、可消融的，而不是停留在口号。
Schur 式"自适应扣除"很巧：用 \(\gamma\cdot w_{Stru}^2\) 双重门控，只在结构主导的位置扣结构方向、弱结构位置几乎不动，避免一刀切扣除误伤细节——这套「按结构强度自适应去泄漏」的思路可迁移到任何需要解耦两类共存信号的表示学习。
偏好学习做"token 级加权 + 低熵"：不是均匀对待所有生成 token，而是把梯度压到数字/比较词上并压低其熵，这对一切「答案对错由少数关键 token 决定」的任务（如数学、代码、结构化抽取）都有借鉴价值。
证据 span 对齐反幻觉：用 <evidence> 包裹推理过程并让它和视觉 token 对齐，相当于把"言之有据"变成可优化的损失项。

局限与展望¶

作者承认的局限：受参数量和数据规模所限，OCR 重和代码重建（C2P）任务明显落后，OCR 覆盖与代码重建先验不足。
结构先验依赖边缘算子：整套结构头建立在 Canny 高频假设上，对低对比度、手绘、噪声重或非「轴-网格-框」式版面（如复杂信息图）是否仍成立存疑；附录已显示未净化的结构嵌入会掉点，说明该路对噪声敏感。
偏好数据由 GPT-4o 生成、评测由 GPT-4o-Mini 打分：训练 QA 和基准评分都重度依赖闭源模型，可能引入评测偏置；用同源模型既造数据又判分，结论的独立性需谨慎看待。
改进方向：补充代码对齐监督提升 C2P；把结构图从单一 Canny 换成可学习/多算子自适应的结构提取；引入非 LLM 的客观指标（如数值精确匹配）交叉验证 GPT 打分。

评分¶

新颖性: ⭐⭐⭐⭐ 「结构-细节双头 + Schur 去泄漏 + token 级数值偏好」组合在图表 VLM 上是新颖且自洽的，单点技术多有渊源但拼装巧妙。
实验充分度: ⭐⭐⭐⭐⭐ 10 个基准 + 任务/长度/图表三维分组 + 两阶段及组件全消融 + α/τ/λ/结构算子敏感性，覆盖很全。
写作质量: ⭐⭐⭐⭐ 动机-方法-公式串联清晰，图表丰富；个别公式排版（Schur 扣除项）略需对照原文。
价值: ⭐⭐⭐⭐ 同时给出方法、1B/7B 开源模型与一个广覆盖基准，对图表-表格理解社区实用价值高。