TableMix: Enhancing Multimodal Table Reasoning in MLLMs from a Data-Centric Perspective¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM
关键词: 多模态表格推理, MLLM, 数据混合, GRPO, 奖励塑形

一句话总结¶

针对多模态大模型（MLLM）做表格推理时反而打不过纯文本模型的反常现象，TableMix 从数据角度切入：在每个训练 batch 里同时混入「多模态表格推理 + 纯文本数学推理 + 简单表格感知」三类数据，来同时修复被对齐预训练削弱的推理力、保住视觉感知力，再配一个按难度调奖励的 DRS 机制，最终在 7 个表格基准上既碾压多模态基线、也追平甚至超过最强纯文本方法 Table-R1。

研究背景与动机¶

领域现状：表格推理（Table Reasoning）目前分两条路线——一条把表格序列化成 HTML/Markdown 喂给纯文本 LLM，另一条直接把表格图像喂给 MLLM。后者理论上更强，因为保留了颜色、高亮、图标、字体这些序列化会丢掉的视觉线索。

现有痛点：但文献里出现一个反直觉的持续现象——多模态方法在主流推理 benchmark 上一直输给纯文本方法。论文用 Figure 1 举例：多模态模型 Turbo 和纯文本模型 Table-R1 用的是几乎相同的 RL（GRPO）策略，Turbo 却在多个 benchmark 上明显落后。也就是说，单靠先进的 RL 技巧补不上这个差距。

核心矛盾：作者把根因归到视觉-语言对齐预训练。现代 MLLM = 预训练 LLM + 视觉编码器 + 对齐预训练，而这个对齐阶段虽然建立了视觉 grounding，却无意中削弱了底层 LLM 的内在推理能力。表格推理偏偏极度依赖逻辑、算术、结构化计算，所以这种退化在表格任务上格外致命；推理底子坏了，直接上 RL 自然收效有限。

本文目标：在不损害视觉感知的前提下，把 MLLM 被削弱的推理内核「修回来」。

切入角度：一个朴素直觉——既然推理核被退化，那就用纯文本数学推理数据（如 MetaMath）和主任务表格数据交错共训来「修复」它。实验确实验证了这能涨点，但又引出新问题（见下文的 reasoning-perception tension）。

核心 idea：从数据角度而非模型角度解决——用有原则的三类数据混合同时修复推理、保住感知，再加一个难度感知的奖励塑形让简单题简答、难题深想。

方法详解¶

整体框架¶

TableMix 是一个数据为中心的 RL 微调框架，骨干是 Qwen2.5-VL-7B。它不改模型结构，而是在两个地方动手：喂什么数据和怎么给奖励。输入是表格图像 + 文本 prompt，输出是带 <think>...</think> 推理过程和 \boxed{} 答案的回复。

整个流程是：先按比例在 batch 级别把三类数据（多模态表格推理 \(D_{TR}\)、纯文本数学推理 \(D_{TM}\)、多模态表格感知 \(D_{TP}\)）混成一个训练 batch；这个 batch 喂进 GRPO 做 RL，每个 query 采样一组 \(G\) 个回复；再用 难度感知奖励塑形（DRS） 根据这组回复的成功率动态调整对「正确且简短」回复的奖励；最后照常算 advantage、回传更新。三类数据混合解决「修推理又会反噬感知」的张力，DRS 解决「混合数据难度不均导致简单题也啰嗦推理」的浪费。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["表格图像 + 文本 prompt"] --> B["三类数据混合<br/>D_TR + D_TM + D_TP<br/>batch 级按 ω:ε:ϑ 配比"]
    B --> C["高保真语料构建 + 样本过滤<br/>渲染 + 规则造感知题 + 8 采样筛难"]
    C --> D["GRPO 采样一组 G 个回复"]
    D --> E["难度感知奖励塑形 DRS<br/>按组成功率 + 自适应长度惩罚"]
    E --> F["算 advantage 回传更新 MLLM"]

关键设计¶

1. 三类数据混合：一个 batch 同时修推理、保感知

这是全文核心，直接针对「对齐预训练削弱推理 + 修推理又会反噬感知」这条因果链。作者分三步搭起最终配方。第一步「修复推理核」：往训练数据里掺纯文本数学推理数据 \(D_{TM}\)（MetaMath、DeepScaleR、GSM8K 等），因为复杂表格推理本质就是数值聚合、条件过滤、序列推断，这些和数学推理模式高度同构，掺进去能把被削弱的逻辑底子「续上」，实验证明这步就显著涨点。第二步暴露出推理-感知张力（reasoning-perception tension）：模型抽象推理一变强，对表格的低层视觉感知反而退化，原本能答对的简单感知题（如直接读某格数值）开始答错（Figure 3 里 Qwen2.5-VL 微调后把表内数字读错）。第三步「最终配方」：再掺第三类简单多模态表格感知数据 \(D_{TP}\)，强迫模型在学复杂推理的同时不断「复习」基本视觉感知，做到「学会思考时不丢掉看的能力」。

三类数据在 batch 级按采样比例 \(\omega, \epsilon, \vartheta\)（\(\omega+\epsilon+\vartheta=1\)）混合：

\[B \leftarrow \omega \cdot D_{TR} + \epsilon \cdot D_{TM} + \vartheta \cdot D_{TP}\]

直觉上 \(D_{TR}\) 应占主导（最对齐目标任务），\(D_{TM}\) 适量补推理，\(D_{TP}\) 占最小份额防感知退化；实验最优为 \(\omega=0.7,\ \epsilon=0.2,\ \vartheta=0.1\)。关键是混合发生在 batch 内而非两阶段顺序训练——消融显示两阶段（先数学后表格或反之）都会略掉点，作者推测是分离训练削弱了视觉与语言模态的对齐。

2. 难度感知奖励塑形 DRS：简单题逼它简答、难题放它深想

混合数据集横跨「一眼能答的感知题」到「需要长链 CoT 的多步推理」，难度极不均。标准 GRPO 对所有样本一视同仁，会鼓励连 trivial 题也生成冗长推理，既浪费算力又容易因过度推理引入幻觉和无谓错误。DRS 的核心洞察是：如果一道题在一组采样里高成功率被答对，它大概率就是简单题，不该再奖励长篇大论。

具体地，对输入 \(x\) 的一组回复 \(\{y_i\}_{i=1}^{G}\)，先算组成功率 \(p(x)=\frac{1}{G}\sum_{i=1}^{G}\mathbb{1}(r_{acc}(y_i)=1)\)。只有当 \(p(x)>\delta\)（即这题已被「掌握」）时，才对正确回复施加自适应长度惩罚：

\[\hat{r}_{acc}(y_i)=\begin{cases}1-\tanh\!\left(k(t)\cdot \dfrac{L_i-L_{\min}^{correct}}{L_{\min}^{correct}}\right) & y_i \text{ 正确}\\[4pt] 0 & y_i \text{ 错误}\end{cases}\]

其中 \(L_i\) 是回复 \(y_i\) 的 token 长度，\(L_{\min}^{correct}\) 是该组所有正确回复里的最短长度——也就是说，越长的正确回复奖励越低，把模型往「最短正确答案」推。\(k(t)=\min(k_{max},\ \frac{k_{max}}{T}\cdot t)\) 是随训练步 \(t\) 退火的系数（\(k_{max}=1.0\)，\(T\) 为总步数），早期惩罚弱、让模型先把长链 CoT 推理学起来，后期再逐步收紧鼓励简洁。低成功率（难题）则完全不加长度惩罚，放它充分逐步推理。这样在难度混合的设定下自然平衡了推理深度与效率，且不损训练稳定性。⚠️ 公式中 \(\tanh\) 项与退火细节以原文 Eq.(5)(6) 为准。

GRPO 本身沿用标准做法：对 \(x\) 采样 \(G\) 个回复，用「准确性奖励 \(r_{acc}\in\{0,1\}\) + 格式奖励 \(r_{format}\in\{0,1\}\)」做可验证奖励，advantage 用组内相对比较 \(A_i=\frac{r_i-\text{mean}(\{r\})}{\text{std}(\{r\})}\) 算，免去单独的 reward model。

3. 高保真语料构建 + 样本过滤：给可验证奖励喂干净数据

RL 的效果高度依赖数据质量。作者从 TabMWP、WTQ、HiTab、TAT-QA、TabFact、InfoTabs 等十余个公开数据集采集表格推理数据，对没有原生表格图的数据集用渲染管线统一成标准视觉格式；数学侧默认用 MetaMath（难度与表格推理最匹配）；感知侧用规则法造简单 QA（如「读出表中某个数值」）。为防数据泄漏严格遵守各 benchmark 官方训练/测试划分。样本过滤很关键：用 base 模型对每个候选样本做 8 次采样，若 8 次里答对超过 6 次就判为「太简单」剔除，同时移除那些不看图也能答对的样本——因为过多简单样本会破坏 RL 稳定性、提供低质量学习信号并浪费算力。

实验关键数据¶

主实验¶

骨干 Qwen2.5-VL-7B，2 epoch、global batch 256、AdamW、lr \(1\times10^{-6}\)、RL 每 query 采 \(G=16\) 个回复、KL 系数 0.01、阈值 \(\delta=0.5\)。7 个表格基准（准确率，%）：

方法	模态	TabMWP	WTQ	HiTab	TAT-QA	TabFact	InfoTabs
Table-R1	纯文本SOTA	96.40	81.20	81.40	73.86	87.60	87.90
Qwen2.5-VL-7B	多模态base	92.48	65.85	67.09	70.54	83.01	77.91
HIPPO-8B	多模态	87.34	55.71	63.13	61.40	82.29	75.70
Turbo-8B	多模态(GRPO)	96.75	67.80	72.15	73.21	85.81	81.89
TableMix	多模态	99.20	81.32	82.25	78.52	88.96	88.72

TableMix 不仅在多模态阵营里全面 SOTA（对最直接的对手 Turbo 各项均大幅领先），还反超了最强纯文本方法 Table-R1，TabMWP 近 100%。这直接验证了「修推理 + 保感知」能释放图像表格方法的潜力。

零样本泛化（held-out 的 TableVQA-Bench，%）：

方法	Fin.	VWTQ	Syn.	VTab.	AVG.
Qwen2.5-VL-7B	97.6	58.5	66.8	81.6	70.2
Ovis2-8B	92.4	59.6	62.4	84.8	69.7
TableMix	98.0	74.9	79.2	92.0	82.3

TableMix 在未见分布上平均最高（82.3），说明学到的推理技能能迁移到新场景。

消融实验¶

配置	效果	说明
单一数据源（仅表格 / 仅数学）	有可观提升	但弱于三类混合，印证「增强内在推理能助力领域任务」
batch 内混合（默认）	最优	优于两阶段
两阶段（先数学后表格 / 反之）	略掉点	分离训练削弱视觉-语言对齐
数学源 MetaMath（默认）	最佳	推理风格最贴表格推理
数学源 DeepScaleR（太难）/ GSM8K（太简单）	增益减弱	难度不匹配
数学源 Geo3K（几何）	增益有限	领域差距大
GRPO + DRS vs 标准 GRPO	准确率持平/略升 + token ↓~20%	InfoTabs 上甚至更好，减少过度推理
阈值 \(\delta=0.5\)	最优	\(\delta\) 过高/过低均训练不稳，\(\delta=0\) 尤差

关键发现¶

三类混合 > 任何单一数据源：数学数据修推理是涨点主力，但会反噬感知，必须靠 \(D_{TP}\) 把感知拉回，缺一不可。
DRS 几乎免费提效：在不掉准确率（部分基准还涨）的前提下把推理 token 砍掉约 20%，说明「简单题简答」既省算力又减幻觉。
数学源风格匹配比难度更重要：MetaMath 赢在推理风格与表格任务同构，太难/太简单/跨域（几何）都不如它，提示「修推理」要选与目标任务推理模式对齐的数据。

亮点与洞察¶

把「多模态打不过纯文本」归因到对齐预训练削弱推理，并用纯文本数学数据反向「修复」，这个诊断+药方组合很有解释力，也很可复用——任何因对齐/微调退化了某种能力的模型，都可考虑掺对应能力的纯文本数据共训。
reasoning-perception tension 是被实验逼出来的真问题：作者没有一上来就给三类数据，而是先掺数学发现感知退化、再补感知数据，这种「现象驱动设计」让第三类数据的必要性非常扎实。
DRS 用「组成功率」当难度的免费代理：不需要额外难度标注或 reward model，直接复用 GRPO 组内采样的成功率判难易，再用退火长度惩罚动态控制 CoT 长度，思路可迁移到任何 mixed-difficulty 的 RL 训练。

局限与展望¶

依赖可验证奖励：方法建立在「答案能自动判对错」上（accuracy reward），对开放式/无标准答案的表格任务（如 FeTaQA 这类需要 DeepSeek-V3 来标准化评测）适配性如何，正文未充分展开。
比例需调：\(\omega:\epsilon:\vartheta=0.7:0.2:0.1\) 和阈值 \(\delta=0.5\) 是在该配置下调出的最优，换骨干/换数据集是否仍是这组值需要重新搜，论文只证了「在一定扰动范围内稳健」。
只验证了 7B 骨干：是否在更大/更小 MLLM 上同样有效、数据混合最优配比是否随模型规模变化，没有给出。
⚠️ DRS 的退火与长度惩罚公式细节（如 \(\tanh\) 项、\(k(t)\) 边界）建议对照原文 Eq.(5)(6) 核对。

评分¶

新颖性: ⭐⭐⭐⭐ 把多模态劣势精准归因到对齐预训练并用纯文本数学数据修复，诊断+药方都新颖，DRS 是合理但增量式的补充。
实验充分度: ⭐⭐⭐⭐⭐ 7 个主基准 + 零样本泛化 + 训练顺序/数学源/比例/DRS/阈值全套消融，证据链完整。
写作质量: ⭐⭐⭐⭐ 现象驱动的叙事清晰，三步搭配方很有说服力；部分奖励公式细节略需对照原文。
价值: ⭐⭐⭐⭐⭐ 首次让图像表格方法追平纯文本 SOTA，数据混合修复退化能力的思路可迁移性强。