TableMix: Enhancing Multimodal Table Reasoning in MLLMs from a Data-Centric Perspective¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM
关键词: 多模态表格推理, MLLM, 数据混合, GRPO, 奖励塑形
一句话总结¶
针对多模态大模型(MLLM)做表格推理时反而打不过纯文本模型的反常现象,TableMix 从数据角度切入:在每个训练 batch 里同时混入「多模态表格推理 + 纯文本数学推理 + 简单表格感知」三类数据,来同时修复被对齐预训练削弱的推理力、保住视觉感知力,再配一个按难度调奖励的 DRS 机制,最终在 7 个表格基准上既碾压多模态基线、也追平甚至超过最强纯文本方法 Table-R1。
研究背景与动机¶
领域现状:表格推理(Table Reasoning)目前分两条路线——一条把表格序列化成 HTML/Markdown 喂给纯文本 LLM,另一条直接把表格图像喂给 MLLM。后者理论上更强,因为保留了颜色、高亮、图标、字体这些序列化会丢掉的视觉线索。
现有痛点:但文献里出现一个反直觉的持续现象——多模态方法在主流推理 benchmark 上一直输给纯文本方法。论文用 Figure 1 举例:多模态模型 Turbo 和纯文本模型 Table-R1 用的是几乎相同的 RL(GRPO)策略,Turbo 却在多个 benchmark 上明显落后。也就是说,单靠先进的 RL 技巧补不上这个差距。
核心矛盾:作者把根因归到视觉-语言对齐预训练。现代 MLLM = 预训练 LLM + 视觉编码器 + 对齐预训练,而这个对齐阶段虽然建立了视觉 grounding,却无意中削弱了底层 LLM 的内在推理能力。表格推理偏偏极度依赖逻辑、算术、结构化计算,所以这种退化在表格任务上格外致命;推理底子坏了,直接上 RL 自然收效有限。
本文目标:在不损害视觉感知的前提下,把 MLLM 被削弱的推理内核「修回来」。
切入角度:一个朴素直觉——既然推理核被退化,那就用纯文本数学推理数据(如 MetaMath)和主任务表格数据交错共训来「修复」它。实验确实验证了这能涨点,但又引出新问题(见下文的 reasoning-perception tension)。
核心 idea:从数据角度而非模型角度解决——用有原则的三类数据混合同时修复推理、保住感知,再加一个难度感知的奖励塑形让简单题简答、难题深想。
方法详解¶
整体框架¶
TableMix 是一个数据为中心的 RL 微调框架,骨干是 Qwen2.5-VL-7B。它不改模型结构,而是在两个地方动手:喂什么数据和怎么给奖励。输入是表格图像 + 文本 prompt,输出是带 <think>...</think> 推理过程和 \boxed{} 答案的回复。
整个流程是:先按比例在 batch 级别把三类数据(多模态表格推理 \(D_{TR}\)、纯文本数学推理 \(D_{TM}\)、多模态表格感知 \(D_{TP}\))混成一个训练 batch;这个 batch 喂进 GRPO 做 RL,每个 query 采样一组 \(G\) 个回复;再用 难度感知奖励塑形(DRS) 根据这组回复的成功率动态调整对「正确且简短」回复的奖励;最后照常算 advantage、回传更新。三类数据混合解决「修推理又会反噬感知」的张力,DRS 解决「混合数据难度不均导致简单题也啰嗦推理」的浪费。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["表格图像 + 文本 prompt"] --> B["三类数据混合<br/>D_TR + D_TM + D_TP<br/>batch 级按 ω:ε:ϑ 配比"]
B --> C["高保真语料构建 + 样本过滤<br/>渲染 + 规则造感知题 + 8 采样筛难"]
C --> D["GRPO 采样一组 G 个回复"]
D --> E["难度感知奖励塑形 DRS<br/>按组成功率 + 自适应长度惩罚"]
E --> F["算 advantage 回传更新 MLLM"]
关键设计¶
1. 三类数据混合:一个 batch 同时修推理、保感知
这是全文核心,直接针对「对齐预训练削弱推理 + 修推理又会反噬感知」这条因果链。作者分三步搭起最终配方。第一步「修复推理核」:往训练数据里掺纯文本数学推理数据 \(D_{TM}\)(MetaMath、DeepScaleR、GSM8K 等),因为复杂表格推理本质就是数值聚合、条件过滤、序列推断,这些和数学推理模式高度同构,掺进去能把被削弱的逻辑底子「续上」,实验证明这步就显著涨点。第二步暴露出推理-感知张力(reasoning-perception tension):模型抽象推理一变强,对表格的低层视觉感知反而退化,原本能答对的简单感知题(如直接读某格数值)开始答错(Figure 3 里 Qwen2.5-VL 微调后把表内数字读错)。第三步「最终配方」:再掺第三类简单多模态表格感知数据 \(D_{TP}\),强迫模型在学复杂推理的同时不断「复习」基本视觉感知,做到「学会思考时不丢掉看的能力」。
三类数据在 batch 级按采样比例 \(\omega, \epsilon, \vartheta\)(\(\omega+\epsilon+\vartheta=1\))混合:
直觉上 \(D_{TR}\) 应占主导(最对齐目标任务),\(D_{TM}\) 适量补推理,\(D_{TP}\) 占最小份额防感知退化;实验最优为 \(\omega=0.7,\ \epsilon=0.2,\ \vartheta=0.1\)。关键是混合发生在 batch 内而非两阶段顺序训练——消融显示两阶段(先数学后表格或反之)都会略掉点,作者推测是分离训练削弱了视觉与语言模态的对齐。
2. 难度感知奖励塑形 DRS:简单题逼它简答、难题放它深想
混合数据集横跨「一眼能答的感知题」到「需要长链 CoT 的多步推理」,难度极不均。标准 GRPO 对所有样本一视同仁,会鼓励连 trivial 题也生成冗长推理,既浪费算力又容易因过度推理引入幻觉和无谓错误。DRS 的核心洞察是:如果一道题在一组采样里高成功率被答对,它大概率就是简单题,不该再奖励长篇大论。
具体地,对输入 \(x\) 的一组回复 \(\{y_i\}_{i=1}^{G}\),先算组成功率 \(p(x)=\frac{1}{G}\sum_{i=1}^{G}\mathbb{1}(r_{acc}(y_i)=1)\)。只有当 \(p(x)>\delta\)(即这题已被「掌握」)时,才对正确回复施加自适应长度惩罚:
其中 \(L_i\) 是回复 \(y_i\) 的 token 长度,\(L_{\min}^{correct}\) 是该组所有正确回复里的最短长度——也就是说,越长的正确回复奖励越低,把模型往「最短正确答案」推。\(k(t)=\min(k_{max},\ \frac{k_{max}}{T}\cdot t)\) 是随训练步 \(t\) 退火的系数(\(k_{max}=1.0\),\(T\) 为总步数),早期惩罚弱、让模型先把长链 CoT 推理学起来,后期再逐步收紧鼓励简洁。低成功率(难题)则完全不加长度惩罚,放它充分逐步推理。这样在难度混合的设定下自然平衡了推理深度与效率,且不损训练稳定性。⚠️ 公式中 \(\tanh\) 项与退火细节以原文 Eq.(5)(6) 为准。
GRPO 本身沿用标准做法:对 \(x\) 采样 \(G\) 个回复,用「准确性奖励 \(r_{acc}\in\{0,1\}\) + 格式奖励 \(r_{format}\in\{0,1\}\)」做可验证奖励,advantage 用组内相对比较 \(A_i=\frac{r_i-\text{mean}(\{r\})}{\text{std}(\{r\})}\) 算,免去单独的 reward model。
3. 高保真语料构建 + 样本过滤:给可验证奖励喂干净数据
RL 的效果高度依赖数据质量。作者从 TabMWP、WTQ、HiTab、TAT-QA、TabFact、InfoTabs 等十余个公开数据集采集表格推理数据,对没有原生表格图的数据集用渲染管线统一成标准视觉格式;数学侧默认用 MetaMath(难度与表格推理最匹配);感知侧用规则法造简单 QA(如「读出表中某个数值」)。为防数据泄漏严格遵守各 benchmark 官方训练/测试划分。样本过滤很关键:用 base 模型对每个候选样本做 8 次采样,若 8 次里答对超过 6 次就判为「太简单」剔除,同时移除那些不看图也能答对的样本——因为过多简单样本会破坏 RL 稳定性、提供低质量学习信号并浪费算力。
实验关键数据¶
主实验¶
骨干 Qwen2.5-VL-7B,2 epoch、global batch 256、AdamW、lr \(1\times10^{-6}\)、RL 每 query 采 \(G=16\) 个回复、KL 系数 0.01、阈值 \(\delta=0.5\)。7 个表格基准(准确率,%):
| 方法 | 模态 | TabMWP | WTQ | HiTab | TAT-QA | TabFact | InfoTabs |
|---|---|---|---|---|---|---|---|
| Table-R1 | 纯文本SOTA | 96.40 | 81.20 | 81.40 | 73.86 | 87.60 | 87.90 |
| Qwen2.5-VL-7B | 多模态base | 92.48 | 65.85 | 67.09 | 70.54 | 83.01 | 77.91 |
| HIPPO-8B | 多模态 | 87.34 | 55.71 | 63.13 | 61.40 | 82.29 | 75.70 |
| Turbo-8B | 多模态(GRPO) | 96.75 | 67.80 | 72.15 | 73.21 | 85.81 | 81.89 |
| TableMix | 多模态 | 99.20 | 81.32 | 82.25 | 78.52 | 88.96 | 88.72 |
TableMix 不仅在多模态阵营里全面 SOTA(对最直接的对手 Turbo 各项均大幅领先),还反超了最强纯文本方法 Table-R1,TabMWP 近 100%。这直接验证了「修推理 + 保感知」能释放图像表格方法的潜力。
零样本泛化(held-out 的 TableVQA-Bench,%):
| 方法 | Fin. | VWTQ | Syn. | VTab. | AVG. |
|---|---|---|---|---|---|
| Qwen2.5-VL-7B | 97.6 | 58.5 | 66.8 | 81.6 | 70.2 |
| Ovis2-8B | 92.4 | 59.6 | 62.4 | 84.8 | 69.7 |
| TableMix | 98.0 | 74.9 | 79.2 | 92.0 | 82.3 |
TableMix 在未见分布上平均最高(82.3),说明学到的推理技能能迁移到新场景。
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 单一数据源(仅表格 / 仅数学) | 有可观提升 | 但弱于三类混合,印证「增强内在推理能助力领域任务」 |
| batch 内混合(默认) | 最优 | 优于两阶段 |
| 两阶段(先数学后表格 / 反之) | 略掉点 | 分离训练削弱视觉-语言对齐 |
| 数学源 MetaMath(默认) | 最佳 | 推理风格最贴表格推理 |
| 数学源 DeepScaleR(太难)/ GSM8K(太简单) | 增益减弱 | 难度不匹配 |
| 数学源 Geo3K(几何) | 增益有限 | 领域差距大 |
| GRPO + DRS vs 标准 GRPO | 准确率持平/略升 + token ↓~20% | InfoTabs 上甚至更好,减少过度推理 |
| 阈值 \(\delta=0.5\) | 最优 | \(\delta\) 过高/过低均训练不稳,\(\delta=0\) 尤差 |
关键发现¶
- 三类混合 > 任何单一数据源:数学数据修推理是涨点主力,但会反噬感知,必须靠 \(D_{TP}\) 把感知拉回,缺一不可。
- DRS 几乎免费提效:在不掉准确率(部分基准还涨)的前提下把推理 token 砍掉约 20%,说明「简单题简答」既省算力又减幻觉。
- 数学源风格匹配比难度更重要:MetaMath 赢在推理风格与表格任务同构,太难/太简单/跨域(几何)都不如它,提示「修推理」要选与目标任务推理模式对齐的数据。
亮点与洞察¶
- 把「多模态打不过纯文本」归因到对齐预训练削弱推理,并用纯文本数学数据反向「修复」,这个诊断+药方组合很有解释力,也很可复用——任何因对齐/微调退化了某种能力的模型,都可考虑掺对应能力的纯文本数据共训。
- reasoning-perception tension 是被实验逼出来的真问题:作者没有一上来就给三类数据,而是先掺数学发现感知退化、再补感知数据,这种「现象驱动设计」让第三类数据的必要性非常扎实。
- DRS 用「组成功率」当难度的免费代理:不需要额外难度标注或 reward model,直接复用 GRPO 组内采样的成功率判难易,再用退火长度惩罚动态控制 CoT 长度,思路可迁移到任何 mixed-difficulty 的 RL 训练。
局限与展望¶
- 依赖可验证奖励:方法建立在「答案能自动判对错」上(accuracy reward),对开放式/无标准答案的表格任务(如 FeTaQA 这类需要 DeepSeek-V3 来标准化评测)适配性如何,正文未充分展开。
- 比例需调:\(\omega:\epsilon:\vartheta=0.7:0.2:0.1\) 和阈值 \(\delta=0.5\) 是在该配置下调出的最优,换骨干/换数据集是否仍是这组值需要重新搜,论文只证了「在一定扰动范围内稳健」。
- 只验证了 7B 骨干:是否在更大/更小 MLLM 上同样有效、数据混合最优配比是否随模型规模变化,没有给出。
- ⚠️ DRS 的退火与长度惩罚公式细节(如 \(\tanh\) 项、\(k(t)\) 边界)建议对照原文 Eq.(5)(6) 核对。
相关工作与启发¶
- vs Turbo:两者都用 GRPO 做多模态表格推理,但 Turbo 只靠 RL,撞上了「推理核被预训练削弱」的天花板;TableMix 多了数据混合这一层,直接修复推理底子,因此各项基准大幅反超 Turbo——印证「数据为中心」的改进能超越纯 RL 微调。
- vs Table-R1(纯文本 SOTA):Table-R1 走序列化表格 + 纯文本 LLM 路线,天然不丢推理力但丢了视觉线索;TableMix 走图像路线却通过混入数学数据把推理力补齐,首次让多模态方法在多个基准上追平甚至超过它,弥合了长期存在的模态性能差距。
- vs HIPPO / SynTab-LLaVA / Table-LLaVA:这些专用方法靠合成数据或偏好优化增强表格推理,但未触及「对齐预训练削弱推理」这一根因;TableMix 从诊断根因出发,方法更通用也更彻底。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把多模态劣势精准归因到对齐预训练并用纯文本数学数据修复,诊断+药方都新颖,DRS 是合理但增量式的补充。
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个主基准 + 零样本泛化 + 训练顺序/数学源/比例/DRS/阈值全套消融,证据链完整。
- 写作质量: ⭐⭐⭐⭐ 现象驱动的叙事清晰,三步搭配方很有说服力;部分奖励公式细节略需对照原文。
- 价值: ⭐⭐⭐⭐⭐ 首次让图像表格方法追平纯文本 SOTA,数据混合修复退化能力的思路可迁移性强。