TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding¶

会议: ICLR 2026
arXiv: 2509.14671
代码: GitHub
领域: 多模态VLM
关键词: Table Understanding, Dynamic Routing, Multi-modal Fusion, Gating Network, LLM Agent

一句话总结¶

提出 TableDART，通过仅 2.59M 参数的 MLP 门控网络为每个 query-table 对动态选择最优处理路径（Text-only / Image-only / Fusion），复用冻结的单模态专家模型并引入 LLM Agent 进行跨模态融合，在 7 个表格理解 benchmark 上平均超越最强 MLLM 基线 HIPPO 4.02%，同时延迟降低 24.5%。

研究背景与动机¶

领域现状：表格理解是连接结构化数据与自然语言的核心任务。现有方法分为三个范式：（1）Table-as-Text——将表格线性化为文本序列供 LLM 处理，有效但丢失空间结构信息且对序列化格式敏感；（2）Table-as-Image——截图后用 VLM 处理，保留结构但语义捕捉能力弱；（3）Table-as-Multimodality——融合文本和视觉两种视图，如 HIPPO 在 MLLM 内联合处理两种表征。

现有痛点：多模态方法虽前景好，但存在两个关键限制：（1）静态融合导致冗余和冲突——对所有 query-table 对强制使用双模态处理，但并非所有查询都需要多视图，文本线性化会引入行序敏感性而图像表示保持置换不变性，两者信号矛盾时反而误导模型；（2）MLLM 微调代价过高——即使用 LoRA 等参数高效策略，HIPPO 的可训练参数也达 25.87M，是 TableDART 的 10 倍。

核心矛盾：多模态融合的收益来自信息互补，但代价是引入冗余和潜在冲突。58.7% 的测试样本两个单模态路径都能正确回答（即"简单样本"），强制融合不仅浪费计算还可能引入噪声。

切入角度：既然不同 query-table 对的最优处理策略不同，就应该让系统自动学会"什么时候用文本、什么时候用图像、什么时候需要融合"。用一个极轻量的路由网络做实例级决策，完全复用已有的单模态专家。

核心 idea：用 2.59M 参数的 MLP 门控网络替代昂贵的 MLLM 微调，为每个 query-table 对动态选择 Text-only / Image-only / Fusion 路径。

方法详解¶

整体框架¶

TableDART 要解决的是"一刀切融合"的浪费：现有多模态方法对每个 query-table 对都强制走文本+图像双模态，但大量查询其实单模态就能答对。它的思路是在两个冻结的单模态专家之上，挂一个极轻的"调度员"——为每条查询实时判断该走哪条路。

整个系统由五个组件协作：Table-as-Text 模型 \(\mathcal{M}_t\)（TableGPT2-7B，冻结）、Table-as-Image 模型 \(\mathcal{M}_v\)（Ovis2-8B，冻结）、一个 query 文本嵌入模型、一个轻量 MLP 门控网络（全系统唯一可训练，仅 2.59M 参数），以及一个免训练的 LLM Agent（Gemini 2.0 Flash，只在 Fusion 路径上启用）。给定一条 query 和一张表格，三路编码器并行抽取文本表征 \(\mathbf{e}_t\)、图像表征 \(\mathbf{e}_v\) 和查询嵌入 \(\mathbf{e}_q\)，拼成 \(\mathbf{x} = [\mathbf{e}_q, \mathbf{e}_t, \mathbf{e}_v]\) 喂给门控网络；门控输出三路 logit，取最高分的那条路径（Text-only / Image-only / Fusion）执行最终推理。换句话说，路由这一步只看特征、不做完整推理，所以几乎不增加开销。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    Q["查询 query + 表格 table"]
    subgraph ENC["多模态编码与特征拼接（设计 1）"]
        direction TB
        T["文本编码器 E_t<br/>(表格线性化)"]
        V["图像编码器 E_v<br/>(表格截图)"]
        QE["查询编码器 E_q"]
        CAT["拼接 x=[e_q, e_t, e_v]"]
        T --> CAT
        V --> CAT
        QE --> CAT
    end
    Q --> ENC
    GATE["门控网络与策略训练（设计 2）<br/>轻量 MLP → 三路 logit → 取最高"]
    ENC --> GATE
    GATE -->|Text-only| RT["续跑 M_t<br/>得答案"]
    GATE -->|Image-only| RV["续跑 M_v<br/>得答案"]
    GATE -->|Fusion| FUSE["LLM Agent 融合推理（设计 3）<br/>仲裁者 / 救援者"]
    RT --> OUT["最终答案"]
    RV --> OUT
    FUSE --> OUT

关键设计¶

1. 多模态编码与特征拼接：让门控网络在做决策前就"看全"三种信号

门控网络要选对路径，前提是它能同时感知到查询本身、表格的文本视图和图像视图。为此表格被同时序列化为文本（交给 \(\mathcal{M}_t\) 的编码器 \(\mathcal{E}_t\)）和渲染成截图（交给 \(\mathcal{M}_v\) 的编码器 \(\mathcal{E}_v\)），query 则由独立的文本嵌入模型 \(\mathcal{E}_q\) 编码；三路特征经各自的模态特定池化后拼接为 \(\mathbf{x} = [\mathbf{e}_q, \mathbf{e}_t, \mathbf{e}_v]\)。关键在于这里只取编码器的前几层、而非跑完整专家推理——\(\mathcal{E}_t\) 和 \(\mathcal{E}_v\) 分别只激活对应专家 7.15% 和 7.63% 的参数，因此"看全三模态"这件事代价极低，门控拿到的是特征级表征而不是昂贵的完整答案。

2. 门控网络与策略训练：用资源感知的软标签学会"够用就好"

门控网络 \(\mathcal{G}\) 是个轻量 MLP，对拼接特征输出三路 logit \(\mathbf{z} = \mathcal{G}(\mathbf{x})\)。训练它的难点在于：如果只追求答对，模型会发现"凡事都走 Fusion 最保险"，于是退化成又贵又静态的全融合。TableDART 的解法是把目标拆成任务项加资源项：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}} + \lambda \mathcal{L}_{\text{resource}}\]

任务项不用硬分类，而是先对每条样本预计算三条路径各自是否答对的二值向量 \(\mathbf{s} \in \{0,1\}^3\)，经温控 softmax 转成软目标，再用 KL 散度让预测分布去逼近它——这样允许"多条路径同时正确"，比逼模型从中硬选一条更贴合实际。资源项 \(\mathcal{L}_{\text{resource}} = \text{softmax}(\mathbf{z}/\tau_g)^T \mathbf{c}\) 则按各路径经验测得的推理成本向量 \(\mathbf{c}\) 给昂贵路径加罚，从而把那些单模态就能答对的简单样本主动推向更省的路径。两项的权衡由 \(\lambda = 0.15\) 控制，这个取值在准确率和延迟之间达到了最佳平衡。

3. LLM Agent 融合推理：把"怎么融合"外包给免训练的强推理 Agent

只有当门控判定一条 query 确实需要双模态时才会触发 Fusion，此时系统先并行跑完 \(\mathcal{M}_t\) 和 \(\mathcal{M}_v\)，拿到各自的结果 \(r_t, r_v\) 及辅助输出 \(a_t, a_v\)，连同原始表格一起交给 Fusion Agent（Gemini 2.0 Flash）。这里没有再去训练一个 MLLM 来学融合——那正是 HIPPO 那类方法昂贵的根源——而是让一个现成的强推理模型按两种角色后处理：当两个专家答案冲突时它充当仲裁者（Arbitrator），依据各自置信度挑出更可靠的一方；当两个专家都不确定时它充当救援者（Rescuer），把双方的部分证据拼起来推出新答案。实验里 Fusion 路径正是靠救援者的角色，在"两个单模态都失败"的困难样本中额外救回了一批。

损失函数 / 训练策略¶

训练集是从 5 个表格理解 benchmark 采样的 10K 混合样本。整个训练只更新门控网络，所有大模型全程冻结。对每条样本预先跑出三路正确性 \(\mathbf{s} \in \{0,1\}^3\) 作为监督信号，用温度 \(\tau\) 调节软标签分布的平滑度；推理阶段则确定性地选取最高 logit 的路径。

实验关键数据¶

主实验¶

方法	WTQ	TABMWP	TAT-QA	HiTab	FeTaQA	TabFact	InfoTabs	平均Acc
TableGPT2-7B (Text)	61.42	83.87	50.39	70.27	28.97	77.80	71.07	69.14
Ovis2-8B (Image)	58.76	87.00	47.67	68.59	34.70	80.80	74.11	69.49
HIPPO-8B (Multimodal)	55.77	87.50	60.75	63.00	33.18	82.27	75.74	70.84
Gemini 2.0 Flash	63.56	46.29	35.62	60.41	10.57	81.33	54.31	56.92
TableDART	70.58	84.54	62.05	74.37	36.11	81.37	76.22	74.86

TableDART 平均准确率 74.86%，超越最强多模态基线 HIPPO-8B +4.02%。在未见数据集上泛化性更突出：TableDART 74.37% vs HIPPO 63.00%（+18.05%）。

消融实验¶

路由策略	WTQ	TABMWP	TAT-QA	HiTab	TabFact	InfoTabs	说明
随机路由	65.40	75.50	58.94	70.49	79.50	69.57	无效路由
非自适应融合	70.97	81.47	63.34	73.35	81.56	76.83	全部走Fusion
动态路由	70.58	84.54	62.05	74.37	81.37	76.22	本文方法

动态路由在 TABMWP（+3.07）和 HiTab（+1.02）上超越非自适应融合，证明强制融合在简单数据集上反而引入噪声。推理效率方面，动态路由平均延迟 2.20s vs 非自适应融合 2.92s，降低 24.5%。

关键发现¶

58.7% 样本属于"简单样本"：两个单模态路径都能正确回答，强制融合完全不必要
24.0% 样本两个模态互补：17.2% 仅图像正确、6.8% 仅文本正确，验证了保留独立单模态路径的必要性
Fusion 路径的"救援"成功率为 14%：在 17.3% 两个单模态都失败的困难样本中，Fusion Agent 额外解决了 2.4%
路由策略可解释：TABMWP 等简单数据集 97.2% 路由到 Image-only，TAT-QA 中 88.7% 困难样本路由到 Fusion

亮点与洞察¶

极致的训练效率：仅训练 2.59M 参数就超越了训练 25.87M 参数的 HIPPO，核心洞察是"路由决策比模态融合更重要"。这种"元决策 + 冻结专家"的范式可迁移到任何多专家系统
路由策略的泛化性：在 seen/unseen 数据集上性能几乎一致（74.95% vs 74.37%），而 HIPPO 从 72.41% 跌到 63.00%，说明门控网络学到的是通用的路由策略而非过拟合
训练信号的精妙设计：用"三路独立预计算正确性"作为监督信号，允许多路径同时正确，配合 KL 散度软标签训练，比硬标签分类更合理

局限与展望¶

依赖外部 Gemini 作为 Fusion Agent：Fusion 路径需要调用闭源 API，增加成本和隐私担忧，可探索用开源 LLM 替代
训练数据需预计算三路结果：为每条训练样本运行三次推理的成本不低，限制了训练集扩展
门控网络仅考虑特征级信息：当前路由决策基于编码器浅层特征，未利用 query 的语义复杂度等高层信息
仅支持三条固定路径：未探索更灵活的路由策略，如部分融合或级联式推理

评分¶

新颖性: ⭐⭐⭐⭐ 实例级动态路由 + 免训练 LLM Agent 融合的组合设计新颖，但动态路由的基本思想不新
实验充分度: ⭐⭐⭐⭐⭐ 7 个 benchmark、丰富的消融、路由策略分析、效率分析、泛化性验证，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，动机论证有力，图表丰富
价值: ⭐⭐⭐⭐ 提供了一种训练高效的多模态融合范式，对表格理解和更广泛的多专家系统都有参考价值