TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment¶

会议: CVPR2026
arXiv: 2603.22819
代码: github.com/Chunchunwumu/TDATR.git
领域: 可解释性
关键词: 表格识别, 端到端, 细节感知学习, 单元格定位, 视觉-语言对齐

一句话总结¶

提出TDATR框架，通过"先感知后融合"策略和结构引导的单元格定位模块，在有限标注数据下实现端到端表格识别，在7个基准上无需数据集特定微调即达到SOTA。

研究背景与动机¶

表格识别(TR)是文档分析的核心任务，需将表格图像转换为HTML等机器可读格式。现有方法主要分两类： - 模块化TR：分别建模表格结构(TSR)和内容(TCR)，独立训练后通过后处理融合，但忽略了结构与内容的内在依赖，导致次优整合和误差累积 - 端到端TR：统一生成结构化输出，但严重依赖大规模TR标注数据，在数据受限场景下泛化能力差；且大多不提供单元格空间对应关系，缺乏可解释性

核心矛盾：端到端方法虽然简化了流程，但TR数据标注成本极高（需同时标注结构和内容），导致现有方法在真实场景多样性表格上表现不佳。

本文切入角度：将TR能力学习解耦为"感知"和"融合"两阶段——先通过多任务预训练获取细粒度表格细节感知能力，再用少量TR数据学习融合，并引入结构引导的单元格定位增强可解释性。

方法详解¶

整体框架¶

TDATR 要解决的问题是：端到端表格识别(TR)虽然流程简洁，却高度依赖昂贵的 TR 专用标注，数据一受限就泛化崩塌，且通常不给出单元格的空间位置、缺乏可解释性。它的破解思路是把"学会识别表格"这件事拆成两步——先感知、再融合。整条管线由三部分串起来：视觉编码器(Swin Transformer)把表格图像编码成多分辨率特征，多模态语言解码器在统一的语言建模范式下生成结构化文本，结构引导单元格定位(SGCL)模块则从解码过程的隐状态里"长出"每个单元格的精确坐标框。训练上对应 perceive-then-fuse 两阶段：第一阶段在海量通用文档上喂各种感知任务，第二阶段才用少量 TR 数据把感知到的细节融合成端到端的 HTML 输出。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["表格图像 → Swin 视觉编码器<br/>+ 多模态语言解码器"] --> B
    subgraph B["表格细节感知学习（通用文档，便宜）"]
        direction TB
        B1["内容识别<br/>文本检测 / Markdown 解析"]
        B2["结构理解<br/>单元格 / 跨行列 / 行列检测"]
    end
    B --> C["SGCL 结构引导单元格定位<br/>解码隐状态当锚点 → 行列掩码<br/>→ DAB-DETR 回归精细框"]
    C --> D["融合微调（少量 TR 数据）<br/>HTML 解析任务接通端到端能力"]
    D --> E["HTML 结构 + 单元格坐标框"]

关键设计¶

1. 表格细节感知学习：用便宜的通用文档数据，预存出昂贵 TR 标注才能给的感知能力

端到端 TR 的死穴是标注成本——同时标结构和内容代价极高，所以现有方法要么数据不够、要么泛化差。这个设计的做法是绕开 TR 专用数据，在统一的语言建模范式下设计两类自监督/弱监督预训练任务，全部从大规模多源文档(网页、论文、README 等)里取材。一类是内容识别任务，包括空间有序文本检测、带框查询的文本检测、Markdown 解析，专门磨练 OCR 与布局理解；另一类是结构理解任务，包括单元格检测、跨行跨列检测、行列检测、结构解析，从单元格级和行列级两个粒度建立对表格骨架的感知。这样一来，模型在还没见过几条 TR 标注前，就已经把"哪里是文字、哪里是单元格边界、哪些格子跨行跨列"这些细节摸熟了，后续只需少量 TR 数据点一下"如何把它们拼成完整 HTML"，从根上把数据需求从稀缺的端到端标注转移到了易得的文档数据上。

2. 结构引导单元格定位(SGCL)：让坐标框从 TR 解码过程里直接长出来，天然与输出对齐

模块化方法靠后处理把结构和内容对齐，端到端方法又常常干脆不给坐标，可解释性和对齐都成问题。SGCL 的关键在于：不另起炉灶检测单元格，而是直接复用语言解码器的隐状态当锚点。具体地，它从解码器不同层的隐状态里用可学习权重聚合出单元格表示——对每个单元格，在 <td 与 </td> 两个标记之间做平均池化得到初始表示 \(C\)。接着把 \(C\) 投影到行/列特征空间，用内积算出格子之间的邻接关系，二值化成结构掩码：

\[M_{xy}^k = \mathbb{1}\left[\text{Sigmoid}\left(\langle C_x^k, C_y^k \rangle / \text{dim}(C^k)\right) > 0\right]\]

这个掩码再去引导一轮双向上下文注意力，把 \(C\) 增强成结构感知的 \(C'\)；最后用 MLP 从 \(C'\) 回归一个初始框，并借助多分辨率视觉特征 \(P'_3\)、\(P'_4\) 经 DAB-DETR 解码层逐步精细化。整个过程像这样走一遍：解码器吐出 HTML 序列时，每碰到一对 <td>...</td> 就对应一个隐状态团块，SGCL 把它当成该单元格的"种子锚点"，先按行列关系互相校准，再让视觉特征把框拉到像素级准确的位置。因为锚点本身就是 TR 输出的隐状态，单元格框和生成序列天然一一对应——既不用后处理拼接，也避开了 DETR 系常用的二分(匈牙利)匹配带来的训练不稳定。

3. 融合微调阶段：用一个 HTML 解析任务把前一阶段攒下的感知"接通"成端到端能力

第一阶段攒了一身感知细节，但还没学会"把它们组装成完整表格"。这一阶段就用 HTML 表格解析任务做监督，让模型在生成结构化序列的同时由 SGCL 预测每个单元格的精确坐标。此时模型不再需要海量 TR 数据，而是隐式聚合前一阶段学到的文本、布局、行列结构等细节来完成端到端 TR——这也是为什么它能用远少于基线的微调数据就达到 SOTA。

损失函数 / 训练策略¶

感知阶段：所有任务用交叉熵损失 \(L_{ce}\)

融合阶段：\(L_f = \lambda_{ce} L_{ce} + \lambda_b L_b + \lambda_{iou} L_{iou} + \lambda_m L_m + \lambda_s L_s\) - \(L_b\): 单元格回归损失; \(L_{iou}\): IoU损失 - \(L_m\): 掩码对齐损失(Mask-DINO风格)，增强C'与图像特征的对齐 - \(L_s\): 结构引导损失(BCE)，优化行列关系矩阵 - 权重: \(\lambda_b=0.05, \lambda_{iou}=0.03, \lambda_m=0.03, \lambda_s=0.05, \lambda_{ce}=1.0\)

两阶段各训练3个epoch，使用16×64GB 910B NPU。

实验关键数据¶

主实验¶

数据集	指标	TDATR	之前SOTA	提升
iFLYTAB-full	TEDS	93.22	84.36 (DeepSeek-OCR)	+8.86
TabRecSet	TEDS	92.70	70.70 (EDD)	+22.00
PubTables-1M	TEDS	97.97	95.48 (Dolphin)	+2.49
PubTabNet	TEDS	提供了-ft版本进一步提升	-	-

消融实验¶

配置	关键指标	说明
无细节感知学习	性能显著下降	验证了perceive-then-fuse策略
无SGCL	TEDS-D增大	结构-内容对齐变差
TDATR-ft(PubTabNet额外微调)	TSR/TR均提升	确认数据量的收益

关键发现¶

端到端TR的TSR性能超越了专家TSR模型，证明内容识别对结构识别有正向促进
使用远少于基线的微调数据仍达SOTA，验证了解耦学习策略的有效性
TEDS-Delta(TEDS-TEDS_S)显著优于模块化方法，说明端到端避免了后处理误差累积

亮点与洞察¶

"先感知后融合"是一个优雅的解耦思路：将难以获取的端到端TR标注需求转化为更容易获取的文档数据预训练 + 少量TR微调
SGCL模块设计精巧，利用TR解码过程的隐状态作为DAB-DETR的锚点初始化，避免了匈牙利匹配的训练不稳定问题
新数据集iFLYTAB-full填补了中文真实场景表格识别评估的空白

局限与展望¶

在PubTabNet等数字表格上TSR略逊于最佳专家模型，因为完整TR序列长度约为TSR的两倍，加大了生成难度
模型参数量600M，相比大型OCR VLM(Qwen2.5-VL-72B)虽小但仍较大
未探索与LLM backbone的集成，可能限制了对复杂文档上下文的理解

评分¶

新颖性: ⭐⭐⭐⭐ perceive-then-fuse策略和SGCL模块设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 7个基准、无数据集特定微调、完整消融
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详实
价值: ⭐⭐⭐⭐ 在数据受限下表格识别的实用性很强

补充说明¶

视觉编码器采用Swin Transformer (300M)，语言解码器Transformer (300M)，共600M参数
SGCL中DAB-DETR解码层数Ld=3，双向增强分支包含2个自注意力块和1个交叉注意力块
最大解码长度4096 token，输入图像长边不超过2048像素