GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning¶
会议: CVPR 2026
arXiv: 2603.22687
代码: 有(公开)
领域: 代码智能
关键词: 几何感知、TikZ代码生成、多模态推理、辅助线生成、图像到代码
一句话总结¶
GeoTikzBridge 通过构建最大的 2.5M 图像-TikZ 代码数据集和首个辅助线指令数据集,训练出能精准重建几何图形的代码生成模型,并可作为即插即用模块增强任意 MLLM/LLM 的几何推理能力。
研究背景与动机¶
领域现状:多模态大语言模型(MLLMs)在跨模态感知和推理方面取得了长足进步,但在几何问题上仍面临挑战。几何问题需要整合细粒度的视觉感知和结构化符号推理。现有的 Image-to-Code 方法主要集中在 Web UI→HTML/CSS 或图表→Python,很少涉及几何内容。在数学推理方面,现有方法主要依赖文本推理,忽视了几何可视化推理中关系传递的需求。
现有痛点:MLLMs 在局部几何感知上表现有限,难以精确解析线段关系、角度大小、形状约束等细粒度视觉细节。这主要是因为:(1) 缺乏大规模几何图像-代码数据集(DaTikZ 只有 145k 样本且几何样本有限);(2) 模型对细微几何变化的建模不够充分。
核心矛盾:一方面几何推理需要对图形结构有精确的符号化表征,另一方面现有数据和方法无法为 MLLM 提供足够的几何感知训练信号。TikZ 代码比 SVG 更适合几何推理,因为其代码语法本身记录了几何构造的逻辑步骤和依赖关系。
本文目标 (1) 如何构建足够大的几何图像-TikZ 代码数据集来训练模型?(2) 如何让模型关注到局部几何细节而非笼统地生成代码?(3) 如何将几何感知能力迁移到下游推理任务中?
切入角度:作者提出迭代自精炼策略来扩展数据集、局部几何变换策略来增强细节感知,以及指令引导的辅助线生成来赋能推理。
核心 idea:通过迭代数据扩展+局部代码变换构建 2.5M 级几何 TikZ 数据集,训练出可作为即插即用推理模块的几何代码生成模型。
方法详解¶
整体框架¶
GeoTikzBridge 框架由三个部分组成:(1) 迭代自精炼框架,用于构建 GeoTikz-Base 数据集和训练 GeoTikzBridge-Base 模型;(2) 指令引导的 GeoTikz-Instruct 数据集和 GeoTikzBridge-Instruct 模型;(3) 无训练的即插即用视觉推理管线。输入是几何图像,输出是可编译的 TikZ 代码。
关键设计¶
-
迭代自精炼数据构建 (Iterative Self-Refinement):
- 功能:从 145k 种子数据扩展到 2.5M 的大规模几何 TikZ 数据集
- 核心思路:以 DaTikZ 作为种子数据集 \(\mathcal{D}_0\) 训练初始模型 \(M_0\)。从 9 个公开几何数据集收集候选图像。每轮迭代做三步:(a) 用当前模型对候选图像预测 TikZ 代码,用 CLIP score 比较渲染图和原图,阈值 \(\tau=0.8\) 以上的作为可靠样本加入自精炼集 \(\mathcal{D}_k^R\);(b) 对可靠样本应用局部代码变换得到增强集 \(\mathcal{D}_k^T\);(c) 在合并数据 \(\mathcal{D}_k = \mathcal{D}_{k-1} \cup \mathcal{D}_{k-1}^R \cup \mathcal{D}_{k-1}^T\) 上重训模型。迭代 4 轮,最终得到 2.5M 样本
- 设计动机:几何图像-代码数据稀缺,直接标注成本高。通过"生成→筛选→训练"的自举循环,模型每轮变强后能标注更多数据,形成良性循环
-
局部几何变换策略 (Localized Geometric Transformation):
- 功能:增强模型对细粒度几何细节的感知能力
- 核心思路:包含代码变换和图像变换两部分。代码变换对 TikZ 代码随机删除 1 到 n 行(不超过 40%),保留可编译的修改代码 \(\tilde{C}\) 及其渲染图 \(\tilde{I}\) 作为新样本对。这迫使模型学习代码的结构语义而非记忆特定文本序列。可视为代码噪声注入,增强泛化和鲁棒性。该策略使代码重复预测率下降 15%
- 设计动机:复杂图像常导致模型忽略细粒度几何细节,产生关键代码行的遗漏或幻觉。通过局部编辑让模型必须关注每一个几何元素的存在与否
-
指令引导的辅助线生成 (GeoTikz-Instruct):
- 功能:让模型能根据指令在几何图形上添加辅助线,为推理提供中间步骤
- 核心思路:对 \(\mathcal{D}_K\) 中的样本应用代码变换获得变换后图像,用 Qwen2.5-VL-72B 标注描述辅助线变化的指令 \(Q\),再用 Doubao 做 VLM 过滤确保质量。最终的样本三元组为(指令 \(Q'\), 变换后图像 \(\tilde{I}'\), 原始代码 \(C'\)),共 419k 训练样本。GeoTikzBridge-Instruct 在 GeoTikzBridge-Base 基础上做 SFT
- 设计动机:许多几何问题需要添加辅助线才能求解。现有 MLLM 无法生成准确的辅助线。通过代码变换天然地产生"添加/删除几何元素"的前后对比,从而自动构造辅助线训练数据
损失函数 / 训练策略¶
使用标准的因果自回归建模目标 \(\mathcal{L}_{\text{gen}} = -\sum_i \log P_M(c_i | I, c_{<i})\)。8B 模型全参数 SFT(学习率 4e-7),38B 模型用 LoRA 微调(学习率 1e-4)。使用 DeepSpeed ZeRO-3 和 Flash Attention。8 卡 H100,训练 ~96 GPU 小时(8B)和 ~488 GPU 小时(38B)。推理使用贪心解码(temperature=0)。
实验关键数据¶
主实验 — 图像到 TikZ 生成¶
| 方法 | DaTikZ CLIP-S↑ | DaTikZ FID↓ | MathVista-GPS CLIP-S↑ | EDU CLIP-S↑ |
|---|---|---|---|---|
| Qwen2.5-VL-72B | 0.795 | 49.8 | 0.858 | 0.781 |
| InternVL3-78B | 0.747 | 62.7 | 0.860 | 0.801 |
| FigCodifier-8B | 0.785 | 45.8 | 0.884 | 0.675 |
| GeoTikzBridge-Base-8B | 0.804 | 43.6 | 0.895 | 0.795 |
| GeoTikzBridge-Base-38B | 0.813 | 39.7 | 0.915 | 0.821 |
下游数学推理提升¶
| 基线 VLM | MathVista-GPS | GAOKAO-MM-Math |
|---|---|---|
| GLM4.5-V-106B | 0.745 | 0.613 |
| +GeoTikzBridge-Base | 0.764 (+1.9%) | 0.663 (+5.0%) |
| Skywork-OR1-32B (LLM)+TikZ | 0.861 | 0.663 |
| GPT-OSS-120B (LLM)+TikZ | 0.880 | 0.688 |
消融实验¶
| 配置 | MathVista-GPS 准确率 |
|---|---|
| InternVL3.5-38B 基线 | 0.688 |
| + TikZ 代码 + 辅助线图像 | 0.697 |
| + 辅助线图像 + 辅助线代码 | 0.707 |
| + TikZ 代码 + 辅助线图像 + 代码 | 0.736 |
关键发现¶
- LLM + TikZ 代码的组合通常优于 VLM 直接看图,这归因于 VLM 在视觉-语言对齐训练中的灾难性遗忘损害了语言推理能力
- 辅助线以 TikZ 代码形式比渲染图像形式更有效,表明符号化表征对推理更关键
- 局部代码变换策略对编译成功率和 CLIP score 都有显著提升,代码重复率下降 15%
- GeoTikzBridge 在几何代码感知上超越了 GPT-5.0
亮点与洞察¶
- 把"代码变换"同时用于两个目的非常巧妙:一是作为数据增强提高模型鲁棒性,二是作为辅助线数据的自动构造方法。一种操作解决两个问题,设计非常优雅
- LLM + TikZ 代码优于 VLM 直接看图的实验发现很有启发性。它暗示了一种新的多模态推理范式:不让推理模型直接看图,而是先用专门的感知模型将图像转化为可执行的符号表征,再交给纯语言推理模型。这相当于实现了"感知-推理"解耦
- 迭代自精炼的数据飞轮效应值得借鉴:初始小数据→训练弱模型→弱模型标注更多数据→过滤+增强→训练更强模型
局限与展望¶
- 目前仅限于几何图形,尚未扩展到电路图、工程图等技术性示意图领域
- 辅助线生成依赖 VLM 先判断是否需要辅助线,若判断错误则整个管线失效
- 数据集主要覆盖平面几何和解析几何,立体几何和拓扑学图形的覆盖较少
- TikZ 代码的编译成功率虽达 95%+,但仍有约 5% 的失败情况可能影响实际部署
相关工作与启发¶
- vs FigCodifier: 同为图像到 TikZ 的模型,但 FigCodifier 只有 8B 参数且训练数据有限。GeoTikzBridge 通过 16 倍的数据量和局部变换策略全面超越
- vs DaTikZ 数据集: DaTikZ 是现有最大的图像-TikZ 数据集(145k),但几何样本有限。GeoTikz-Base 达到 2.5M,且专注几何领域
- vs 数学推理模型 (R1系列): 这些模型擅长文本推理但无法直接处理几何图像。GeoTikzBridge 通过将图像转为 TikZ 代码"桥接"了 LLM 的推理能力和视觉感知
评分¶
- 新颖性: ⭐⭐⭐⭐ 几何感知→TikZ代码→推理提升的完整链路设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖图像到代码、下游推理、辅助线生成多个维度,消融详尽
- 写作质量: ⭐⭐⭐⭐ 结构清晰,框架图直观
- 价值: ⭐⭐⭐⭐⭐ 2.5M 数据集+即插即用推理模块对几何推理领域有很大实用价值