GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning¶

会议: CVPR 2026
arXiv: 2603.22687
代码: 有（公开）
领域: 代码智能
关键词: 几何感知、TikZ代码生成、多模态推理、辅助线生成、图像到代码

一句话总结¶

GeoTikzBridge 通过构建最大的 2.5M 图像-TikZ 代码数据集和首个辅助线指令数据集，训练出能精准重建几何图形的代码生成模型，并可作为即插即用模块增强任意 MLLM/LLM 的几何推理能力。

研究背景与动机¶

领域现状：多模态大语言模型（MLLMs）在跨模态感知和推理方面取得了长足进步，但在几何问题上仍面临挑战。几何问题需要整合细粒度的视觉感知和结构化符号推理。现有的 Image-to-Code 方法主要集中在 Web UI→HTML/CSS 或图表→Python，很少涉及几何内容。在数学推理方面，现有方法主要依赖文本推理，忽视了几何可视化推理中关系传递的需求。

现有痛点：MLLMs 在局部几何感知上表现有限，难以精确解析线段关系、角度大小、形状约束等细粒度视觉细节。这主要是因为：(1) 缺乏大规模几何图像-代码数据集（DaTikZ 只有 145k 样本且几何样本有限）；(2) 模型对细微几何变化的建模不够充分。

核心矛盾：一方面几何推理需要对图形结构有精确的符号化表征，另一方面现有数据和方法无法为 MLLM 提供足够的几何感知训练信号。TikZ 代码比 SVG 更适合几何推理，因为其代码语法本身记录了几何构造的逻辑步骤和依赖关系。

本文目标 (1) 如何构建足够大的几何图像-TikZ 代码数据集来训练模型？(2) 如何让模型关注到局部几何细节而非笼统地生成代码？(3) 如何将几何感知能力迁移到下游推理任务中？

切入角度：作者提出迭代自精炼策略来扩展数据集、局部几何变换策略来增强细节感知，以及指令引导的辅助线生成来赋能推理。

核心 idea：通过迭代数据扩展+局部代码变换构建 2.5M 级几何 TikZ 数据集，训练出可作为即插即用推理模块的几何代码生成模型。

方法详解¶

整体框架¶

GeoTikzBridge 框架由三个部分组成：(1) 迭代自精炼框架，用于构建 GeoTikz-Base 数据集和训练 GeoTikzBridge-Base 模型；(2) 指令引导的 GeoTikz-Instruct 数据集和 GeoTikzBridge-Instruct 模型；(3) 无训练的即插即用视觉推理管线。输入是几何图像，输出是可编译的 TikZ 代码。

关键设计¶

迭代自精炼数据构建 (Iterative Self-Refinement):
- 功能：从 145k 种子数据扩展到 2.5M 的大规模几何 TikZ 数据集
- 核心思路：以 DaTikZ 作为种子数据集 \(\mathcal{D}_0\) 训练初始模型 \(M_0\)。从 9 个公开几何数据集收集候选图像。每轮迭代做三步：(a) 用当前模型对候选图像预测 TikZ 代码，用 CLIP score 比较渲染图和原图，阈值 \(\tau=0.8\) 以上的作为可靠样本加入自精炼集 \(\mathcal{D}_k^R\)；(b) 对可靠样本应用局部代码变换得到增强集 \(\mathcal{D}_k^T\)；(c) 在合并数据 \(\mathcal{D}_k = \mathcal{D}_{k-1} \cup \mathcal{D}_{k-1}^R \cup \mathcal{D}_{k-1}^T\) 上重训模型。迭代 4 轮，最终得到 2.5M 样本
- 设计动机：几何图像-代码数据稀缺，直接标注成本高。通过"生成→筛选→训练"的自举循环，模型每轮变强后能标注更多数据，形成良性循环
局部几何变换策略 (Localized Geometric Transformation):
- 功能：增强模型对细粒度几何细节的感知能力
- 核心思路：包含代码变换和图像变换两部分。代码变换对 TikZ 代码随机删除 1 到 n 行（不超过 40%），保留可编译的修改代码 \(\tilde{C}\) 及其渲染图 \(\tilde{I}\) 作为新样本对。这迫使模型学习代码的结构语义而非记忆特定文本序列。可视为代码噪声注入，增强泛化和鲁棒性。该策略使代码重复预测率下降 15%
- 设计动机：复杂图像常导致模型忽略细粒度几何细节，产生关键代码行的遗漏或幻觉。通过局部编辑让模型必须关注每一个几何元素的存在与否
指令引导的辅助线生成 (GeoTikz-Instruct):
- 功能：让模型能根据指令在几何图形上添加辅助线，为推理提供中间步骤
- 核心思路：对 \(\mathcal{D}_K\) 中的样本应用代码变换获得变换后图像，用 Qwen2.5-VL-72B 标注描述辅助线变化的指令 \(Q\)，再用 Doubao 做 VLM 过滤确保质量。最终的样本三元组为（指令 \(Q'\), 变换后图像 \(\tilde{I}'\), 原始代码 \(C'\)），共 419k 训练样本。GeoTikzBridge-Instruct 在 GeoTikzBridge-Base 基础上做 SFT
- 设计动机：许多几何问题需要添加辅助线才能求解。现有 MLLM 无法生成准确的辅助线。通过代码变换天然地产生"添加/删除几何元素"的前后对比，从而自动构造辅助线训练数据

损失函数 / 训练策略¶

使用标准的因果自回归建模目标 \(\mathcal{L}_{\text{gen}} = -\sum_i \log P_M(c_i | I, c_{<i})\)。8B 模型全参数 SFT（学习率 4e-7），38B 模型用 LoRA 微调（学习率 1e-4）。使用 DeepSpeed ZeRO-3 和 Flash Attention。8 卡 H100，训练 ~96 GPU 小时（8B）和 ~488 GPU 小时（38B）。推理使用贪心解码（temperature=0）。

实验关键数据¶

主实验 — 图像到 TikZ 生成¶

方法	DaTikZ CLIP-S↑	DaTikZ FID↓	MathVista-GPS CLIP-S↑	EDU CLIP-S↑
Qwen2.5-VL-72B	0.795	49.8	0.858	0.781
InternVL3-78B	0.747	62.7	0.860	0.801
FigCodifier-8B	0.785	45.8	0.884	0.675
GeoTikzBridge-Base-8B	0.804	43.6	0.895	0.795
GeoTikzBridge-Base-38B	0.813	39.7	0.915	0.821

下游数学推理提升¶

基线 VLM	MathVista-GPS	GAOKAO-MM-Math
GLM4.5-V-106B	0.745	0.613
+GeoTikzBridge-Base	0.764 (+1.9%)	0.663 (+5.0%)
Skywork-OR1-32B (LLM)+TikZ	0.861	0.663
GPT-OSS-120B (LLM)+TikZ	0.880	0.688

消融实验¶

配置	MathVista-GPS 准确率
InternVL3.5-38B 基线	0.688
+ TikZ 代码 + 辅助线图像	0.697
+ 辅助线图像 + 辅助线代码	0.707
+ TikZ 代码 + 辅助线图像 + 代码	0.736

关键发现¶

LLM + TikZ 代码的组合通常优于 VLM 直接看图，这归因于 VLM 在视觉-语言对齐训练中的灾难性遗忘损害了语言推理能力
辅助线以 TikZ 代码形式比渲染图像形式更有效，表明符号化表征对推理更关键
局部代码变换策略对编译成功率和 CLIP score 都有显著提升，代码重复率下降 15%
GeoTikzBridge 在几何代码感知上超越了 GPT-5.0

亮点与洞察¶

把"代码变换"同时用于两个目的非常巧妙：一是作为数据增强提高模型鲁棒性，二是作为辅助线数据的自动构造方法。一种操作解决两个问题，设计非常优雅
LLM + TikZ 代码优于 VLM 直接看图的实验发现很有启发性。它暗示了一种新的多模态推理范式：不让推理模型直接看图，而是先用专门的感知模型将图像转化为可执行的符号表征，再交给纯语言推理模型。这相当于实现了"感知-推理"解耦
迭代自精炼的数据飞轮效应值得借鉴：初始小数据→训练弱模型→弱模型标注更多数据→过滤+增强→训练更强模型

局限与展望¶

目前仅限于几何图形，尚未扩展到电路图、工程图等技术性示意图领域
辅助线生成依赖 VLM 先判断是否需要辅助线，若判断错误则整个管线失效
数据集主要覆盖平面几何和解析几何，立体几何和拓扑学图形的覆盖较少
TikZ 代码的编译成功率虽达 95%+，但仍有约 5% 的失败情况可能影响实际部署

评分¶

新颖性: ⭐⭐⭐⭐ 几何感知→TikZ代码→推理提升的完整链路设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 覆盖图像到代码、下游推理、辅助线生成多个维度，消融详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，框架图直观
价值: ⭐⭐⭐⭐⭐ 2.5M 数据集+即插即用推理模块对几何推理领域有很大实用价值