Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning¶
会议: ICLR 2026
代码: https://github.com/Longin-Yu/GeoPerceive
领域: multimodal_vlm
关键词: 几何感知、视觉语言模型、领域特定语言、强化学习、DPO
一句话总结¶
提出 GEOPERCEIVE 基准(基于无歧义 DSL 的几何感知评测)和 GEODPO 框架(译者引导的强化学习),使 VLM 在保持自然语言输出的前提下,通过 NL→DSL 翻译器计算细粒度奖励信号,大幅提升几何图形感知与下游推理能力。
研究背景与动机¶
领域现状:几何问题求解(GPS)是多模态 VLM 的重要应用场景,当前主流方法以端到端方式对图形和文本进行联合推理,并用最终答案准确率衡量模型能力。然而即便是 GPT-o3、Qwen3-235B 等最强模型,也会将"相切"误判为"相交"、漏掉关键交点等基础感知错误。
现有痛点:一方面,现有 GPS 基准(MathVista、GeoQA 等)将感知错误与推理错误混杂,无法独立评估几何感知能力;另一方面,AlphaGeometry、Inter-GPS 等已有 DSL 均存在"一图多程序"歧义,同一图形可对应多条语义等价的 DSL,导致无法做精确的程序级评测。此外,直接在 DSL 上做监督微调(SFT)面临排列等价爆炸问题,且易使模型偏离预训练的自然语言分布。
核心矛盾:需要一套既无歧义、又可大规模自动生成的几何感知评测与训练体系,同时需要一种能绕开 SFT 局限、利用细粒度 DSL 级奖励对 VLM 进行对齐的训练范式。
本文目标:独立测量并提升 VLM 对点、线、圆等几何基元及其空间关系的感知能力,而非端到端优化最终答案。
核心 idea:设计规范化 DSL(GEODSL)作为几何图形的唯一形式表示;用"VLM 生成自然语言描述 → NL2DSL 翻译器将描述转回 DSL → 与真值 DSL 计算 F1 得分"的链路作为奖励函数,以 DPO 对 VLM 进行偏好对齐,让模型始终在自然语言空间输出,同时受到 DSL 级细粒度监督。
方法详解¶
整体框架¶
GEODPO 系统由三个组件协同工作:GEOPERCEIVE 数据引擎负责自动生成 (图, DSL) 数据对;NL2DSL 翻译器在合成语料上训练,将 VLM 的自然语言输出映射回 DSL;DPO 训练器利用翻译器打出的细粒度分数构造偏好对,对 VLM 做强化对齐。
flowchart LR
A[GEODSL 生成引擎\n随机采样几何程序] --> B[图形求解引擎\n梯度下降渲染像素图]
B --> C[(GEOPERCEIVE\n图+DSL 数据集)]
C --> D[VLM 生成\nNL 描述]
C --> E[NL2DSL 翻译器\nQwen2.5-7B + LoRA]
D --> E
E --> F[DSL 级 F1 评分]
F --> G[偏好对构造\nwinner / loser]
G --> H[DPO 损失\n对 VLM 对齐]
H --> D
关键设计¶
1. GEODSL:无歧义的规范化几何 DSL
现有 DSL(AlphaGeometry、Inter-GPS 等)均存在"一图多程序"问题——同一几何关系可用不同构造顺序表达,导致评测时真值不唯一。GEODSL 采用描述性(relational)而非构造性(constructive)语句,将图形表示为四元组 G = ⟨P, L, C, R⟩(点集、线集、圆集、约束集),且点–曲线的关联关系内嵌于曲线声明中,保证每张图对应唯一 DSL 程序。图形复杂度可控:程序长度与元素数量线性增长,便于训练稳定化。
2. GEOPERCEIVE 评测指标:基于匈牙利匹配的加权 F1
给定真值 G 与预测 Ĝ,对每类基元(点/线/圆/约束)分别构造相似度矩阵,通过匈牙利算法求最大权二分匹配,计算该类 F1;四类 F1 均等权重加权得到最终 Score(G, Ĝ)。相比序列级匹配,此评测对排列等价程序天然鲁棒,不会因元素顺序不同而给出不同分数。
3. 梯度下降图形求解引擎
给定 GEODSL 程序,引擎将几何基元参数化(点坐标、线系数、圆心+半径),将所有几何约束转化为损失函数(如点在线上的距离平方),并叠加密度惩罚、分布惩罚、尺度/边界惩罚等视觉合理性正则项,通过 PyTorch 迭代优化渲染像素图。相比 SymPy 等符号求解器,基于梯度的方法易于扩展新类型约束,且实现框架自包含。
4. 翻译器引导的 DPO 偏好对齐
核心思路是:VLM 不学着直接输出 DSL(避免分布漂移与排列爆炸),而是保持自然语言输出,由单独训练的 NL2DSL 翻译器(Qwen2.5-7B + LoRA,rank=4)将 NL 描述映射回 DSL 并评分。对每张训练图,从参考 VLM 采样 \(N_\text{samples}=10\) 条 NL 描述,按翻译后的 DSL 得分排序,取前半段为 winner、后半段为 loser,要求分差 \(\delta_\text{min}=0.3\) 以筛除信息量不足的对,随后使用标准 DPO 损失:
$\(\mathcal{L}_\text{DPO} = -\mathbb{E}\left[\log\sigma\!\left(\beta\log\frac{\pi_\theta(S_w|D)}{\pi_\text{ref}(S_w|D)} - \beta\log\frac{\pi_\theta(S_l|D)}{\pi_\text{ref}(S_l|D)}\right)\right]\)$
对 VLM 进行偏好对齐,使模型趋向生成几何精确的自然语言描述。
实验关键数据¶
主实验(GEOPERCEIVE Main-test,域内感知)¶
| 模型 | 方法 | Overall Score | Δ vs Raw |
|---|---|---|---|
| Qwen2.5-VL 7B | Raw | 57.96 | — |
| Qwen2.5-VL 7B | SFT | 64.02 | +10.46% |
| Qwen2.5-VL 7B | GEODPO | 66.19 | +14.2% |
| InternVL3 8B | Raw | 58.44 | — |
| InternVL3 8B | SFT | 62.71 | +7.31% |
| InternVL3 8B | GEODPO | 67.41 | +15.35% |
| LLaVA-Next 7B | Raw | 41.01 | — |
| LLaVA-Next 7B | SFT | 51.10 | +24.60% |
| LLaVA-Next 7B | GEODPO | 51.86 | +26.46% |
OOD 与下游推理¶
| 数据集 | 模型 | Raw | GEODPO | Δ |
|---|---|---|---|---|
| GEOPERCEIVE-OOD(感知) | Qwen2.5-VL 7B | 58.14 | 60.28 | +3.68% |
| GEOPERCEIVE-OOD(感知) | InternVL3 8B | 58.74 | 60.91 | +3.69% |
| MathVista 几何子集(推理) | Qwen2.5-VL 7B | — | — | +39.0%(paper 综合报告) |
NL2DSL 翻译器精度(GEOPERCEIVE Translator-test)¶
| 迭代次数 | 有效率 | Overall F1 | 点 F1 | 线 F1 | 圆 F1 | 约束 F1 |
|---|---|---|---|---|---|---|
| 1 | 100% | 94.2 | 97.8 | 98.0 | 85.1 | 95.9 |
| 3 | 100% | 87.4 | 94.7 | 93.3 | 71.7 | 89.8 |
| 整体均值 | 100% | 89.2 | 96.1 | 95.2 | 74.6 | 90.8 |
关键发现¶
- SFT 在 Constraint 类别上会出现性能下降(InternVL3 约束类 F1 下降 6.32%),而 GEODPO 在该类上稳定提升 +9.9%~+19.27%,说明 GEODPO 对"脆弱"约束关系有更稳健的提升。
- SFT 在 OOD 集合上几乎无收益(+0.46% 甚至 −0.29%),GEODPO 保持一致正增益,表明 RL 偏好对齐具有更强泛化能力。
- 翻译器在几何复杂度提升时(迭代 4~5)圆与约束类 F1 下降较大,是当前方法的主要性能瓶颈。
亮点与洞察¶
- 解耦感知与推理:通过独立的感知基准,首次将"VLM 看不清图"与"VLM 推不对题"区分开来,为多模态模型诊断提供了新工具。
- 译者作为奖励桥梁:利用 NL→DSL 翻译器将结构化形式评分"嫁接"到自然语言输出上,避免了直接 DSL 输出导致的分布漂移,是一种通用的"跨模态奖励注入"思路,可扩展到化学结构、代码等其他有形式语言的感知任务。
- 自动化数据管线:生成引擎 + 求解引擎完全无需人工标注,可以按需生成任意复杂度的几何图形,大幅降低数据成本,为后续大规模预训练提供可能。
- SFT 负迁移现象:在约束类别上 SFT 反而下降的观察,对"任何任务都适合 SFT"的惯性认知提出了警示。
局限与展望¶
- 翻译器在高复杂度图形(圆与约束较多)上 F1 下降明显,直接制约了奖励信号质量,未来可引入更强翻译器或直接用 VLM 作为翻译器。
- GEODSL 目前覆盖标准欧式构型,对非标准几何(射影几何、坐标几何带数值等)尚无支持,限制了跨领域迁移。
- OOD 数据仅 100 条(10 名研究生手工标注),统计结论的置信区间有待进一步验证。
- DPO 范式对采样数量 \(N_\text{samples}\) 较敏感,计算开销(每张图采 10 次)在大规模训练中可能成为瓶颈。
相关工作与启发¶
- vs SFT on DSL:直接 SFT 到 DSL 输出面临两大挑战——排列等价爆炸(多条 DSL 语义等价)和分布漂移(脱离 NL 预训练流形)。GEODPO 通过保持 NL 输出 + 外部翻译器评分绕开这两个问题。
- vs AlphaGeometry / Inter-GPS:这些 DSL 存在"一图多程序"歧义,GEODPO 用规范化的 GEODSL 解决了精确评测的基础问题。
- vs MathVista / GeoQA(端到端基准):现有基准只看最终答案,GEODPO 揭示了感知错误是独立瓶颈,两类误差需分开处理。
- vs RLVR(Verifiable Reward):与数学推理领域"答案验证作为奖励"的趋势一脉相承,本文将"DSL 级结构匹配"作为可验证奖励,是该范式在几何感知方向的应用拓展。
评分¶
- 新颖性: ⭐⭐⭐⭐ 无歧义 DSL + 译者奖励桥梁的组合设计较新颖,填补了几何感知独立评测的空白
- 实验充分度: ⭐⭐⭐⭐ 三个模型系列、域内+OOD+下游推理全面对比,消融分析到位
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,贡献边界明确,图表丰富
- 价值: ⭐⭐⭐⭐ 感知-推理解耦框架与译者引导奖励思路对多模态模型训练有较强启发