Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning¶

会议: ICLR2026
OpenReview: 1sffPGGQyT
代码: 待确认
领域: LLM推理 / 几何定理证明 / Agent / 课程强化学习
关键词: 几何定理证明, LLM Agent, 辅助线构造, 长程交互, 复杂度提升课程 RL

一句话总结¶

本文提出 InternGeometry——首个达到奖牌选手水平的几何 LLM agent：它把符号引擎当工具，用「思考—构造/命题—验证—反思」的超长程交互（单题 200+ 步）攻克辅助线构造缺乏启发式的难题，再配合 Complexity-Boosting RL（CBRL）逐级提升合成题难度，仅用 13K 训练样本（AlphaGeometry 2 的 0.004%）就在 IMO 2000–2024 的 50 道几何题上解出 44 道，超过金牌选手平均分。

研究背景与动机¶

领域现状：LLM agent 在数学、编程上已能借助 LEAN 等形式化工具反复推理、反思工具反馈，达到 IMO 级别表现，被认为有更好的泛化性。但在几何这个子领域，主流仍是 AlphaGeometry 2、SeedGeometry 这类专家模型：它们靠数亿规模的合成数据训练一个专门预测辅助线的模型，再用它去引导符号引擎（DDAR）做大规模搜索。

现有痛点：几何题的解题链条极长，不仅要组合各种几何定理，更要做创造性的辅助线构造——而辅助线"该往哪加"几乎没有可靠启发式（weak heuristics），人类也得反复试错。专家模型范式为此付出了两个代价：一是数据爆炸（AlphaGeometry 2 用了 ~3 亿合成样本），二是泛化差（专家模型只学会预测构造，不会像通用推理那样举一反三）。

核心矛盾：辅助线构造的弱启发式 vs. 专家模型"一次性预测构造 + 海量搜索"的范式——后者用堆数据和堆搜索去硬扛弱启发式，效率和通用性都被牺牲。问题根本在于：弱启发式应该靠探索性试错逐步积累洞察来克服，而不是靠一个静态预测器一锤定音。

本文目标：(1) 让通用 LLM agent 而非专家模型来解 IMO 级几何题；(2) 用极少数据达到甚至超过专家模型；(3) 保留 agent 的泛化与创造力（能给出人类解法里没有的辅助线）。

切入角度：作者观察到人类专家正是通过"探索性试探"获得辅助线洞察的。如果让 agent 像人一样长时间、多轮地与符号引擎交互——不断提命题、加辅助点、看引擎反馈再调整——就能把"弱启发式"逐步转成"强启发式"（weak-to-strong heuristic transition）。

核心 idea：用「超长程 LLM–工具交互 + 动态记忆」替代「专家模型一次性预测」来攻克辅助线弱启发式，再用「复杂度逐级提升的课程 RL」高效把 agent 训练到奥赛难度。

方法详解¶

整体框架¶

InternGeometry 把几何证明建模成 agent 与一个可交互符号引擎的长程对话。给定一道几何题，agent 在每一步先用自然语言慢思考（Think），再输出一段 DSL 形式的动作（Action）——可以是构造几何对象、添加辅助线、或提出一个待证子命题；引擎执行后返回反馈（Feedback），告知动作是否成功、当前已知哪些性质。一个动态记忆模块把几百轮的交互历史压缩成紧凑摘要喂回 agent，使它能在 200+ 步内持续探索而不被上下文淹没。训练侧，CBRL 用一个难度可控的数据合成管线不断生成当前最"卡"难度的题，配合 GRPO 在线强化，逐轮把题目难度推高，最终让 agent 具备奥赛级能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["几何题输入"] --> ENV["InternGeometry-DDAR<br/>交互式符号证明引擎"]
    ENV --> AG["长程证明 agent<br/>Think→Action→Feedback 循环"]
    AG -->|压缩几百轮历史| MEM["动态记忆管理<br/>保留核心动作与反馈"]
    MEM --> AG
    AG -->|防 action collapse| AG
    AG -->|全部目标证毕| PF["完整证明输出"]
    SYN["可控难度数据合成<br/>冷启动 + 复杂度条件合成"] --> CBRL["CBRL 课程强化学习<br/>κ 调度 + GRPO"]
    CBRL -->|更新策略| AG
    CBRL -->|按 reward 调高 κ| SYN

关键设计¶

1. InternGeometry-DDAR：把"一次性建图"的符号引擎改成可交互、可维护状态的证明环境

AlphaGeometry 系的 DDAR（deductive database arithmetic reasoning）是"先逐点建好整张图，再一次性穷举所有可推出的定理"——这种一锤子模式不适合 agent 边探索边加辅助点。本文基于开源 DDAR 系统 Newclid 重建了 InternGeometry-DDAR，关键改动有两点：一是引入更强的点定义策略（如全局优化点的放置以满足约束），把表达能力覆盖到绝大多数 IMO 几何题；二是让引擎跨步维护状态——当前几何配置、已构造的辅助点、所有已证的前提与命题都被保存下来，agent 可以增量地在已有状态上继续操作，并提出"子证明目标"交给引擎验证。这把符号引擎从一个静态求解器变成了一个支持长程交互的"形式化沙盒"，是后面所有探索的基础设施。

2. 长程证明 agent：用 Think–Action–Feedback 循环 + 拒绝采样把弱启发式逐步磨成强启发式

这是全文的灵魂。agent \(G\) 在第 \(t\) 步的输出是 \([P_t, A_t] = G(X, W(H_{t-1}))\)，其中 \(P_t\) 是自然语言慢思考、\(A_t\) 是形式化动作代码、\(H_{t-1}\) 是历史、\(W\) 是记忆压缩器。动作 \(A_t\) 交给引擎执行得到 \(O_t, E_t = E_{t-1}(A_t)\)，并把 \([P_t, A_t, O_t]\) 追加进历史。这个循环可以跑 200+ 步——之所以要这么长，是因为辅助线没有可靠启发式，agent 必须像人一样反复提命题、加构造、看引擎说哪条成立哪条不成立，再据此调整方向，在试错中累积对这道题的几何性质认识，最终凑出可行解。

长程交互的一个副作用是 action collapse：模型容易陷入坏模式，反复输出高度重复或与前几轮雷同的动作。本文用一个简单直接的拒绝采样来防它：朴素采样得到 \([\hat P_t, \hat A_t]\) 后，先过一个基于规则的多条件检查 PassCheck——禁止与历史重复的动作、禁止无休止思考不停、禁止某一轮没有有效动作或格式有问题、禁止连续多轮用同一种动作类型；通过才采用，否则丢弃重采。这让 agent 在几百步里保持探索多样性，是长程能力能落地的关键护栏。

3. 动态记忆管理 W：把几百轮历史压成紧凑摘要，既省上下文又引导多样探索

如果把几百轮的完整思考和详细反馈都塞进上下文，agent 很快就会被淹没。\(W\) 对早期交互做摘要：丢掉冗长的思考过程和详细环境反馈，只保留核心动作输出和关键环境反馈——例如某条辅助线是否成功添加、某个命题是否成立；最后一轮的反馈保持原样，让 agent 准确知道当前已知哪些命题。这样 agent 得到的是一份"我做过哪些动作、各自结果如何"的简洁全景，既压缩了上下文、提升长程容量，又因为看得到历史探索过的方向而能引导未来的多样化探索（避免重复已走过的死路）。记忆压缩在消融里极其关键——去掉它（上下文不压缩）IMO 50 从 44 掉到 20。

4. CBRL：用复杂度调度自动把训练题维持在"中等难度"，让课程 RL 高效收敛

直接在高难题上训会因奖励极稀疏而难收敛，只在简单题上训又泛化不到 IMO 难度。CBRL（Complexity-Boosting RL）的思路是让算法自己动态控制合成题的难度。冷启动阶段先用少量合成数据做 SFT（目标 \(L_{st}\)），让 agent 学会慢思考、主动调工具的基本范式；之后进入"交互—训练"迭代循环，按 GRPO 优化（式 5），奖励设计得刻意简单且可由规则自动计算：\(r = r_o \wedge r_s\)，结果奖励 \(r_o\) 在证明完成时为 1，步骤有效性奖励 \(r_s\) 对"提命题"步看命题是否被引擎证出、对"加辅助线"步看该构造是否最终被用进完整证明——即只奖励成功轨迹中的有效步，惩罚失败轨迹的所有步和成功轨迹中的无效步。

难度调度是 CBRL 的精髓。作者沿用 AlphaGeometry 的观察——IMO 几何题对人的难度正相关于 DDAR 证明步数，于是用证明步数 \(\kappa\) 作为复杂度度量。每轮先按 \(\kappa\) 采样数据训练 \(\theta^* = \arg\max_\theta \mathbb{E}_{X\sim \mathcal{X}(\kappa)} J_{rl}(X,\theta)\)，再更新难度 \(\kappa^* = \arg\max_\kappa \mathbb{E}_{X\sim\mathcal{X}(\kappa)}\mathbb{E}_{y}|A(X,y)|\)——即选能让平均绝对优势最大的难度。论文给出两个性质：该 \(\kappa^*\) 近似最优地加速学习进度（定理 1）；对二元奖励，最大平均绝对优势是 0.5，恰对应"对当前模型不太难也不太易"的中等难度（定理 2）。实践中每轮按学习率 \(\alpha\) 更新 \(\kappa\)，于是合成题随训练逐渐变难，构成从易到难的课程。

5. 可控难度数据合成 pipeline：用 13K 自合成数据替代数亿专家数据

CBRL 能成立，前提是有一个难度可控的题目工厂。pipeline 分两段：冷启动段，由于 DSL 形式数据稀缺，作者用专家迭代把 InternThinker-32B 微调成 InternGeometry-Formalizer，把大量自然语言几何题形式化，产出 7K 形式化"问题+解轨迹"对做冷启动；CBRL 段，针对冷启动数据"难题太少"的分布失衡，在 RL 过程中动态合成——往随机构造的图里按给定复杂度的统计先验加辅助线，再用 InternGeometry-DDAR 过滤出有效构造和目标组成新题，按证明步数控制难度，共合成 6K 题。两段合计约 13K，仅为 AlphaGeometry 2 的 0.004%。这套自动化合成是"无偏、无上限地调整课程难度（尤其在高复杂度端）"的关键，区别于 Voyager/WebRL 等依赖高度结构化任务模板的课程方法。

一个完整示例（IMO 2018 P6）¶

题目：凸四边形 \(ABCD\) 满足 \(AB\cdot CD = BC\cdot DA\)，内点 \(X\) 满足 \(\angle XAB=\angle XCD\) 且 \(\angle XBC=\angle XDA\)，求证 \(\angle BXA + \angle DXC = 180°\)。大多数人类解法依赖反演、三角或复数。InternGeometry 却走了一条优雅的纯几何路线：先在 \(AC\) 上取点 \(T\) 使 \(\angle BDA = \angle TDC\)，再把点 \(K\) 定义为两圆的交点——这两点恰构成 \(ABCD\) 里的一对等角共轭点（说明 agent 通过探索发现了这一隐含结构）；接着它构造 \(T\) 关于四边形各边的对称点，把"三角形里处理等角共轭"的辅助点用法推广到四边形。整条链路是 agent 在数百步交互里"提构造 → 引擎验证 → 反思 → 再提"试错出来的，最终给出了与人类解法本质不同的构造，体现了创造力。

实验关键数据¶

主实验¶

测试集为 IMO 50（IMO 2000–2024 全部几何题），骨干模型 InternThinker-32B，最大 200 步，Pass@256。

模型	类型	训练数据量	IMO 50 Pass@K
AlphaGeometry 2	专家模型	300M	42/50
SeedGeometry	专家模型	230M	43/50
InternGeometry	LLM Agent	13K	44/50

InternGeometry 不仅解题数最多，数据量只有专家模型的 0.004%–0.006%，且测试时算力预算远低于 AlphaGeometry 2 的 beam 集成（其最优单 beam 配置为 beam size 128、分支 32、深度 4）。算上 IMO 2025 共 51 题，InternGeometry 解出 45 道，覆盖 AlphaGeometry 2 解出的全部题并额外解出 2018 P6、2023 P6；相比 SeedGeometry 额外解出 2001 P5、2009 P4b，但漏掉 2006 P1。剩余未解题多涉及超出纯几何证明范围的计算，落在 DDAR 表达能力之外。

消融实验¶

长程组件消融（表 3，Pass@256）：

配置	IMO 50	说明
Full（命题+慢思考+压缩+拒绝采样）	44/50	完整
w/o 命题（只允许加辅助线）	35/50	去掉提命题/长程证明步
w/o 命题 + w/o 慢思考	23/50	再去掉慢思考
w/o 上下文压缩	20/50	去掉动态记忆
w/o 拒绝采样	38/50	去掉防 collapse

CBRL 消融（表 4，Pass@256）：

训练设置	IMO 50	说明
With CBRL	44/50	完整课程 RL
SFT Cold Start	22/50	仅冷启动
Easy Data Only	29/50	只用低难度数据
Challenging Data Only	24/50	只用高难度数据
Same Data without Schedule	38/50	同样数据但去掉难度调度

关键发现¶

长程交互是命门：去掉提命题/长程证明步（只让加辅助线）从 44 掉到 35，再去掉慢思考掉到 23，去掉上下文压缩掉到 20——证实"弱→强启发式转换"靠的就是长时间试错。
延长轨迹比重复采样更划算：在相同总推理预算（采样数 K × 步数）下，把单条轨迹从 64 步放到 200 步带来的提升远快于多次重复采样，说明长程交互才是几何证明里高效积累启发式的方式。
难度必须"刚刚好"：只用简单题（29）或只用难题（24）都不如 CBRL（44）；难题因奖励太稀疏、同样预算内学不动，简单题则泛化不到 IMO 难度。去掉难度调度（38）也明显掉点。训练到第 6 轮时 IMO 50 出现显著跃升。
创造力：case study 显示 agent 能给出人类解法里没有的辅助线构造（如 2018 P6 的纯几何等角共轭构造）。

亮点与洞察¶

把"专家模型一次性预测辅助线"换成"agent 长程试错探索"：这是范式级转变——不再靠静态预测器死扛弱启发式，而是用几百步交互逐步积累几何性质洞察，既省 99.996% 数据，又保留通用推理的泛化与创造力。
难度调度的理论锚点很漂亮：用"平均绝对优势最大"作为难度选择目标，并证明二元奖励下最大值恰为 0.5（对应中等难度），把"课程该选多难"从经验调参变成可计算的优化目标，这个洞察可迁移到任何二元奖励的课程 RL。
极简规则奖励：\(r = r_o \wedge r_s\) 全程规则自动算，不需训练奖励模型——对"步骤有效性"的定义（辅助线必须被最终证明用上才算有效）很巧妙地把信用分配下沉到了步级。
动态记忆的双重作用：压缩历史既省上下文，又因为暴露探索轨迹而引导未来不重复走死路——消融里它是单点贡献最大的组件（去掉从 44→20）。

局限与展望¶

受限于符号引擎的表达力：未解出的题大多涉及超出纯几何证明的计算，落在 DDAR 表达范围之外；agent 能力被工具天花板锁住。
只验证了几何这一个领域：CBRL + 长程 agent 范式能否迁移到代数、组合等同样"弱启发式 + 需创造性构造"的数学子领域，尚未验证。
测试预算仍不小：虽远低于 AlphaGeometry 2，但 Pass@256 + 200 步意味着单题推理成本不低，实用部署还需进一步提效。
复杂度仅用证明步数刻画：\(\kappa\) 用 DDAR 步数近似难度，但步数多未必等于"对模型难"，更细粒度的难度度量可能让课程更平滑。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个奖牌级几何 LLM agent，用 agent 长程交互范式替代专家模型，并给出难度调度的理论刻画。
实验充分度: ⭐⭐⭐⭐⭐ IMO 50 + 2025 全覆盖对比，长程与 CBRL 两套消融详尽，含逐题对照和 case study。
写作质量: ⭐⭐⭐⭐ 方法与动机讲得清晰，公式与图配合到位；部分附录细节（点放置优化、数据合成）压在 Appendix 略简。
价值: ⭐⭐⭐⭐⭐ 以 0.004% 数据反超 SOTA 专家模型，为"agent + 课程 RL"攻克弱启发式任务提供了可复用范式。