GeoCodeBench: Benchmarking PhD-Level Coding in 3D Geometric Computer Vision¶
会议: CVPR 2026
arXiv: 2603.30038
代码: https://geocodebench.github.io/
领域: LLM效率 / 代码生成评测
关键词: 3D视觉代码生成, LLM评测, 几何算法实现, PhD级benchmark, 单元测试
一句话总结¶
首个面向3D几何计算机视觉的PhD级代码生成基准GeoCodeBench,包含100个从2025年顶会论文+代码库中精选的函数补全任务,配套自动化多样化单元测试,最强模型GPT-5仅36.6%通过率,揭示LLM在科学级3D代码实现上的巨大差距。
研究背景与动机¶
领域现状:AI辅助编程已重塑软件实践和研究工作流,但现有模型在复杂3D几何视觉代码上仍然挣扎。如果模型能可靠地编写这类代码,3D视觉研究将发生根本变革(自动原型设计、加速研究周期、民主化算法开发)。
现有痛点:(1) 现有代码基准(HumanEval/MBPP/SWE-bench)不覆盖3D几何实现——它们面向通用软件工程或竞赛编程;(2) 科学3D视觉代码需要数学精确的几何算子、物理建模和多视图推理——远超通用能力;(3) 论文-to-code的长上下文科学理解仍是未解问题。
核心矛盾:LLM已能生成通用代码,但无法可靠实现3D几何视觉的核心函数——这个差距有多大?瓶颈在哪里?
切入角度:模拟实际研究场景——给模型论文文本+函数骨架,要求填充实现,用单元测试自动评判。
核心idea:(1) 从2025年顶会论文官方仓库提取核心函数;(2) 自动工具提名+人工筛选确保质量;(3) 多样化边界测试覆盖几何退化配置;(4) 两级能力分类体系评估。
方法详解¶
整体框架¶
论文PDF(OCR→结构化JSON) + 代码仓库(自动候选提取→人工筛选→函数掩码) + 单元测试(自动生成→人工审核) → LLM接收(论文+掩码代码+执行模板)→填充实现 → 沙盒执行+测试 → PassRate评分。
关键设计¶
-
基准构建流程:
- 论文处理:用MinerU OCR自动提取文本/公式/图表→按章节组织为JSON
- 代码处理:Cursor自动推荐候选函数(10-20个/仓库)→3D视觉研究者人工审核→保留3-5个核心几何函数→函数体替换为
****EMPTY****占位符 - 单元测试:Cursor自动生成10个测试用例(多参数配置)→人工审核保证可靠性。同时提供标准化执行模板(导入/输入输出定义)
- 设计动机:自动提名效率高但会选中trivial/辅助函数→人工筛选确保每个任务都是"论文核心的3D几何组件"
-
两级能力分类体系:
- General 3D Capability(基础几何知识):
- 几何变换(Geometric Transformations, 24%):坐标转换、投影、法向量、旋转参数化
- 力学/光学公式化(Mechanics/Optics Formulation, 31%):球谐函数、BRDF、运动方程、辐射度量
- Research Capability(研究级推理):
- 新算法实现(Novel Algorithm Implementation, 34%):论文核心新idea的函数级实现
- 几何逻辑路由(Geometric Logic Routing, 11%):组合现有算子构建新pipeline——许多有影响力的论文就是这样构造的
- 设计动机:分离基础能力和研究能力,诊断模型的短板所在
- General 3D Capability(基础几何知识):
-
评估指标:
- PassRate = \(\frac{1}{N}\sum_{i=1}^{N}\frac{p_i}{T_i}\),\(p_i\) 是通过的测试数,\(T_i\) 是总测试数
- 上下文消融:Method-only vs 全文输入
论文来源¶
覆盖3DGS、位姿估计、SLAM、重建、基于物理的建模、NeRF、3D分割等子领域,所有论文来自2025年CVPR/ICCV/ICLR,最大化减少数据泄露风险。
实验关键数据¶
主实验(8个代表性模型)¶
| 模型 | 公司 | Overall | General | Research | Geo.Trans. | Algorithm |
|---|---|---|---|---|---|---|
| GPT-5 | OpenAI | 36.6% | 42.8% | 29.1% | 41.7% | 29.1% |
| Claude-Sonnet-4.5 | Anthropic | 31.1% | 37.2% | 23.7% | 38.3% | 19.7% |
| Gemini-2.5-Pro | 30.4% | 33.8% | 26.2% | 41.9% | 25.3% | |
| Kimi-K2-Instruct | Moonshot | 30.4% | 34.6% | 25.1% | 36.7% | 23.1% |
| Doubao-Seed-1.6 | ByteDance | 26.9% | 29.7% | 23.4% | 40.9% | 22.9% |
| Qwen3-Coder-480B | Alibaba | 23.5% | 22.7% | 24.6% | 29.0% | 21.8% |
| DeepSeek-R1 | DeepSeek | 21.0% | - | - | - | - |
上下文消融¶
| 输入上下文 | PassRate | 说明 |
|---|---|---|
| 全文输入 | 基准 | 包含引言、相关工作等 |
| 截断到Method | 统计显著更优 | 无关上下文干扰推理 |
| 仅Abstract | 显著下降 | 技术细节不足 |
关键发现¶
- 最强模型仅36.6%:GPT-5在PhD级3D代码上距离可靠还有巨大差距
- Research任务更难但与General正相关:几何基础是研究级实现的必要非充分条件
- 截断到Method部分反而更好:说明LLM在长上下文科学论文理解上存在严重困难——更多文本=更多干扰而非更多有用信息
- 创造性正确性:某些成功案例中模型用完全不同但数学等价的方法通过测试——展示了超越复制的真正问题解决能力
- Geometric Logic Routing(11%任务)反映了许多经典3D视觉论文的构建方式——组合已有算子——这需要更高层的系统设计能力
亮点与洞察¶
- 首个3D视觉代码benchmark:填补了AI编码评测在科学3D领域的空白。社区驱动的可扩展设计使其能随新论文持续生长
- "更多上下文不是更好"的发现:对LLM的长上下文科学理解能力提出了尖锐质疑。Method截断优于全文→LLM可能被引言/相关工作中的噪声误导
- 论文-to-code的研究范式:GeoCodeBench的评测设置直接模拟"读论文→实现算法"的真实研究工作流,这是通向"自动3D视觉科学家"的第一步
- 单元测试的工程贡献:为每个函数提供多样化、覆盖边界情况的自动化测试,这些测试本身就是3D几何的宝贵教学材料
局限与展望¶
- 100个函数的规模仍然有限——需要持续扩展
- 限于2025年论文可能随时间需要更新来规避数据泄露
- 单元测试的覆盖率可能不完全——通过测试不一定意味着完全正确的实现
- 仅评估函数级补全——完整的论文复现(包括训练循环、数据管线)更有挑战性
相关工作与启发¶
- vs HumanEval/MBPP: 通用编程基准,不涉及领域知识。GeoCodeBench需要深层3D几何推理
- vs SWE-bench: 仓库级issue解决,GeoCodeBench是函数级论文-to-code
- vs PaperBench: 完整论文复现评测,GeoCodeBench聚焦函数级核心组件——两者互补
- vs ResearchCodeBench: 也遮盖论文关键代码,但不聚焦3D几何且测试不够多样化
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个3D视觉代码benchmark,两级能力分类体系有洞察力
- 实验充分度: ⭐⭐⭐⭐⭐ 8个模型、上下文消融、分类分析、创造性案例研究
- 写作质量: ⭐⭐⭐⭐⭐ 构建流程透明可复现
- 价值: ⭐⭐⭐⭐⭐ 对3D视觉自动化研究和LLM科学编码能力评估有长远推动