GeoCodeBench: Benchmarking PhD-Level Coding in 3D Geometric Computer Vision¶

会议: CVPR 2026
arXiv: 2603.30038
代码: https://geocodebench.github.io/
领域: LLM效率 / 代码生成评测
关键词: 3D视觉代码生成, LLM评测, 几何算法实现, PhD级benchmark, 单元测试

一句话总结¶

首个面向3D几何计算机视觉的PhD级代码生成基准GeoCodeBench，包含100个从2025年顶会论文+代码库中精选的函数补全任务，配套自动化多样化单元测试，最强模型GPT-5仅36.6%通过率，揭示LLM在科学级3D代码实现上的巨大差距。

领域现状：AI辅助编程已重塑软件实践和研究工作流，但现有模型在复杂3D几何视觉代码上仍然挣扎。如果模型能可靠地编写这类代码，3D视觉研究将发生根本变革（自动原型设计、加速研究周期、民主化算法开发）。

现有痛点：(1) 现有代码基准（HumanEval/MBPP/SWE-bench）不覆盖3D几何实现——它们面向通用软件工程或竞赛编程；(2) 科学3D视觉代码需要数学精确的几何算子、物理建模和多视图推理——远超通用能力；(3) 论文-to-code的长上下文科学理解仍是未解问题。

核心矛盾：LLM已能生成通用代码，但无法可靠实现3D几何视觉的核心函数——这个差距有多大？瓶颈在哪里？

切入角度：模拟实际研究场景——给模型论文文本+函数骨架，要求填充实现，用单元测试自动评判。

核心idea：(1) 从2025年顶会论文官方仓库提取核心函数；(2) 自动工具提名+人工筛选确保质量；(3) 多样化边界测试覆盖几何退化配置；(4) 两级能力分类体系评估。

论文PDF(OCR→结构化JSON) + 代码仓库(自动候选提取→人工筛选→函数掩码) + 单元测试(自动生成→人工审核) → LLM接收(论文+掩码代码+执行模板)→填充实现 → 沙盒执行+测试 → PassRate评分。

基准构建流程:
- 论文处理：用MinerU OCR自动提取文本/公式/图表→按章节组织为JSON
- 代码处理：Cursor自动推荐候选函数(10-20个/仓库)→3D视觉研究者人工审核→保留3-5个核心几何函数→函数体替换为****EMPTY****占位符
- 单元测试：Cursor自动生成10个测试用例(多参数配置)→人工审核保证可靠性。同时提供标准化执行模板(导入/输入输出定义)
- 设计动机：自动提名效率高但会选中trivial/辅助函数→人工筛选确保每个任务都是"论文核心的3D几何组件"
两级能力分类体系:
- General 3D Capability（基础几何知识）：
  - 几何变换(Geometric Transformations, 24%)：坐标转换、投影、法向量、旋转参数化
  - 力学/光学公式化(Mechanics/Optics Formulation, 31%)：球谐函数、BRDF、运动方程、辐射度量
- Research Capability（研究级推理）：
  - 新算法实现(Novel Algorithm Implementation, 34%)：论文核心新idea的函数级实现
  - 几何逻辑路由(Geometric Logic Routing, 11%)：组合现有算子构建新pipeline——许多有影响力的论文就是这样构造的
- 设计动机：分离基础能力和研究能力，诊断模型的短板所在
评估指标:
- PassRate = \(\frac{1}{N}\sum_{i=1}^{N}\frac{p_i}{T_i}\)，\(p_i\) 是通过的测试数，\(T_i\) 是总测试数
- 上下文消融：Method-only vs 全文输入

覆盖3DGS、位姿估计、SLAM、重建、基于物理的建模、NeRF、3D分割等子领域，所有论文来自2025年CVPR/ICCV/ICLR，最大化减少数据泄露风险。

模型	公司	Overall	General	Research	Geo.Trans.	Algorithm
GPT-5	OpenAI	36.6%	42.8%	29.1%	41.7%	29.1%
Claude-Sonnet-4.5	Anthropic	31.1%	37.2%	23.7%	38.3%	19.7%
Gemini-2.5-Pro	Google	30.4%	33.8%	26.2%	41.9%	25.3%
Kimi-K2-Instruct	Moonshot	30.4%	34.6%	25.1%	36.7%	23.1%
Doubao-Seed-1.6	ByteDance	26.9%	29.7%	23.4%	40.9%	22.9%
Qwen3-Coder-480B	Alibaba	23.5%	22.7%	24.6%	29.0%	21.8%
DeepSeek-R1	DeepSeek	21.0%	-	-	-	-