Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation¶

会议: ICLR 2026
arXiv: 2510.03863
代码: 无
领域: 多模态VLM
关键词: CAPTCHA, 空间推理, 多模态大模型, 人机区分, 程序化生成

一句话总结¶

提出 Spatial CAPTCHA，一种基于 3D 空间推理的新型人类验证框架，利用人类与多模态大语言模型在几何推理、视角变换、遮挡处理和心理旋转等任务上的根本性能力差异来区分人与机器，最优 MLLM 仅达 31.0% Pass@1 准确率，远低于人类表现。

研究背景与动机¶

CAPTCHA（Completely Automated Public Turing test to tell Computers and Humans Apart）是在线服务防御自动化攻击的第一道防线。然而，随着多模态大语言模型（MLLMs）的快速发展，传统 CAPTCHA 设计的有效性正被严重侵蚀：

文本识别型 CAPTCHA 已不安全：现代 OCR 模型和 MLLM 轻易破解扭曲文字验证码

2D 图像理解型 CAPTCHA 也面临威胁：如 Google reCAPTCHA 中的"选择所有交通灯"等任务，MLLM 已能高准确率完成

底层原因：传统 CAPTCHA 依赖的是低级感知任务（low-level perception tasks），而当前 AI 系统恰好在这些任务上已接近或超越人类

本文的核心洞察是：空间推理是目前 AI 系统相对于人类仍存在巨大差距的认知能力。几何推理、视角理解、遮挡判断和心理旋转等任务对人类来说直觉而自然，但对当前最先进的 AI 系统仍然极其困难。这一差距为设计新一代安全的 CAPTCHA 提供了天然基础。

方法详解¶

整体框架¶

Spatial CAPTCHA 要回答的问题是：当 MLLM 已经能破解文字和 2D 图像验证码时，还能用什么任务把人和机器分开？它的答案是把整条验证流程建在空间推理之上，并让这条流程完全由程序自动驱动。整套系统是"理论先行"的：先把人类空间认知拆成几类基础能力，每类能力锚定一个数学上良定义的不变量（invariant）；再把每类任务写成一份机器可校验的任务清单（manifest），声明该题目族怎么采样、怎么生成、怎么判分；最后由一条三阶段合成管线把清单批量实例化成一道道验证码——采样参数 → 程序化生成场景与干扰项并校验 → 渲染出题并组装。难度由一个单调函数连续调控，生成的题再经人工抽检兜底。产出物就是基准 Spatial-CAPTCHA-Bench，评测指标为 Pass@1（一次答对即通过），直接对应真实验证码「答对一次即放行」的判定。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    INV["认知不变量库<br/>4类空间能力 / 7种任务"] --> MAN["任务清单 manifest M<br/>绑定不变量↔可渲染题目族"]
    MAN --> S1["阶段1·元数据采样<br/>按难度分层先验抽参数 θ"]
    D["难度图 d(θ)=wᵀφ(θ)<br/>用人类反应时拟合"] -. 调档 .-> S1
    S1 --> S2A["阶段2·场景构造 G(θ)<br/>刚体运动摆放物体 → S"]
    S2A --> S2B["干扰项合成 Φ<br/>受控扰动造近似错误候选"]
    S2B --> VAL["校验 V<br/>唯一性 / 可读性 / 空间必要性"]
    VAL --> S3["阶段3·渲染 R + 出题 T<br/>Blender/VTK → prompt+候选 → 组装"]
    S3 --> HIL["人在回路校验<br/>抽检可解性与体验"]
    HIL --> OUT["Spatial-CAPTCHA-Bench<br/>Pass@1 评测 / 线上验证码"]

关键设计¶

1. 理论先行：把空间认知能力锚定到数学不变量

传统验证码的题目靠人手工设计，"难度"和"是否真考空间能力"全凭经验，攻击者一旦摸清套路就能绕过。Spatial CAPTCHA 反过来从认知科学出发：人类空间认知被拆成四类基础能力——空间感知与参照系、空间定向与视角变换、心理旋转、多步空间可视化（再细分成 7 种具体任务，如展开图、太阳方位、旋转体、金字塔、Polyomino 等）。每类能力都被形式化成一个数学上良定义的不变量 \(I\)（拓扑关系、旋转等价、欧氏运动复合等）：一道题由参数采样 \(x = G(\theta),\ \theta \sim P_\theta\) 生成，其问句 \(f(x)\) 显式针对这个不变量。于是"答对"就等价于"识别出那个空间不变量"，而表面纹理或词汇线索都满足不了它——从机制上保证了空间必要性（spatial necessity）。这正是论文敢断言"破解=真正具备空间推理"的根基。

2. 任务清单与 ground-truth 认证：让每道题机器自动判分且无歧义

要把"无限生成 + 自动判分"做成闭环，每类任务被写成一份任务清单（task manifest，一个可被机器校验的 JSON 规范）\(M = \langle \text{id}, I, (\theta, P_\theta), T, G, \Phi, V, R\rangle\)，把不变量 \(I\) 绑定到一族可渲染题目上，并显式声明采样先验、出题函数 \(T\)、场景函数 \(G\)、干扰项机制 \(\Phi\)、校验器 \(V\)、渲染器 \(R\)。关键在认证规则给出三条保证：可靠性（答案 \(y\) 由场景 \(S\) 算出、与渲染无关）、唯一性（在间隔约束下候选集里恰好一个正确）、空间必要性（干扰项只在被禁止的空间关系上与正确答案不同）。正因为答案能从生成参数直接算出精确真值，系统无需任何人工标注即可自动判分，从根上消除了标注成本与噪声。

3. 三阶段实例合成管线：把一份清单变成一道可上线的验证码

清单只声明"能生成什么"，真正把它变成题目的是一条三阶段管线。阶段一·元数据采样：按难度分层先验从清单抽出输入参数 \(\theta\)（物体数量、布局、基础几何）。阶段二·程序化生成：场景函数 \(G(\theta)\) 用刚体运动把物体摆成候选世界模型 \(S\)；干扰项机制 \(\Phi\) 在 \(S\) 上做受控扰动，造出"视角错了 / 旋转不匹配 / 投影不一致"这类近似错误候选；校验器 \(V\) 再把相交、间隔不足、不唯一、可读性差的退化样例全部拒掉，只放行 \(V(S)=1\) 的场景。阶段三·任务生成：渲染器 \(R\)（可调 Blender 做高保真 3D 或 VTK 做轻量可视化）把场景画成图、套进出题模板 \(T\) 生成自然语言 prompt 与候选集，最后组装成一个既能直接上线、又能入库评测的验证码实例。渲染对答案是"惰性"的——只改外观、不改由几何算出的标准答案。

4. 约束化难度控制与人在回路：难倒机器，又不误伤真人

好验证码不能只难倒机器，还要让真人轻松过。难度被做成清单层面可解释的旋钮，并用一个单调难度图 \(d(\theta) = w^\top \varphi(\theta)\) 把这些旋钮映射成连续难度，其中权重 \(w\) 用试点采集的人类反应时通过保序/分位数回归拟合，再用分层先验把题目分到 easy/medium/hard 三档。难度只由 \(d(\theta)\) 决定，而不靠堆物体或加杂乱纹理——这样人类的可解性不受影响。最后还有一道人在回路校验：自动生成的题再交给人工抽检，剔除偶发的歧义题、打磨体验，给全自动管线兜底。

数据集与评测¶

Spatial-CAPTCHA-Bench 是该框架产出的首个基准：覆盖 \(K=4\) 类空间能力、每类分 \(D=3\) 个难度档、共 \(T=7\) 种任务形式，合计 \(N=1050\) 道题（含一个 70 题的 Tiny 子集供人类评测）。评测指标为 Pass@1（一次答对即通过），直接对应真实验证码"答对一次即放行"的判定。

实验关键数据¶

主实验¶

在 Spatial-CAPTCHA-Bench 上评测 10 个 SOTA MLLM 与人类，指标为 Pass@1（%）。

模型	Pass@1 (%)	备注
人类（Simple）	89.5	与其他验证码一致地稳定在 90 上下
o4-mini	31.0	最佳模型，排名第 1
gemini-2.5-pro	29.0	排名第 2
chatgpt-4o-latest	26.1
qwen2.5-vl-72b-instruct	24.0	最强开源模型
gemini-2.5-flash	21.6
claude-sonnet-4	21.4
claude-opus-4	7.1	最弱
随机基线	21.4	多选题随机猜测

最佳模型 31.0% 仅略高于随机基线 21.4%，远低于人类 89.5%——人机鸿沟一目了然。

与 Google reCAPTCHA 的对比：同一批模型在 reCAPTCHA 上得分明显更高，凸显空间推理任务的独特难度（数值为 Pass@1 %）。

模型	Spatial-CAPTCHA	reCAPTCHA
gemini-2.5-pro	29.0	55.3
chatgpt-4o-latest	26.1	52.7
o4-mini	31.0	36.7

分能力消融¶

按四类空间能力拆分 Pass@1（以最佳模型 o4-mini 为例）：

空间能力	o4-mini Pass@1 (%)	人类 (%)
空间感知 / 参照系 (SP)	60.0	96.7
空间定向 / 视角变换 (SO)	35.7	95.6
心理旋转 (MOR)	31.6	89.6
多步空间可视化 (SV)	25.3	83.3

越是需要在脑中模拟变换的能力（心理旋转、多步可视化），模型越薄弱、与人类差距越大；纯空间感知（SP）相对最好但仍落后人类 30+ 个百分点。

关键发现¶

空间推理是当前 AI 的阿喀琉斯之踵：即使最强的 o4-mini，Pass@1 也只有 31.0%，仅略高于随机基线、远低于人类 89.5%
越抽象越弱：心理旋转（31.6%）和多步空间可视化（25.3%）是最大短板，这两类都要求在内部模拟 3D 空间变换
难度可被人机区分性印证：同样的模型在 reCAPTCHA 上能拿 50%+，在 Spatial-CAPTCHA 上骤降到 30% 上下，说明掉分确实来自空间推理而非泛化能力不足
程序化生成保证安全性：每次验证内容都全新，从根本上防止了基于题库泄露或模板匹配的攻击
CAPTCHA 可兼作 AI 诊断工具：该基准不仅是安全机制，也可作为衡量 MLLM 空间推理能力的诊断性基准

亮点与洞察¶

问题选择巧妙：在 MLLM 全面崛起的背景下，选择空间推理这一 AI 的弱点作为新一代 CAPTCHA 的基础，兼具学术新颖性和实际安全价值
程序化生成管线的可扩展性：无限生成新场景的能力使系统具有理论上的不可攻破性（除非 AI 真正掌握空间推理）
跨领域贡献：同时服务于 AI 安全（CAPTCHA）和 AI 评测（空间推理基准）两个领域
难度可控设计：连续可调的难度参数使系统能在安全性和用户体验之间灵活权衡
与 reCAPTCHA 的对比实验具有很强的说服力，直观展示了传统方案的不足

局限与展望¶

时效性风险：随着 MLLM 空间推理能力的快速提升（如 GPT-5 等新模型），Spatial CAPTCHA 的有效性可能在未来被侵蚀，需要持续更新难度
用户体验挑战：空间推理任务（尤其是心理旋转）对部分人群（如空间感知能力较弱的用户）可能不友好，可能影响通过率
可访问性问题：视觉障碍用户无法完成视觉空间推理任务，需要提供替代验证方式
3D 渲染质量：程序化生成的 3D 场景在视觉质量上可能不如真实图像自然，这可能被攻击者利用（通过检测渲染风格来缩小搜索空间）
评测模型范围：仅测试了 10 个 MLLM，更多模型（特别是专门针对空间推理优化的模型）的评测会增强结论的稳健性
对抗性攻击未充分讨论：针对程序化生成管线的特定攻击方式（如逆向工程渲染参数）值得分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 将空间推理的人机差异转化为 CAPTCHA 的想法新颖且有深度
实验充分度: ⭐⭐⭐⭐ — 10 个 MLLM + 人类对比 + reCAPTCHA 对比，覆盖面广
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，系统设计叙述完整
价值: ⭐⭐⭐⭐⭐ — 兼具学术价值（AI 空间推理评测）和实际价值（新一代 CAPTCHA 设计）