VisuRiddles: Fine-Grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fGRwRnDVMX
代码: https://github.com/yh-hust/VisuRiddles (有)
领域: 多模态VLM / LLM推理
关键词: 抽象视觉推理, 细粒度感知, 视觉谜题基准, 数据合成, 强化学习

一句话总结¶

本文用一个真实谜题基准（VisuRiddles）和一个带结构化感知描述的合成器，系统证明了多模态大模型（MLLM）在抽象视觉推理（AVR）上栽跟头的根因不是推理能力弱，而是细粒度感知缺失；据此提出"先 SFT 补感知、再 GRPO 强推理"的两阶段训练范式 PAVR，让一个 7B 模型在 AVR 上反超 GPT-5、Gemini-2.5-Pro 等商用大模型。

研究背景与动机¶

领域现状：近两年 MLLM 在通用视觉理解、数学推理等任务上突飞猛进，主流提升路线是堆参数、加 CoT 提示、做 inference-time scaling（"think"模式）。这些手段在很多基准上确实有效。

现有痛点：可一旦切到抽象视觉推理（AVR）——也就是人类做的那种"看一组抽象图形找规律、选下一个"的智力题——再强的模型也集体翻车。即便是 Gemini-2.5-Pro，准确率也常常接近随机猜测，和人类约 62% 的水平差一大截。诡异的是，这些题对人来说并不难。

核心矛盾：作者把 AVR 的困难拆成两块——细粒度感知与逻辑推理。学界这两年几乎把全部精力压在"增强推理"上，却严重忽视了"感知抽象图形中位置、样式、属性等细微视觉结构"的能力。文中一个关键观察一锤定音：当把抽象图形人工改写成结构化的感知描述（如"3×3 网格、每格 8 个三角区、第 2/3/6/8 个填黑"）再喂给模型，原本做错的题立刻就能做对。这说明卡住模型的不是"想不明白规律"，而是"根本没看清图"。

本文目标：(1) 造一个能客观评估 AVR 能力、且不依赖外部知识的基准；(2) 解决现有数据集只有问答对、缺中间感知标注的问题，让感知能力可被显式监督；(3) 设计一套同时补齐感知与推理的训练方案。

切入角度：既然感知是被忽视的短板，那就先把感知能力训上去，再在此基础上优化推理——"先看清，再想对"。

核心 idea：用合成器自动生成"抽象图形 + 对齐的结构化感知描述 + CoT 解题链"，靠 SFT 把细粒度感知灌进模型，再用 GRPO 强化学习稳定感知策略选择并提升推理，得到 Perception-Augmented Visual Reasoner（PAVR）。

方法详解¶

整体框架¶

整篇工作由两大件组成：一个名为 VisuRiddles 的资源（评测用的 Benchmark + 训练用的 Synthesizer），和一个建立在该资源之上的两阶段训练范式 PAVR。Benchmark 负责"客观地把模型的 AVR 短板量出来"，Synthesizer 负责"批量造出带感知标注的训练题"，PAVR 则把合成数据先后用于 SFT 与 RL，最终在 Benchmark 上接受检验。

整体数据流是单向串行的：真实谜题经清洗整合成 Benchmark；Synthesizer 按"规则池 + 图标库 + 布局模板"渲染出抽象图形并同步吐出结构化感知描述，再经 API 标注挂上 CoT 解题链；这批合成数据先做 SFT 把感知能力灌进基座模型（得到 PAVR-SFT），再用 GRPO 强化学习把感知锚定与推理一起优化（得到 PAVR）。SFT 与 RL 是互补的——SFT 让模型"看清"，RL 让模型"想稳"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实谜题<br/>1275 题"] -->|清洗·整合| B["VisuRiddles Benchmark<br/>1000 题·5 基础+2 高阶"]
    C["规则池 + 图标库<br/>+ 布局模板"] --> D["VisuRiddles Synthesizer"]
    D -->|渲染图形 + 对齐描述| E["合成数据<br/>结构化感知描述 + CoT"]
    E --> F["PAVR 第一阶段 SFT<br/>补细粒度感知"]
    F --> G["PAVR 第二阶段 GRPO<br/>稳感知策略·强推理"]
    G -->|在基准上评测| B

关键设计¶

1. VisuRiddles Benchmark：把"纯视觉逻辑"从知识里剥离出来评测

现有逻辑推理基准（RAVEN、MARVEL、VisuLogic 等）有个通病：要么部分依赖外部知识，让模型靠"背的知识"蒙混过关，难以分离出真实的视觉推理能力；要么任务多样性和结构复杂度不足。VisuRiddles 直接取材自真实智力谜题，从 1275 道带专家解析的题里清洗、整合出 1000 道，覆盖五个基础感知维度——数量（Numerosity）、属性（Attribute）、样式（Style）、位置（Position）、空间（Spatiality），外加两类高阶推理任务：需要类比抽象推理的 RAVEN（8 选 1）和需要一致性逻辑推理的数独（开放符号输出，解空间巨大），再补一个含平面图形组合、字符语义模式的 Other 子集。基础题 800 道做成单选，四个选项分布刻意拉平（A/B/C/D 各约 25%）避免位置先验；高阶题 200 道要求模型输出精确符号解才算对，杜绝瞎猜。这套从基础感知到高阶推理的统一标尺，让"模型到底差在哪一环"第一次能被量化定位。

2. VisuRiddles Synthesizer：给抽象图形配上"对齐的感知描述"以监督感知

要训感知，就得有"图形 → 感知描述"的监督信号，可现有数据集只给问答对，既无法显式建模"感知到推理"的过程，又导致黑盒推理、归纳能力弱、泛化差；而让商用模型去标注感知过程效果很差，人工标注又太贵。Synthesizer 用一条统一流水线绕开这个困境，分两阶段：Riddles Construction 先从规则池选一条规则（如位置类的旋转、样式类的 OR/XNOR）及其子规则，再选图标、背景、布局模板并设定规则参数（规则数量、各规则作用范围），渲染出抽象图形——关键是渲染时"规则即已知"，所以能天然吐出与图形严格对齐的结构化感知描述（每个子图哪行哪列是什么元素、哪些区域被填充）；API Labeling 阶段再基于这些感知描述调用大模型生成 CoT 解题链，并用预测答案与 ground truth 比对做质量过滤。最终产出 7 类（5 感知 + 2 高阶）共带感知描述与 CoT 的训练样本。作者特意把合成题的推理难度压得比真实谜题低——因为它的使命是补感知而非练推理，难度过高反而干扰感知学习。

3. PAVR 两阶段训练：先 SFT 补感知，再 GRPO 强推理

有了带感知描述和 CoT 的合成数据，PAVR 以 Qwen2.5-VL-7B 为基座分两步走。第一阶段 SFT：用 2 万条合成 AVR 样本训 20 个 epoch，让模型学会从抽象图形里捕捉细粒度视觉线索（"看清"），为后续推理打地基。但纯 SFT 仍有两个顽疾：感知策略选择不稳（比如该看对称轴还是该看直角结构，模型拿不准）、难题上推理能力不足。第二阶段 RL：用 GRPO（Group Relative Policy Optimization）继续优化，奖励设计很朴素——答案奖励（对得 1、错得 0）加格式奖励（鼓励输出严格匹配 <think>...</think><answer>...</answer> 模板），GRPO 数据同样由 Synthesizer 生成（4K 样本、40 epoch、rollout=5、KL 系数 0.01）。两阶段互补的本质是：SFT 把"感知"从短板补成地基，GRPO 再在感知锚定之上把"感知策略 + 推理"一起拧稳。一个有意思的副产物是 PAVR 表现出"rethink"现象——即便偶尔感知出错，模型会自我复查、纠正并把推理轨迹拉回正确方向。

损失函数 / 训练策略¶

SFT 阶段：20K 合成样本、20 epoch、AdamW、batch size 16、学习率 \(5\times10^{-7}\)。GRPO 阶段：4K 样本、40 epoch、学习率 \(1\times10^{-6}\)、rollout 数 5、KL Loss 系数 0.01、CLIP Ratio 1.0。奖励 \(R = R_{\text{answer}} + R_{\text{format}}\)，其中答案奖励为 0/1、格式奖励约束 think/answer 模板。全程 8×A800 80G。

实验关键数据¶

主实验¶

VisuRiddles 上，7B 的 PAVR 全面碾压一众更大的开源与商用模型（上标数字表示选项数，Sudo 为开放解空间）：

模型	参数	Num	Styl	Attr	Posit	Spat	Sudo	Rav	Other	Avg
Human	-	61.3	60.9	67.5	67.9	58.8	-	-	61.9	-
Qwen2.5VL-72B	72B	23.6	23.1	19.6	30.2	26.9	0.0	62.0	23.9	25.9
Gemini2.5-pro	-	31.6	31.6	48.5	26.1	30.1	39.0	30.0	44.9	33.9
GPT-5	-	30.8	30.8	38.1	32.4	30.8	2.0	29.0	31.9	28.7
Qwen3-VL-235B-Thinking	235B	31.2	29.9	44.3	33.3	30.1	33.0	49.0	39.1	34.9
Baseline (Qwen2.5VL-7B)	7B	24.4	28.2	23.7	22.5	25.0	0.0	48.0	24.6	24.6
PAVR-SFT	7B	31.2	31.6	44.3	31.5	45.5	43.0	61.0	39.1	39.5
PAVR	7B	39.6	39.3	50.5	39.6	51.9	46.0	65.0	55.1	46.8

PAVR 平均 46.8%，比基座 7B（24.6%）几乎翻倍，也大幅超过 Gemini2.5-Pro（33.9）、Qwen3-VL-235B-Thinking（34.9）和 GPT-5（28.7）。值得注意的是：堆参数（72B 不如 PAVR）、加 CoT 提示、开"thinking"模式都无法有效解决 AVR，证明问题根子不在推理算力。

消融实验¶

瓶颈归因（感知 vs 推理，Tab.3）：把同一批题分别以"原始抽象图（V）"和"结构化感知描述（P）"两种输入喂给冻结的大模型，看准确率变化。

模型	Num	Styl	Attr	Posit	Spat	Sudo	Rav	Avg
GPT-4o (V)	35.0	32.0	38.0	36.0	32.0	0.0	20.0	27.6
GPT-4o (P)	62.0	53.0	80.0	68.0	100.0	15.0	25.0	60.1 (+32.5)
Qwen2.5VL (V)	41.0	43.0	50.0	32.0	40.0	0.0	10.0	30.9
Qwen2.5VL (P)	73.0	83.0	80.0	79.0	100.0	65.0	35.0	73.6 (+42.7)

只换输入形式、不动模型权重，平均分就暴涨 32~43 个点——这是"感知才是瓶颈"最有力的直接证据。数独尤为典型：从近乎 0% 跳到 15%/65%，因为数独图小数字密、缺语义线索，模型根本"看不清"，而人靠快速视觉扫描就能轻松解析。

训练组件消融（Tab.4）：

配置	Avg	说明
Baseline (Qwen2.5-VL)	24.6	基座
Baseline + Caption	33.3 (+8.7)	仅感知描述 SFT，泛化弱
Baseline + GRPO	29.4 (+4.8)	仅强化推理，提升有限
Baseline + CoT (PAVR-SFT)	39.5 (+14.9)	感知描述 + CoT 标注
Baseline + CoT + GRPO (PAVR)	46.8 (+22.2)	完整模型

关键发现¶

感知是地基，推理增强只是锦上添花：脱离感知单上 GRPO 只涨 4.8 点，而补上感知（+CoT SFT）就涨 14.9 点，再叠 GRPO 才到 +22.2——顺序不能反。
纯感知描述 SFT 泛化弱：只用 Caption 监督涨 8.7 点但泛化差，加上 MLLM 生成的 CoT 标注后才同时获得细粒度感知与部分推理能力。
scaling 与 CoT 对 AVR 基本无效：更大模型不一定更强，CoT 只在个别任务上小幅有用，说明 inference-time scaling 补不上感知缺口。
PAVR 会"rethink"自纠：感知偶尔出错时模型能复查纠正，把推理轨迹拉回正轨，而 QVQ-72B 的"think"模式常陷入冗长却自相矛盾的死循环。

亮点与洞察¶

用"换输入不换权重"的对照实验做归因，干净利落地把"感知瓶颈"从"推理瓶颈"里分离出来——这是全文最让人"啊哈"的设计，比任何性能数字都更有说服力。
合成器让感知监督信号"免费"产生：因为是按规则先生成再渲染，感知描述天然与图形对齐，绕开了"商用模型标不准、人工标太贵"的死结，这个"先有答案再造题"的思路可迁移到任何需要中间过程标注的合成数据任务。
刻意调低合成题的推理难度是个反直觉但正确的取舍：训练目标决定数据难度——补感知就别让推理难度来干扰，分工明确。
7B 反超 GPT-5/Gemini-2.5-Pro 强烈提示：在 AVR 这类任务上，对症补短板比盲目堆规模性价比高得多。

局限与展望¶

作者承认：受时间与人力限制，数据合成所用的规则设计、图标库规模有限，制约了合成数据的多样性与丰富度；未来计划扩大资源池、提升复杂度。
自己发现的局限：合成题推理难度被刻意压低，模型在真实高阶题（RAVEN/数独）上虽领先但绝对分仍不高（46~65%），离人类水平尚有差距；GRPO 奖励只用答案 + 格式两项，未对感知过程本身给奖励，感知策略稳定性可能仍有提升空间。
改进思路：可考虑给中间感知描述也设过程奖励（process reward），或引入更难、更长尾的真实规则扩充合成器，把"看清"的边界继续往复杂结构推。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "换输入不换权重"的瓶颈归因实验干净有力，把被忽视的感知短板坐实
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 20+ 开源/商用模型，含瓶颈归因、训练组件、VisuLogic 跨基准验证
写作质量: ⭐⭐⭐⭐ 论证链条清晰，benchmark/synthesizer/PAVR 三件套层层递进
价值: ⭐⭐⭐⭐⭐ 既给社区一个干净的 AVR 评测标尺，也给出"先感知后推理"的可复用训练范式