VisuRiddles: Fine-Grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fGRwRnDVMX
代码: https://github.com/yh-hust/VisuRiddles (有)
领域: 多模态VLM / LLM推理
关键词: 抽象视觉推理, 细粒度感知, 视觉谜题基准, 数据合成, 强化学习
一句话总结¶
本文用一个真实谜题基准(VisuRiddles)和一个带结构化感知描述的合成器,系统证明了多模态大模型(MLLM)在抽象视觉推理(AVR)上栽跟头的根因不是推理能力弱,而是细粒度感知缺失;据此提出"先 SFT 补感知、再 GRPO 强推理"的两阶段训练范式 PAVR,让一个 7B 模型在 AVR 上反超 GPT-5、Gemini-2.5-Pro 等商用大模型。
研究背景与动机¶
领域现状:近两年 MLLM 在通用视觉理解、数学推理等任务上突飞猛进,主流提升路线是堆参数、加 CoT 提示、做 inference-time scaling("think"模式)。这些手段在很多基准上确实有效。
现有痛点:可一旦切到抽象视觉推理(AVR)——也就是人类做的那种"看一组抽象图形找规律、选下一个"的智力题——再强的模型也集体翻车。即便是 Gemini-2.5-Pro,准确率也常常接近随机猜测,和人类约 62% 的水平差一大截。诡异的是,这些题对人来说并不难。
核心矛盾:作者把 AVR 的困难拆成两块——细粒度感知与逻辑推理。学界这两年几乎把全部精力压在"增强推理"上,却严重忽视了"感知抽象图形中位置、样式、属性等细微视觉结构"的能力。文中一个关键观察一锤定音:当把抽象图形人工改写成结构化的感知描述(如"3×3 网格、每格 8 个三角区、第 2/3/6/8 个填黑")再喂给模型,原本做错的题立刻就能做对。这说明卡住模型的不是"想不明白规律",而是"根本没看清图"。
本文目标:(1) 造一个能客观评估 AVR 能力、且不依赖外部知识的基准;(2) 解决现有数据集只有问答对、缺中间感知标注的问题,让感知能力可被显式监督;(3) 设计一套同时补齐感知与推理的训练方案。
切入角度:既然感知是被忽视的短板,那就先把感知能力训上去,再在此基础上优化推理——"先看清,再想对"。
核心 idea:用合成器自动生成"抽象图形 + 对齐的结构化感知描述 + CoT 解题链",靠 SFT 把细粒度感知灌进模型,再用 GRPO 强化学习稳定感知策略选择并提升推理,得到 Perception-Augmented Visual Reasoner(PAVR)。
方法详解¶
整体框架¶
整篇工作由两大件组成:一个名为 VisuRiddles 的资源(评测用的 Benchmark + 训练用的 Synthesizer),和一个建立在该资源之上的两阶段训练范式 PAVR。Benchmark 负责"客观地把模型的 AVR 短板量出来",Synthesizer 负责"批量造出带感知标注的训练题",PAVR 则把合成数据先后用于 SFT 与 RL,最终在 Benchmark 上接受检验。
整体数据流是单向串行的:真实谜题经清洗整合成 Benchmark;Synthesizer 按"规则池 + 图标库 + 布局模板"渲染出抽象图形并同步吐出结构化感知描述,再经 API 标注挂上 CoT 解题链;这批合成数据先做 SFT 把感知能力灌进基座模型(得到 PAVR-SFT),再用 GRPO 强化学习把感知锚定与推理一起优化(得到 PAVR)。SFT 与 RL 是互补的——SFT 让模型"看清",RL 让模型"想稳"。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["真实谜题<br/>1275 题"] -->|清洗·整合| B["VisuRiddles Benchmark<br/>1000 题·5 基础+2 高阶"]
C["规则池 + 图标库<br/>+ 布局模板"] --> D["VisuRiddles Synthesizer"]
D -->|渲染图形 + 对齐描述| E["合成数据<br/>结构化感知描述 + CoT"]
E --> F["PAVR 第一阶段 SFT<br/>补细粒度感知"]
F --> G["PAVR 第二阶段 GRPO<br/>稳感知策略·强推理"]
G -->|在基准上评测| B
关键设计¶
1. VisuRiddles Benchmark:把"纯视觉逻辑"从知识里剥离出来评测
现有逻辑推理基准(RAVEN、MARVEL、VisuLogic 等)有个通病:要么部分依赖外部知识,让模型靠"背的知识"蒙混过关,难以分离出真实的视觉推理能力;要么任务多样性和结构复杂度不足。VisuRiddles 直接取材自真实智力谜题,从 1275 道带专家解析的题里清洗、整合出 1000 道,覆盖五个基础感知维度——数量(Numerosity)、属性(Attribute)、样式(Style)、位置(Position)、空间(Spatiality),外加两类高阶推理任务:需要类比抽象推理的 RAVEN(8 选 1)和需要一致性逻辑推理的数独(开放符号输出,解空间巨大),再补一个含平面图形组合、字符语义模式的 Other 子集。基础题 800 道做成单选,四个选项分布刻意拉平(A/B/C/D 各约 25%)避免位置先验;高阶题 200 道要求模型输出精确符号解才算对,杜绝瞎猜。这套从基础感知到高阶推理的统一标尺,让"模型到底差在哪一环"第一次能被量化定位。
2. VisuRiddles Synthesizer:给抽象图形配上"对齐的感知描述"以监督感知
要训感知,就得有"图形 → 感知描述"的监督信号,可现有数据集只给问答对,既无法显式建模"感知到推理"的过程,又导致黑盒推理、归纳能力弱、泛化差;而让商用模型去标注感知过程效果很差,人工标注又太贵。Synthesizer 用一条统一流水线绕开这个困境,分两阶段:Riddles Construction 先从规则池选一条规则(如位置类的旋转、样式类的 OR/XNOR)及其子规则,再选图标、背景、布局模板并设定规则参数(规则数量、各规则作用范围),渲染出抽象图形——关键是渲染时"规则即已知",所以能天然吐出与图形严格对齐的结构化感知描述(每个子图哪行哪列是什么元素、哪些区域被填充);API Labeling 阶段再基于这些感知描述调用大模型生成 CoT 解题链,并用预测答案与 ground truth 比对做质量过滤。最终产出 7 类(5 感知 + 2 高阶)共带感知描述与 CoT 的训练样本。作者特意把合成题的推理难度压得比真实谜题低——因为它的使命是补感知而非练推理,难度过高反而干扰感知学习。
3. PAVR 两阶段训练:先 SFT 补感知,再 GRPO 强推理
有了带感知描述和 CoT 的合成数据,PAVR 以 Qwen2.5-VL-7B 为基座分两步走。第一阶段 SFT:用 2 万条合成 AVR 样本训 20 个 epoch,让模型学会从抽象图形里捕捉细粒度视觉线索("看清"),为后续推理打地基。但纯 SFT 仍有两个顽疾:感知策略选择不稳(比如该看对称轴还是该看直角结构,模型拿不准)、难题上推理能力不足。第二阶段 RL:用 GRPO(Group Relative Policy Optimization)继续优化,奖励设计很朴素——答案奖励(对得 1、错得 0)加格式奖励(鼓励输出严格匹配 <think>...</think><answer>...</answer> 模板),GRPO 数据同样由 Synthesizer 生成(4K 样本、40 epoch、rollout=5、KL 系数 0.01)。两阶段互补的本质是:SFT 把"感知"从短板补成地基,GRPO 再在感知锚定之上把"感知策略 + 推理"一起拧稳。一个有意思的副产物是 PAVR 表现出"rethink"现象——即便偶尔感知出错,模型会自我复查、纠正并把推理轨迹拉回正确方向。
损失函数 / 训练策略¶
SFT 阶段:20K 合成样本、20 epoch、AdamW、batch size 16、学习率 \(5\times10^{-7}\)。GRPO 阶段:4K 样本、40 epoch、学习率 \(1\times10^{-6}\)、rollout 数 5、KL Loss 系数 0.01、CLIP Ratio 1.0。奖励 \(R = R_{\text{answer}} + R_{\text{format}}\),其中答案奖励为 0/1、格式奖励约束 think/answer 模板。全程 8×A800 80G。
实验关键数据¶
主实验¶
VisuRiddles 上,7B 的 PAVR 全面碾压一众更大的开源与商用模型(上标数字表示选项数,Sudo 为开放解空间):
| 模型 | 参数 | Num | Styl | Attr | Posit | Spat | Sudo | Rav | Other | Avg |
|---|---|---|---|---|---|---|---|---|---|---|
| Human | - | 61.3 | 60.9 | 67.5 | 67.9 | 58.8 | - | - | 61.9 | - |
| Qwen2.5VL-72B | 72B | 23.6 | 23.1 | 19.6 | 30.2 | 26.9 | 0.0 | 62.0 | 23.9 | 25.9 |
| Gemini2.5-pro | - | 31.6 | 31.6 | 48.5 | 26.1 | 30.1 | 39.0 | 30.0 | 44.9 | 33.9 |
| GPT-5 | - | 30.8 | 30.8 | 38.1 | 32.4 | 30.8 | 2.0 | 29.0 | 31.9 | 28.7 |
| Qwen3-VL-235B-Thinking | 235B | 31.2 | 29.9 | 44.3 | 33.3 | 30.1 | 33.0 | 49.0 | 39.1 | 34.9 |
| Baseline (Qwen2.5VL-7B) | 7B | 24.4 | 28.2 | 23.7 | 22.5 | 25.0 | 0.0 | 48.0 | 24.6 | 24.6 |
| PAVR-SFT | 7B | 31.2 | 31.6 | 44.3 | 31.5 | 45.5 | 43.0 | 61.0 | 39.1 | 39.5 |
| PAVR | 7B | 39.6 | 39.3 | 50.5 | 39.6 | 51.9 | 46.0 | 65.0 | 55.1 | 46.8 |
PAVR 平均 46.8%,比基座 7B(24.6%)几乎翻倍,也大幅超过 Gemini2.5-Pro(33.9)、Qwen3-VL-235B-Thinking(34.9)和 GPT-5(28.7)。值得注意的是:堆参数(72B 不如 PAVR)、加 CoT 提示、开"thinking"模式都无法有效解决 AVR,证明问题根子不在推理算力。
消融实验¶
瓶颈归因(感知 vs 推理,Tab.3):把同一批题分别以"原始抽象图(V)"和"结构化感知描述(P)"两种输入喂给冻结的大模型,看准确率变化。
| 模型 | Num | Styl | Attr | Posit | Spat | Sudo | Rav | Avg |
|---|---|---|---|---|---|---|---|---|
| GPT-4o (V) | 35.0 | 32.0 | 38.0 | 36.0 | 32.0 | 0.0 | 20.0 | 27.6 |
| GPT-4o (P) | 62.0 | 53.0 | 80.0 | 68.0 | 100.0 | 15.0 | 25.0 | 60.1 (+32.5) |
| Qwen2.5VL (V) | 41.0 | 43.0 | 50.0 | 32.0 | 40.0 | 0.0 | 10.0 | 30.9 |
| Qwen2.5VL (P) | 73.0 | 83.0 | 80.0 | 79.0 | 100.0 | 65.0 | 35.0 | 73.6 (+42.7) |
只换输入形式、不动模型权重,平均分就暴涨 32~43 个点——这是"感知才是瓶颈"最有力的直接证据。数独尤为典型:从近乎 0% 跳到 15%/65%,因为数独图小数字密、缺语义线索,模型根本"看不清",而人靠快速视觉扫描就能轻松解析。
训练组件消融(Tab.4):
| 配置 | Avg | 说明 |
|---|---|---|
| Baseline (Qwen2.5-VL) | 24.6 | 基座 |
| Baseline + Caption | 33.3 (+8.7) | 仅感知描述 SFT,泛化弱 |
| Baseline + GRPO | 29.4 (+4.8) | 仅强化推理,提升有限 |
| Baseline + CoT (PAVR-SFT) | 39.5 (+14.9) | 感知描述 + CoT 标注 |
| Baseline + CoT + GRPO (PAVR) | 46.8 (+22.2) | 完整模型 |
关键发现¶
- 感知是地基,推理增强只是锦上添花:脱离感知单上 GRPO 只涨 4.8 点,而补上感知(+CoT SFT)就涨 14.9 点,再叠 GRPO 才到 +22.2——顺序不能反。
- 纯感知描述 SFT 泛化弱:只用 Caption 监督涨 8.7 点但泛化差,加上 MLLM 生成的 CoT 标注后才同时获得细粒度感知与部分推理能力。
- scaling 与 CoT 对 AVR 基本无效:更大模型不一定更强,CoT 只在个别任务上小幅有用,说明 inference-time scaling 补不上感知缺口。
- PAVR 会"rethink"自纠:感知偶尔出错时模型能复查纠正,把推理轨迹拉回正轨,而 QVQ-72B 的"think"模式常陷入冗长却自相矛盾的死循环。
亮点与洞察¶
- 用"换输入不换权重"的对照实验做归因,干净利落地把"感知瓶颈"从"推理瓶颈"里分离出来——这是全文最让人"啊哈"的设计,比任何性能数字都更有说服力。
- 合成器让感知监督信号"免费"产生:因为是按规则先生成再渲染,感知描述天然与图形对齐,绕开了"商用模型标不准、人工标太贵"的死结,这个"先有答案再造题"的思路可迁移到任何需要中间过程标注的合成数据任务。
- 刻意调低合成题的推理难度是个反直觉但正确的取舍:训练目标决定数据难度——补感知就别让推理难度来干扰,分工明确。
- 7B 反超 GPT-5/Gemini-2.5-Pro 强烈提示:在 AVR 这类任务上,对症补短板比盲目堆规模性价比高得多。
局限与展望¶
- 作者承认:受时间与人力限制,数据合成所用的规则设计、图标库规模有限,制约了合成数据的多样性与丰富度;未来计划扩大资源池、提升复杂度。
- 自己发现的局限:合成题推理难度被刻意压低,模型在真实高阶题(RAVEN/数独)上虽领先但绝对分仍不高(46~65%),离人类水平尚有差距;GRPO 奖励只用答案 + 格式两项,未对感知过程本身给奖励,感知策略稳定性可能仍有提升空间。
- 改进思路:可考虑给中间感知描述也设过程奖励(process reward),或引入更难、更长尾的真实规则扩充合成器,把"看清"的边界继续往复杂结构推。
相关工作与启发¶
- vs 逻辑推理基准(RAVEN / VisuLogic / MARVEL):它们多少依赖外部知识、推理覆盖面有限;VisuRiddles 取材真实谜题、统一覆盖基础感知到高阶推理,且高阶题要求精确符号输出杜绝瞎猜。
- vs inference-time scaling / CoT 类方法(LLaVA-CoT、R-CoT、QVQ "think"模式):这些只在"推理"侧加码,本文实验证明缺了感知锚定,加再多 think 也会陷入冗长自相矛盾的死循环;PAVR 反其道先补感知再强推理。
- vs 视觉 RL 方法(Visual-RFT、VLM-R1、MM-EUREKA):同样用 GRPO,但本文强调 RL 必须建立在"感知已被 SFT 补好"的地基上才有效,单独上 RL 收益甚微——这是对"RL 万能论"的一个清醒注脚。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "换输入不换权重"的瓶颈归因实验干净有力,把被忽视的感知短板坐实
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 20+ 开源/商用模型,含瓶颈归因、训练组件、VisuLogic 跨基准验证
- 写作质量: ⭐⭐⭐⭐ 论证链条清晰,benchmark/synthesizer/PAVR 三件套层层递进
- 价值: ⭐⭐⭐⭐⭐ 既给社区一个干净的 AVR 评测标尺,也给出"先感知后推理"的可复用训练范式