Zebra-CoT: A Dataset for Interleaved Vision-Language Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=c6XIVI3TiQ
代码: https://github.com/multimodal-reasoning-lab/Bagel-Zebra-CoT
领域: 多模态VLM
关键词: 视觉思维链、交错文本图像推理、多模态数据集、视觉CoT、VLM推理

一句话总结¶

构建了首个大规模多样化交错文本-图像推理数据集 ZEBRA-COT（182K 条推理轨迹，覆盖 18 个领域），通过脚手架实验证明视觉 CoT 对前沿模型有高达 +43% 的提升潜力，并通过微调让 Anole-7B 和 Bagel-7B 获得内生视觉推理能力。

研究背景与动机¶

领域现状：人类在解决几何、物理等复杂问题时，天然会借助画图、手绘草图等视觉辅助手段。视觉思维链（Visual Chain of Thought，Visual CoT）旨在让多模态模型同样在推理过程中生成和利用视觉中间步骤，而非仅输出纯文本推理链。近期前沿 VLM（GPT-5、Gemini、Claude）已能处理多模态输入，但推理轨迹仍几乎全是文字。

现有痛点：现有方法有两条路：一是"视觉编程"，让模型调用外部 Python 工具来生成草图；二是"内生视觉推理"，让模型直接在思考过程中输出视觉 token。前者依赖外部工具链，难以端到端训练；后者由于缺乏高质量训练数据，始终只停留在合成迷宫等单一任务的专用小模型阶段。现有交错数据集（OmniCorpus、MINT-1T）是大规模网页爬取的图文语料，图文语义对齐弱、没有推理结构，无法用于训练视觉推理能力；仅有的开源交错推理数据集 Visual-CoT 也只覆盖"视觉搜索"单一任务。

核心矛盾：想让模型学会内生视觉推理，就需要"逻辑连贯、文图高度对齐、任务多样"的交错推理训练数据——而这恰恰是现有数据集最欠缺的。没有数据，强化学习路径也走不通：off-the-shelf visual CoT 质量太差，无法提供可靠的 RL 初始化。

核心 idea：精心策划一个兼顾真实场景采集与合成生成的数据管道，以 Gemini-2.5 Pro 作为"推理链生成与质检"引擎，将科学推理、2D/3D 视觉推理、视觉逻辑游戏等多领域原始素材统一转化为结构化的文本-图像交错推理轨迹，形成首个通用视觉 CoT 训练数据集。

方法详解¶

整体框架¶

ZEBRA-COT 是一个数据集构建与验证项目，核心产出是 182,384 条结构化交错推理轨迹，统一格式为：

\[\text{<question>} \to \text{<text}_1\text{>} \to \text{<image}_1\text{>} \to \text{<text}_2\text{>} \to \text{<image}_2\text{>} \to \cdots \to \text{<answer>}\]

每条轨迹中，文字步骤阐述推理逻辑，视觉步骤生成辅助图像（如几何辅助线、棋盘状态、机器人动作帧），二者交替呈现、高度互补。整个项目围绕三个支柱展开：多源数据构建流水线、视觉 CoT 价值的脚手架验证、以及在两个模型上的微调实验。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始素材<br/>（真实题库 + 程序合成）"] --> B["多源采集与清洗<br/>4大类 18子域 50+任务"]
    B --> C["Gemini-2.5 Pro 推理链生成与校验<br/>确保文图逻辑连贯"]
    C --> D["ZEBRA-COT<br/>182K 交错文本-图像推理轨迹"]
    D --> E1["脚手架实验<br/>验证视觉CoT价值"]
    D --> E2["Anole-7B 微调<br/>分布内 +12.7%、外部基准 +4.9%"]
    D --> E3["Bagel-7B 微调<br/>内生视觉推理能力激活"]

关键设计¶

1. 四大类多域构建策略：真实采集与合成生成并举

数据覆盖四大类任务，每类采用针对性的构建策略。科学推理（几何、物理、化学、图算法、竞程）：从开放授权教材和数据集中提取原始题目，用 Gemini-2.5 Pro 解析成结构化视觉 CoT；竞赛编程题则构建了基于 GPT-4.1 的 agent，产出带可视化步骤的完整解题轨迹。2D 视觉推理（视觉搜索、拼图）：改编 Visual-CoT 数据集，引入"画框"和"区域缩放"两种视觉辅助形式；拼图任务从 ImageNet 裁图生成，视觉 CoT 以逐块填补或整体复原的方式呈现。3D 视觉推理（具身规划、机器人规划、多跳物体计数）：将 ALFRED 和 RoboMIND 基准重新格式化为图像目标条件规划任务，模型需根据初始状态和目标状态图像生成高层动作计划；多跳计数基于 CLEVR 风格设计，场景历经多步增删物体，要求模型逐步视觉化每次变换。视觉逻辑与策略游戏（国际象棋、跳棋、四子棋、迷宫、Tetris、ARC-AGI）：将棋局搜索和反事实推演过程渲染为图像序列，使模型学会在视觉空间直接进行长程规划，而非把棋盘符号化成文字后丢失空间结构。

这种"真实+合成"混合策略的核心价值在于：真实题目保证任务难度和分布真实性，合成数据（程序渲染+Gemini 填充）保证覆盖度和视觉 CoT 逻辑链的完整性。Gemini-2.5 Pro 同时承担降噪、格式化、逻辑连贯性校验三重角色，是保证最终数据质量的核心引擎。

2. 脚手架实验：量化视觉 CoT 的独立贡献

为了证明视觉 CoT 的真实价值（而非只是"数据更多"带来的提升），论文设计了一个精巧的脚手架实验：对前沿模型（GPT-5、Claude Sonnet 4、Gemini 2.5 Pro）以三种模式提问——仅问题（Q）、问题+第一轮文图推理步（1MT）、问题+前两轮文图推理步（2MT）。即使给出前两步作为上下文，模型仍需自主完成余下大量推理（部分题目多达 20 张中间图），因此提供的是"引导"而非"答案泄露"。

论文还进行了关键消融：去掉推理链中的视觉步骤仅保留文本，发现文本 CoT 的提升远小于完整视觉 CoT，部分任务甚至出现性能下降——因为这些任务的文字链中大量引用了视觉中间步骤，去掉图像后文字链在逻辑上变得不完整，模型反而被误导。这直接说明性能增益主要来自视觉推理本身，而非文字 CoT。

3. Bagel-7B 内生视觉推理激活

在 Anole-7B（原生支持交错生成）之外，论文还在 Bagel-7B（更强的图像理解基座但原生不支持交错输出）上做了更有挑战性的验证。原始 Bagel 实现不支持交错文本-图像输出，论文对训练循环做了改造：在 <|vision start|> token 处引入额外 loss 项，使模型学会在推理时自主切换到图像生成模式。推理时，每当遇到 <im end> 就采样下一个 token——若预测为 <|vision start|> 则无缝进入图像生成流程，整个交错生成过程持续至 <answer> token 才结束。

在 8×H200 上仅训练 1000 步，Bagel-Zebra-CoT 就能在分布外任务上自发生成有意义的视觉辅助步骤，表明 ZEBRA-COT 能有效激活模型的内生视觉推理能力——这正是后续 RL 微调所需要的高质量初始化。

训练策略¶

Anole-7B 在 8×H200 上全参数微调 10k 步，学习率 \(1\times10^{-5}\)，余弦衰减，batch size 8，最大序列长度 12288 token，推理时生成长度上限 16384。Bagel-7B 则仅训练 1000 步，学习率 \(2\times10^{-5}\)，采用打包序列（每个 packed 序列约 60000 token），图像最小边压缩至 512 像素（约 1024+ 视觉 token/张）。两个模型均以 <think>...</think> 包裹推理文本、<answer>...</answer> 包裹最终答案。

实验关键数据¶

数据集规模：182,384 条交错推理轨迹，4 大类、18 子域、50+ 任务类型；其中迷宫占 11.0%、视觉拼图占 12.0%、具身 CoT 占 12.4%为最大子域。

前沿模型脚手架实验（Q → 1MT → 2MT 均值）： - GPT-5：41.98% → 52.06% → 65.10%（+23.12%） - Claude Sonnet 4：27.61% → 42.82% → 51.89%（+24.28%） - Gemini 2.5 Pro：24.93% → 42.47% → 52.31%（+27.38%） - 三模型均值：31.51% → 47.99%（+16.48%）→ 56.70%（+25.19%） - 迷宫任务最大提升：平均 52.59% → 96.36%（+43.77%）

Anole-7B 微调： - 分布内测试集：4.2% → 16.9%（+12.7%，相对提升 4×） - 7 个外部视觉推理基准均值：+4.9%，其中 VisuLogic 8.50% → 21.80%（+13.3%）

与现有数据集的核心差距：Visual-CoT 是唯一覆盖交错推理的开源数据集，但仅限视觉搜索单一任务；LLaVA-CoT、MAmmoTH-VL、R1-OneVision 等均为纯文字推理链，无法用于视觉 CoT 训练。ZEBRA-COT 首次在广度（18 子域）、深度（每条链多达 20 张中间图）、质量（Gemini-2.5 Pro 校验逻辑连贯性）三个维度上同时做到最强。

文本 CoT 消融：在视觉 CoT 推理链中去掉所有图像仅保留文字，性能提升显著低于完整视觉 CoT，部分任务甚至下降，直接证明图像步骤是增益的主要来源而非文字链的副产品。

局限与展望¶

数据集构建依赖 Gemini-2.5 Pro 作为推理链生成器，质量上限受单一专有模型制约，且部分合成数据（图算法、竞赛编程）的视觉推理链正确性难以自动验证。论文承认 Bagel-Zebra-CoT 目前尚未进行 RL 微调，只提供了强初始化；真正发挥视觉 CoT 在强化学习中的潜力还需后续工作。此外，182K 样本相较文本推理数据集仍属中等规模，探索 scaling 规律是自然的下一步方向。作者展望的最直接后续研究是：基于 Bagel-Zebra-CoT 的强初始化，用带可验证奖励的 RL（类似 RLVR）进一步提升视觉推理的一致性和正确率，让 AI 像人类草图推理一样自然地"边想边画"。

数据集	推理链模态	是否适合视觉CoT训练
LLaVA-CoT	纯文本	否
MAmmoTH-VL	纯文本	否
R1-OneVision	纯文本	否
Visual-CoT	图像+文本	有限（仅视觉搜索）
OmniCorpus	无推理结构	否（网页噪声预训练数据）
ZEBRA-COT	图像+文本	是（多样化交错视觉CoT）