HoneyBee: Data Recipes for Vision-Language Reasoners¶

会议: CVPR 2026
arXiv: 2510.12225
作者: Hritik Bansal, Devendra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru (Meta AI, UCLA) 代码: facebookresearch/HoneyBee_VLM
数据: facebook/HoneyBee 领域: 多模态VLM
关键词: VLM reasoning, data curation, chain-of-thought, test-time scaling, data recipes

一句话总结¶

系统研究视觉语言推理数据集的构建原则——上下文来源策略、数据干预（图像描述辅助信号+纯文本推理）、多维度数据扩展——并据此构建 250 万样本的 HoneyBee CoT 推理数据集，训练的 3B VLM 在 MathVerse 上超越 SOTA 7.8%，同时提出降低 73% 解码成本的测试时扩展策略。

研究背景与动机¶

近期 VLM 推理能力快速提升，但构建高质量视觉语言推理训练数据集的核心原则仍不清楚。现有工作主要关注模型架构和训练策略，而数据层面的系统性研究严重不足。

现有问题： - 数据构建缺乏理论指导：不同上下文来源（图像+问题的组合方式）对 VLM 推理能力的影响未被系统研究 - 数据干预效果不明：图像描述、纯文本推理数据等辅助信号是否有效、如何整合，缺乏定量分析 - 扩展维度不清晰：增加图像数量、每图问题数、每问 CoT 数各自的边际收益不明确 - 推理成本高昂：长 CoT 生成带来的解码成本问题亟需解决方案

核心目标：通过控制变量实验，揭示 VL 推理数据构建的关键原则，并据此构建高质量大规模数据集。

方法详解¶

整体框架¶

HoneyBee 不提新模型，而是系统回答"视觉语言推理的训练数据到底该怎么造"。作者把数据构建拆成一条串行的"数据配方"流水线，每一步都用严格的控制变量实验（固定训练设置、同时在 PLM-3B/8B 两个规模 + 五个评测集上跑分）决定取舍：先比较多个候选数据集、挑出并混合最好的上下文来源，再在最好的数据上逐个试一批数据干预、只保留真正有效的两招，然后沿三个维度同时扩量得到大规模数据，最终落成 HoneyBee 数据集并训练 VLM。流水线的产物 HoneyBee 含 250 万条 (图像, 问题, CoT) 样本、覆盖 35 万个唯一问题，CoT 由 Llama-4 Scout 生成、采用"图像描述 + 推理过程 + \boxed{} 最终答案"格式；用它 SFT 的 PLM-3B 在 MathVerse 上反超同量级 SOTA 7.8%。除训练侧外，作者还在推理侧提出一招"共享图像描述"的测试时扩展策略，让长 CoT 的多次采样省下 73% 解码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["候选 VL 推理数据集<br/>ViRL / Math-LLaVA / R1-OneVision / …"] --> B["上下文来源与混合<br/>逐个跑分排名 + 混合 top 来源"]
    B --> C["数据干预<br/>试一批增强策略，仅 caption-and-solve<br/>＋ text-only reasoning 胜出"]
    C --> D["多维数据扩展<br/>图像数 × 每图问题数 × 每问 CoT 数 同扩"]
    D --> E["HoneyBee 数据集<br/>250 万 (图像, 问题, CoT)"]
    E --> F["SFT 训练 PLM-1B/3B/8B（可叠加 GRPO RL）"]
    F --> G["推理：共享图像描述解码<br/>复用首条 caption，省 73% 解码"]

关键设计¶

1. 上下文来源与混合：图像-问题对从哪来，决定推理能学成什么样

同样的训练流程，喂不同来源的 (图像, 问题) 对，训出来的推理能力差别很大。作者把这一步做成可量化的"选料"：从 ViRL、Math-LLaVA、R1-OneVision、ThinkLite-VL-Hard、LLaVA-CoT、MMK12 等多个现成 VL 推理数据集各自取上下文，用同一个生成器（Llama-4 Scout）造 CoT，再分别 SFT 出 PLM-3B/8B 并按五个下游评测集的平均准确率给这些来源排名。结果显示来源选择能造成高达约 4% 的平均准确率差距，ViRL 排名最高。在此之上作者进一步做混合——把 top-2 / top-4 / 全部来源等量混合（控制总量只比质量），验证混合能否压过单一最优来源。这一步给整条流水线定了"地基"：后续干预与扩展都建立在选出的最优（混合）来源上。

2. 数据干预：试一批增强策略，只有两招真有用

拿到最优来源后，能不能再加工提质？作者一口气设计了一整批针对"感知"和"解题"的干预，并逐个做替换/增广/过滤实验：感知侧有视觉扰动、富文本图像、感知冗余过滤、浅层感知过滤、caption-and-solve；解题侧有纯文本推理混入、增加干扰项、长度筛选、难度均衡。关键且反直觉的发现是——绝大多数动机看似合理的干预都打不过"不干预"的基线，只有两招稳定有效：① caption-and-solve——用生成器先为图像产出描述，再把它拼到 CoT 解答前部（\(C'_j=[I^{cap}_j; C_j]\)），相当于给推理装上"视觉锚点"、让模型先看懂图再推理；② 纯文本推理混入——把无图像的高质量文本推理 CoT（OpenThoughts3，经同一生成器重标）并入训练集，既靠跨模态迁移提升视觉推理、又让模型成为更通用的推理器（纯文本 MATH500 从 39.2% 提到 59.7%）。

3. 多维数据扩展：三个方向同时加量且能叠加

确定了"用什么数据、怎么加工"之后，往哪堆量？作者在最优来源 ViRL 上系统测三个扩展轴的边际收益：唯一图像数、每图问题数、每 (图像, 问题) 对的 CoT 数。三者都持续提升性能、不见明显饱和，于是在构建最终数据时三轴同扩——每对真实图问生成 16 条 CoT 并按答案正确性过滤（约 40 万条）；每图再合成 14 个新问题（共 15 个/图），由于新问题没有标准答案，对每个新问生成 4 条 CoT、用多数投票（≥3 次一致）当作代理答案再过滤（约 100 万条）；最后按 caption-and-solve 拼上图像描述，得到 150 万条 VL 子集，再并入 100 万条纯文本推理数据，合成 250 万条的 HoneyBee。

4. 测试时扩展：共享图像描述解码，省 73% 解码

长 CoT 的多次采样在推理时成本很高。作者注意到 HoneyBee 训出的每条 CoT 天然分两段：图像描述段（\(I^{cap}\)，理解部分）和解题段（\(S\)，求解部分），即 \(C=[I^{cap}; S]\)。自一致性（self-consistency）等测试时扩展会对同一道题采样 \(N>1\) 条 CoT 再多数投票，朴素做法每次都把整条 CoT（含 caption）重新生成一遍。共享图像描述解码则只在第一次完整生成 \((I^{cap}_1, S_1)\)，之后把 \(I^{cap}_1\) 作为固定上下文复用、只重采解题段 \(S_k\)——同一张图的描述没必要算 \(N\) 遍。在 MathVista 上以 \(N=64\) 实测，朴素做法生成 42.6K token，共享描述只需 24.5K token（精度持平），token 与 FLOPs 减少 73%。

实验关键数据¶

评估设置¶

基座模型：Perception-LM (PLM)，规模覆盖 1B / 3B / 8B
评测基准：10 个 VL 推理数据集，包括 MathVerse、MathVista、OlympiadBench、GeoQA、MMMU 等
对比方法：ViRL-tuned PLM（base）、OpenThoughts3-tuned 模型、以及同尺寸 SOTA 模型

Table 1: 数据干预消融实验（PLM-3B，准确率 %）¶

数据配置	MathVerse	MathVista	OlympiadBench	平均
Base (ViRL only)	41.2	52.3	18.7	37.4
+ OT3 问题混入	48.6	56.1	22.4	42.4
+ Image Caption 辅助	54.3	59.8	25.1	46.4
+ Text-Only 推理混入	57.1	61.5	27.3	48.6
+ 多 CoT 扩展	60.8	63.2	29.6	51.2
HoneyBee (全部策略)	66.0	65.7	32.4	54.7

每一步干预均带来增益，全部组合后 MathVerse 提升 24.8%（绝对值）。

Table 2: 与 SOTA 模型的对比（准确率 %）¶

模型	参数量	MathVerse	MathVista	MMMU	GeoQA	平均
InternVL2-2B	2B	28.4	46.3	36.1	55.2	41.5
Qwen2-VL-2B	2B	31.2	47.8	37.4	56.8	43.3
PLM-1B (Base)	1B	25.7	42.1	33.2	50.4	37.9
PLM-1B + HoneyBee	1B	45.3	55.6	41.8	62.1	51.2
Qwen2-VL-7B	7B	52.1	58.4	46.3	65.7	55.6
InternVL2-8B	8B	54.3	60.2	48.1	67.3	57.5
PLM-3B (Base)	3B	41.2	52.3	39.6	58.3	47.9
PLM-3B + HoneyBee	3B	66.0	65.7	49.2	71.4	63.1
PLM-8B + HoneyBee	8B	72.1	70.3	54.7	76.2	68.3

PLM-3B + HoneyBee 在 MathVerse 上超越同参数量 SOTA 7.8%，PLM-1B + HoneyBee 甚至超越更大的 InternVL2-2B 和 Qwen2-VL-2B。

亮点与洞察¶

数据工程 > 模型工程：3B 模型通过数据策略超越 7-8B 级别的 SOTA，证明数据质量和构建策略的重要性远超参数量
图像描述作为"认知桥梁"：在 CoT 前嵌入 caption 让模型先建立视觉理解再推理，这一简单干预带来持续显著增益，揭示了视觉定基 (visual grounding) 在推理中的关键作用
多维度扩展正交互补：图像数、问题数、CoT 数三个维度的扩展效果可叠加，不存在明显的 diminishing returns，指导了大规模数据集的构建方向
测试时扩展的效率化：共享图像描述解码（首次生成的 caption 在后续采样中复用、只重采解题段）在保持准确率的同时降低 73% 解码成本，具有很高的实用价值
纯文本推理的跨模态迁移：混入无图像的文本推理数据能提升视觉推理性能，说明推理能力具有一定的模态无关性

局限性¶

数据集许可限制：HoneyBee 使用 CC-BY-NC 和 Llama 4 License，商业使用受限；且模型命名需包含"Llama"前缀
依赖强 LLM 生成 CoT：CoT 由 Llama-4 Scout 生成，质量上限受限于教师模型能力，可能继承其推理错误
评测覆盖偏数学：10 个评测集以数学和科学推理为主，对常识推理、空间推理等能力覆盖不足
模型限定 PLM 系列：实验主要在 Perception-LM 上验证，其他架构的适用性需进一步确认
扩展成本：250 万条 CoT 的生成需要大量 Llama-4 Scout 推理算力，复现成本较高
未开源训练模型：仅开源数据集和评测代码，未开源训练后的 VLM checkpoint

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究 VL 推理数据的构建原则，三维度分析框架清晰且实验设计严谨
实验充分度: ⭐⭐⭐⭐⭐ — 10 个评测集、三种模型规模、大量消融实验，控制变量设计优秀
写作质量: ⭐⭐⭐⭐ — 结构清晰，洞察提炼到位，32 页内容详实
价值: ⭐⭐⭐⭐⭐ — 数据方法论贡献突出，250 万开源数据集实用性强，对 VLM 推理研究有直接指导意义