HoneyBee: Data Recipes for Vision-Language Reasoners¶

会议: CVPR 2026
arXiv: 2510.12225
代码: 数据集
领域: 多模态VLM / 数据工程
关键词: VLM推理, CoT数据策划, 数据缩放, 视觉推理, 测试时缩放

一句话总结¶

系统性地研究了 VL 推理训练数据的设计空间——数据来源选择、干预策略筛选、图像/问题/CoT 三维度缩放——基于洞察构建了 250 万样本的 HoneyBee 数据集，3B VLM 在 MathVerse 上超越 SOTA 7.8pp，并提出共享 Caption 解码的测试时缩放策略节省 73% token。

研究背景与动机¶

领域现状：VLM 在推理任务上越来越依赖高质量 CoT 训练数据，社区已涌现多个 VL 推理数据集（Math-LLaVA、LLaVA-CoT、R1-OneVision 等）。

现有痛点：

对"什么样的 VL 推理数据是好数据"缺乏系统性理解——各工作用不同来源、过滤策略和生成模型，无法公平比较各因素的独立贡献
VL 推理数据的缩放行为（该缩放图片数、问题数还是 CoT 数？）从未被系统探索
许多看似合理的数据增强策略实际效果未经严格验证

核心矛盾：社区在盲目拼凑和扩大数据集，但不清楚每个设计决策对最终推理性能的真正贡献。

本文目标 系统性地理解并优化 VL 推理 CoT 数据集的构建过程，给出可复现的"数据配方"。

切入角度：三阶段控制变量实验——上下文策划（选数据源）→ 数据干预（增强/过滤）→ 大规模缩放（图像/问题/CoT 三维度）。

核心 idea：通过严格控制变量的实验，揭示"数据来源选择 >> 数据增强策略"、"大部分看似合理的干预反而有害"、"三维度缩放未饱和"三大发现，并据此构建最优数据集。

方法详解¶

整体框架¶

三阶段数据策划流水线：上下文策划（固定 CoT 生成器对比 6 个数据源排名）→ 数据干预（测试 8 种感知/推理增强策略）→ 大规模缩放（沿图像/问题/CoT 三轴扩展）。最终整合为 HoneyBee 数据集（250 万样本 = 150 万 VL + 104 万纯文本推理），用于 SFT 训练 PLM 系列 VLM。

关键设计¶

上下文来源排名
- 功能：在统一实验框架下公平对比不同数据源对 VL 推理性能的影响
- 核心思路：固定 CoT 生成器（Llama-4-Scout）和训练流程，每个数据源限制 50K 样本。对比 6 个来源：ViRL、Math-LLaVA、R1-OneVision、Cauldron、PixMo、MMK12
- 关键发现：来源间性能差距高达 11.4pp（ViRL 最优 vs MMK12 最差）；混合数据源不如单一最优源——Top-2/Top-4 混合反而性能下降
- 设计动机：数据来源选择的影响远大于任何后续干预策略
数据干预策略筛选
- 功能：严格测试 8 种感知/推理增强策略，找出真正有效的干预
- 核心思路：测试视觉扰动、文字丰富图像、感知冗余过滤、浅层感知过滤、Caption-and-Solve（感知增强）和纯文本推理混入、干扰项增加、长度/难度过滤（推理增强）
- 关键发现：大部分干预反而降低性能（视觉扰动 -1.6pp、文字丰富图像 -1.3pp、感知冗余过滤 -3.6pp、难度均衡 -5.5pp）。仅两个策略稳定有效：(a) Caption-and-Solve（训练时先生成图像描述再解题，+3.3pp）；(b) 混入纯文本推理数据（+7.5pp）
- 设计动机：不要想当然地做数据增强——需要严格 A/B 测试
三维数据缩放
- 功能：分别研究缩放图像数量、每图问题数（合成新问题）、每题 CoT 数量的效果
- 核心思路：对 39K 真实图片，生成 16 个 CoT/题、14 个合成新问题/图，经 majority voting 过滤后获得 150 万 VL 样本 + 104 万纯文本推理
- 关键发现：三个维度同时缩放都能持续提升性能，且在 250 万规模仍未饱和

损失函数 / 训练策略¶

标准 SFT：最大化 log p(C_j | I_j, Q_j)，全参数微调 PLM（含视觉编码器和 LLM 骨干）
训练 5 个 epoch 取最优 checkpoint
后续可接一轮 GRPO 强化学习进一步提升（+1.9pp）
Caption-and-Solve 训练格式：模型先输出图像描述 C，再输出解题过程 S

实验关键数据¶

主实验¶

模型	Average (5 tasks)	MathVerse	MathVista	MathVision	We-Math
Qwen2.5-VL-3B	42.6	35.0	58.9	23.7	49.2
PLM-HoneyBee-3B	46.2	42.8	61.2	29.9	59.3
提升	+8.4%	+22.3%	+3.9%	+26.2%	+20.5%

模型规模	Average	对比
PLM-HoneyBee-1B	超 InternVL-3-1B 28pp	极小模型也获益
PLM-HoneyBee-8B	49.8	超 Qwen2.5-VL-7B (48.5) +2.7%

消融实验¶

因素	发现	影响幅度
数据来源选择	ViRL 最优 vs MMK12 最差	11.4pp 差距
混合数据源	Top-2/Top-4 混合不如单一最优源	-0.5~-1.5pp
Caption-and-Solve	独立生成 (I->C, (I,Q)->S) 最好	+3.3pp
纯文本推理混入	OpenThoughts3 re-annotated	+7.5pp
视觉扰动	反而有害	-1.6pp
难度均衡	反而有害	-5.5pp
50K->250K->2.5M	持续提升未饱和	+4.8pp
共享 Caption 解码	64次采样共享一次 caption	token 数 -73%，性能不降

关键发现¶

数据来源选择影响远大于任何干预策略：来源差距 11.4pp vs 最佳干预 +7.5pp
大多数看似合理的数据增强策略反而有害：视觉扰动、文字丰富图像、感知冗余过滤等均下降
Caption-and-Solve 的成功关键：将感知（图像描述）和推理（解题）解耦为两个独立生成过程
数据缩放三维度均未饱和：继续投入资源扩大数据集仍有收益
3B/8B 模型实验高度相关：为小模型做数据选择的结论可推广到大模型
共享 Caption 解码节省 73% token 且性能不降

亮点与洞察¶

非常扎实的数据工程研究，控制变量做得极好，类似 OpenThoughts 但聚焦多模态
"大部分看似合理的数据增强其实无效"对社区有很强的警示价值
共享 Caption 解码非常实用：训练时先描述图片再解题，推理时复用描述供多次采样
250 万规模仍未饱和的发现指明了继续投入的方向

局限与展望¶

仅关注数学推理类任务，对 VQA、图像理解等通用 VL 任务的数据策划规律未探索
仅使用单一教师模型（Llama-4-Scout），不同教师模型是否有不同最优配方未知
单图场景，多图推理和视频推理的数据策划未涉及
数据来源排名可能依赖评估基准——换一组 evaluation 排名可能不同

评分¶

新颖性: ⭐⭐⭐⭐ 方法论本身不新（数据工程+scaling），但系统性实验设计和反直觉发现有很高价值
实验充分度: ⭐⭐⭐⭐⭐ 极其充分，多模型、多数据集、多策略全面对比，控制变量严格
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表精良，实验设置透明，是数据工程论文的范本
价值: ⭐⭐⭐⭐⭐ 对 VL 推理数据研究有很强指导意义，数据集开源且规模大