HoneyBee: Data Recipes for Vision-Language Reasoners¶
会议: CVPR 2026
arXiv: 2510.12225
代码: 数据集
领域: 多模态VLM / 数据工程
关键词: VLM推理, CoT数据策划, 数据缩放, 视觉推理, 测试时缩放
一句话总结¶
系统性地研究了 VL 推理训练数据的设计空间——数据来源选择、干预策略筛选、图像/问题/CoT 三维度缩放——基于洞察构建了 250 万样本的 HoneyBee 数据集,3B VLM 在 MathVerse 上超越 SOTA 7.8pp,并提出共享 Caption 解码的测试时缩放策略节省 73% token。
研究背景与动机¶
领域现状:VLM 在推理任务上越来越依赖高质量 CoT 训练数据,社区已涌现多个 VL 推理数据集(Math-LLaVA、LLaVA-CoT、R1-OneVision 等)。
现有痛点:
- 对"什么样的 VL 推理数据是好数据"缺乏系统性理解——各工作用不同来源、过滤策略和生成模型,无法公平比较各因素的独立贡献
- VL 推理数据的缩放行为(该缩放图片数、问题数还是 CoT 数?)从未被系统探索
- 许多看似合理的数据增强策略实际效果未经严格验证
核心矛盾:社区在盲目拼凑和扩大数据集,但不清楚每个设计决策对最终推理性能的真正贡献。
本文目标 系统性地理解并优化 VL 推理 CoT 数据集的构建过程,给出可复现的"数据配方"。
切入角度:三阶段控制变量实验——上下文策划(选数据源)→ 数据干预(增强/过滤)→ 大规模缩放(图像/问题/CoT 三维度)。
核心 idea:通过严格控制变量的实验,揭示"数据来源选择 >> 数据增强策略"、"大部分看似合理的干预反而有害"、"三维度缩放未饱和"三大发现,并据此构建最优数据集。
方法详解¶
整体框架¶
三阶段数据策划流水线:上下文策划(固定 CoT 生成器对比 6 个数据源排名)→ 数据干预(测试 8 种感知/推理增强策略)→ 大规模缩放(沿图像/问题/CoT 三轴扩展)。最终整合为 HoneyBee 数据集(250 万样本 = 150 万 VL + 104 万纯文本推理),用于 SFT 训练 PLM 系列 VLM。
关键设计¶
-
上下文来源排名
- 功能:在统一实验框架下公平对比不同数据源对 VL 推理性能的影响
- 核心思路:固定 CoT 生成器(Llama-4-Scout)和训练流程,每个数据源限制 50K 样本。对比 6 个来源:ViRL、Math-LLaVA、R1-OneVision、Cauldron、PixMo、MMK12
- 关键发现:来源间性能差距高达 11.4pp(ViRL 最优 vs MMK12 最差);混合数据源不如单一最优源——Top-2/Top-4 混合反而性能下降
- 设计动机:数据来源选择的影响远大于任何后续干预策略
-
数据干预策略筛选
- 功能:严格测试 8 种感知/推理增强策略,找出真正有效的干预
- 核心思路:测试视觉扰动、文字丰富图像、感知冗余过滤、浅层感知过滤、Caption-and-Solve(感知增强)和纯文本推理混入、干扰项增加、长度/难度过滤(推理增强)
- 关键发现:大部分干预反而降低性能(视觉扰动 -1.6pp、文字丰富图像 -1.3pp、感知冗余过滤 -3.6pp、难度均衡 -5.5pp)。仅两个策略稳定有效:(a) Caption-and-Solve(训练时先生成图像描述再解题,+3.3pp);(b) 混入纯文本推理数据(+7.5pp)
- 设计动机:不要想当然地做数据增强——需要严格 A/B 测试
-
三维数据缩放
- 功能:分别研究缩放图像数量、每图问题数(合成新问题)、每题 CoT 数量的效果
- 核心思路:对 39K 真实图片,生成 16 个 CoT/题、14 个合成新问题/图,经 majority voting 过滤后获得 150 万 VL 样本 + 104 万纯文本推理
- 关键发现:三个维度同时缩放都能持续提升性能,且在 250 万规模仍未饱和
损失函数 / 训练策略¶
- 标准 SFT:最大化 log p(C_j | I_j, Q_j),全参数微调 PLM(含视觉编码器和 LLM 骨干)
- 训练 5 个 epoch 取最优 checkpoint
- 后续可接一轮 GRPO 强化学习进一步提升(+1.9pp)
- Caption-and-Solve 训练格式:模型先输出图像描述 C,再输出解题过程 S
实验关键数据¶
主实验¶
| 模型 | Average (5 tasks) | MathVerse | MathVista | MathVision | We-Math |
|---|---|---|---|---|---|
| Qwen2.5-VL-3B | 42.6 | 35.0 | 58.9 | 23.7 | 49.2 |
| PLM-HoneyBee-3B | 46.2 | 42.8 | 61.2 | 29.9 | 59.3 |
| 提升 | +8.4% | +22.3% | +3.9% | +26.2% | +20.5% |
| 模型规模 | Average | 对比 |
|---|---|---|
| PLM-HoneyBee-1B | 超 InternVL-3-1B 28pp | 极小模型也获益 |
| PLM-HoneyBee-8B | 49.8 | 超 Qwen2.5-VL-7B (48.5) +2.7% |
消融实验¶
| 因素 | 发现 | 影响幅度 |
|---|---|---|
| 数据来源选择 | ViRL 最优 vs MMK12 最差 | 11.4pp 差距 |
| 混合数据源 | Top-2/Top-4 混合不如单一最优源 | -0.5~-1.5pp |
| Caption-and-Solve | 独立生成 (I->C, (I,Q)->S) 最好 | +3.3pp |
| 纯文本推理混入 | OpenThoughts3 re-annotated | +7.5pp |
| 视觉扰动 | 反而有害 | -1.6pp |
| 难度均衡 | 反而有害 | -5.5pp |
| 50K->250K->2.5M | 持续提升未饱和 | +4.8pp |
| 共享 Caption 解码 | 64次采样共享一次 caption | token 数 -73%,性能不降 |
关键发现¶
- 数据来源选择影响远大于任何干预策略:来源差距 11.4pp vs 最佳干预 +7.5pp
- 大多数看似合理的数据增强策略反而有害:视觉扰动、文字丰富图像、感知冗余过滤等均下降
- Caption-and-Solve 的成功关键:将感知(图像描述)和推理(解题)解耦为两个独立生成过程
- 数据缩放三维度均未饱和:继续投入资源扩大数据集仍有收益
- 3B/8B 模型实验高度相关:为小模型做数据选择的结论可推广到大模型
- 共享 Caption 解码节省 73% token 且性能不降
亮点与洞察¶
- 非常扎实的数据工程研究,控制变量做得极好,类似 OpenThoughts 但聚焦多模态
- "大部分看似合理的数据增强其实无效"对社区有很强的警示价值
- 共享 Caption 解码非常实用:训练时先描述图片再解题,推理时复用描述供多次采样
- 250 万规模仍未饱和的发现指明了继续投入的方向
局限与展望¶
- 仅关注数学推理类任务,对 VQA、图像理解等通用 VL 任务的数据策划规律未探索
- 仅使用单一教师模型(Llama-4-Scout),不同教师模型是否有不同最优配方未知
- 单图场景,多图推理和视频推理的数据策划未涉及
- 数据来源排名可能依赖评估基准——换一组 evaluation 排名可能不同
相关工作与启发¶
- vs OpenThoughts:OpenThoughts 系统研究了文本推理数据设计空间,HoneyBee 将同样理念扩展到多模态,加入图像维度缩放和感知增强策略
- vs LLaVA-CoT / R1-OneVision:各自提出了 VL 推理数据集但缺乏公平对比,HoneyBee 在统一框架下比较并发现 ViRL 最优
- vs Math-LLaVA / MAVIS:关注特定数学视觉场景数据构建,HoneyBee 更全面地覆盖多种来源和干预策略
- 启发:Caption-and-Solve "先描述再推理"的策略可能对 VL 导航、具身智能等其他领域同样有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 方法论本身不新(数据工程+scaling),但系统性实验设计和反直觉发现有很高价值
- 实验充分度: ⭐⭐⭐⭐⭐ 极其充分,多模型、多数据集、多策略全面对比,控制变量严格
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表精良,实验设置透明,是数据工程论文的范本
- 价值: ⭐⭐⭐⭐⭐ 对 VL 推理数据研究有很强指导意义,数据集开源且规模大