DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science¶
会议: ICLR 2026
arXiv: 2602.24288
代码: https://github.com/Snowflake-Labs/dare-bench
领域: LLM评测
关键词: data science benchmark, instruction following, ML modeling, RLVR, LLM agent
一句话总结¶
DARE-bench 是一个面向数据科学任务的大规模可验证基准,包含 6300 个 Kaggle 衍生任务,支持 ML 建模和指令遵循两类评估,提供训练集支持 SFT 和 RL——SFT 将 Qwen3-32B 提升 1.83×,RL 将 Qwen3-4B 提升 8× 以上。
研究背景与动机¶
领域现状:LLM 越来越多地被用作数据科学 agent(数据读取、转换、建模),但现有基准(DS-1000、DSBench、MLE-bench 等)存在重大缺陷:大多仅评估最终答案准确性,忽略过程保真度;缺乏可验证的 ground truth;任务规模小(几百个)且不提供训练数据。
现有痛点:(a) 缺乏标准化的过程感知评估——agent 是否真正遵循了指定的 DS 流程?(b) 准确标注的训练数据稀缺——限制了 SFT 和 RL 的应用;(c) 现有基准主要来自 Kaggle 竞赛,领域覆盖窄(缺少时间序列预测等重要任务)。
核心矛盾:评估过程保真度需要确定性的 ground truth,但 DS 任务天然包含随机性和环境依赖。如何让过程评估变得可验证?
本文目标 (a) 构建大规模、可验证、支持训练的 DS 基准;(b) 覆盖指令遵循和 ML 建模两类互补能力;(c) 支持 RLVR(强化学习 + 可验证奖励)训练。
切入角度:利用数据科学的高可复现性——通过控制随机种子和提供明确指令,忠实执行过程可以产生确定性结果,从而实现基于结果的过程保真度验证。
核心 idea:通过工程化确定性(固定种子+沙箱执行+参考解+可验证 ground truth),将 DS 过程评估转化为可自动验证的 outcome-based 评估。
方法详解¶
整体框架¶
DARE-bench 包含三大任务族(分类、回归、时间序列预测),每族两个变体。评估流程:给定自然语言问题 + 结构化文件 → LLM 在沙箱中执行代码生成预测 → 自动与 ground truth 对比评分。数据构造通过四阶段自动化流水线:数据源获取 → LLM 辅助任务设计 → 后处理 → 沙箱验证。
关键设计¶
-
双变体任务设计(IF + MM / XF + CF):
- 功能:每个数据集生成两种互补的评估任务
- IF(Instruction Following):要求 LLM 严格复现参考工作流(指定模型、超参数、预处理步骤),评估过程保真度。通过固定随机种子使忠实执行产生唯一确定的结果
- MM(ML Modeling):不限定方法,只评估最终预测性能,评估 ML 建模能力
- XF/CF(时间序列):XF 保留外生特征,CF 仅保留时间戳和实体列(经典预测设定)
- 设计动机:IF 模拟"严格执行数据科学家设计方案"的场景,MM 模拟"客户只关心最终效果"的场景。两者互补且均有实际需求
-
自动化数据构造流水线:
- 功能:从 Kaggle 数据集自动构造标准化 ML 任务
- 核心流程:(1) Dataset Sourcing——API + 爬虫获取 Kaggle 数据集 + 元数据;(2) LLM-Assisted Task Design——LLM 判断数据集是否可支持预测任务、识别目标列和特征;(3) Post-Process——数据分割、IF 任务加噪声注入、时间序列任务做重采样和实体检查;(4) Finalization——沙箱验证可解性
- 设计动机:突破人工标注瓶颈,LLM 仅处理辅助内容(描述、元数据、规则提取),不生成训练信号本身
-
可验证奖励设计:
- 功能:使 DARE-bench 支持 RLVR 训练
- 核心思路:IF 任务的 ground truth 来自固定种子下参考解的执行输出;MM 任务的 ground truth 来自原始数据集标签。两者均为确定性数值,可自动对比评分
- 设计动机:这是支持 RL 训练的关键——不需要人工评判或 LLM judge,纯 outcome-based 验证
损失函数 / 训练策略¶
- SFT:使用 DARE-bench 训练集对 Qwen3-32B/4B 进行微调
- RL:使用 GRPO 算法 + DARE-bench 可验证奖励,无需偏好数据
- 评估指标:分类用 accuracy/F1,回归用 R²/RMSE,时间序列用 SMAPE/MAE
实验关键数据¶
主实验¶
| 模型 | 基线总分 | SFT 总分 | RL 总分 | 提升 |
|---|---|---|---|---|
| gpt-o4-mini | ~45 | - | - | 最强闭源也挣扎于 ML 建模 |
| Qwen3-32B | 23.25 | ~42.5 (1.83×) | - | SFT 大幅提升 |
| Qwen3-4B | 4.39 | ~25 | 37.40 (8.5×) | RL 效果惊人 |
消融实验¶
| 任务类型 | 关键发现 |
|---|---|
| Classification-IF | LLM 不遵循种子/超参指令是主要失败原因 |
| Classification-MM | 开放建模下 LLM 仍然经常选择次优模型 |
| Time-series-CF | 最具挑战性的子任务,即使强模型也表现不佳 |
| RL vs SFT | 小模型上 RL 效果远优于 SFT;大模型上 SFT 已足够 |
关键发现¶
- 即使 gpt-o4-mini 也在 ML 建模任务上表现挣扎,说明现有 LLM 的数据科学能力远未成熟
- 指令遵循是主要瓶颈:模型频繁偏离指定过程(不用指定种子、改了预处理步骤等),导致 IF 任务失败
- RL 在小模型上效果极其显著:Qwen3-4B 从 4.39 提升到 37.40(8.5×),证明可验证奖励+RL 对提升 DS agent 能力非常有效
- 时间序列预测是最大短板:所有模型在 CF 变体上表现最差,暗示 LLM 缺乏时间序列建模的深度知识
亮点与洞察¶
- 过程保真度→outcome-based 评估的转化:利用数据科学的可复现性,将"过程是否正确"转化为"确定性输出是否匹配",优雅解决了过程评估的客观性问题
- 训练 + 评测统一:6300 个任务中 95% 可用于训练,5% 用于测试,真正支持"train on benchmark"的范式
- RL 对小模型的极大增益:8× 的提升说明任务特定的 RL 训练可以极大释放小模型潜力,对 DS agent 部署有重要实义
- 规模远超同类:6300 tasks vs 现有最大的 SWE-bench(21K 但不是 DS 任务),在 DS 评估领域是量级提升
局限与展望¶
- Kaggle 数据集可能不代表工业界真实数据科学问题的复杂度
- IF 任务的"确定性"依赖于完全控制随机种子,现实中很多 DS 流程不可完全复现
- 未评估多轮交互/迭代式建模场景——实际 DS 工作往往需要多次实验迭代
- 时间序列任务的评估指标选择可能影响排名(SMAPE vs MAE 等)
相关工作与启发¶
- vs DSBench/MLE-bench: 规模更大(6300 vs 540/75),支持训练数据,覆盖时间序列
- vs SWE-bench: SWE-bench 做软件工程,DARE-bench 做数据科学,互补性强
- vs RLVR (DeepSeek-R1 等): DARE-bench 提供了数学/代码之外的新 RLVR 场景——DS 任务的可验证奖励
评分¶
- 新颖性: ⭐⭐⭐⭐ IF+MM 双变体评估和 DS 过程保真度验证是新颖贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型评测+SFT+RL,6300 任务规模可观
- 写作质量: ⭐⭐⭐⭐ 结构清晰,流水线描述详细
- 价值: ⭐⭐⭐⭐ 填补 DS agent 训练+评估的重要空白,RL 训练结果尤其有说服力