跳转至

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

会议: ICLR 2026
arXiv: 2602.24288
代码: https://github.com/Snowflake-Labs/dare-bench
领域: LLM评测
关键词: data science benchmark, instruction following, ML modeling, RLVR, LLM agent

一句话总结

DARE-bench 是一个面向数据科学任务的大规模可验证基准,包含 6300 个 Kaggle 衍生任务,支持 ML 建模和指令遵循两类评估,提供训练集支持 SFT 和 RL——SFT 将 Qwen3-32B 提升 1.83×,RL 将 Qwen3-4B 提升 8× 以上。

研究背景与动机

领域现状:LLM 越来越多地被用作数据科学 agent(数据读取、转换、建模),但现有基准(DS-1000、DSBench、MLE-bench 等)存在重大缺陷:大多仅评估最终答案准确性,忽略过程保真度;缺乏可验证的 ground truth;任务规模小(几百个)且不提供训练数据。

现有痛点:(a) 缺乏标准化的过程感知评估——agent 是否真正遵循了指定的 DS 流程?(b) 准确标注的训练数据稀缺——限制了 SFT 和 RL 的应用;(c) 现有基准主要来自 Kaggle 竞赛,领域覆盖窄(缺少时间序列预测等重要任务)。

核心矛盾:评估过程保真度需要确定性的 ground truth,但 DS 任务天然包含随机性和环境依赖。如何让过程评估变得可验证?

本文目标 (a) 构建大规模、可验证、支持训练的 DS 基准;(b) 覆盖指令遵循和 ML 建模两类互补能力;(c) 支持 RLVR(强化学习 + 可验证奖励)训练。

切入角度:利用数据科学的高可复现性——通过控制随机种子和提供明确指令,忠实执行过程可以产生确定性结果,从而实现基于结果的过程保真度验证。

核心 idea:通过工程化确定性(固定种子+沙箱执行+参考解+可验证 ground truth),将 DS 过程评估转化为可自动验证的 outcome-based 评估。

方法详解

整体框架

DARE-bench 包含三大任务族(分类、回归、时间序列预测),每族两个变体。评估流程:给定自然语言问题 + 结构化文件 → LLM 在沙箱中执行代码生成预测 → 自动与 ground truth 对比评分。数据构造通过四阶段自动化流水线:数据源获取 → LLM 辅助任务设计 → 后处理 → 沙箱验证。

关键设计

  1. 双变体任务设计(IF + MM / XF + CF):

    • 功能:每个数据集生成两种互补的评估任务
    • IF(Instruction Following):要求 LLM 严格复现参考工作流(指定模型、超参数、预处理步骤),评估过程保真度。通过固定随机种子使忠实执行产生唯一确定的结果
    • MM(ML Modeling):不限定方法,只评估最终预测性能,评估 ML 建模能力
    • XF/CF(时间序列):XF 保留外生特征,CF 仅保留时间戳和实体列(经典预测设定)
    • 设计动机:IF 模拟"严格执行数据科学家设计方案"的场景,MM 模拟"客户只关心最终效果"的场景。两者互补且均有实际需求
  2. 自动化数据构造流水线:

    • 功能:从 Kaggle 数据集自动构造标准化 ML 任务
    • 核心流程:(1) Dataset Sourcing——API + 爬虫获取 Kaggle 数据集 + 元数据;(2) LLM-Assisted Task Design——LLM 判断数据集是否可支持预测任务、识别目标列和特征;(3) Post-Process——数据分割、IF 任务加噪声注入、时间序列任务做重采样和实体检查;(4) Finalization——沙箱验证可解性
    • 设计动机:突破人工标注瓶颈,LLM 仅处理辅助内容(描述、元数据、规则提取),不生成训练信号本身
  3. 可验证奖励设计:

    • 功能:使 DARE-bench 支持 RLVR 训练
    • 核心思路:IF 任务的 ground truth 来自固定种子下参考解的执行输出;MM 任务的 ground truth 来自原始数据集标签。两者均为确定性数值,可自动对比评分
    • 设计动机:这是支持 RL 训练的关键——不需要人工评判或 LLM judge,纯 outcome-based 验证

损失函数 / 训练策略

  • SFT:使用 DARE-bench 训练集对 Qwen3-32B/4B 进行微调
  • RL:使用 GRPO 算法 + DARE-bench 可验证奖励,无需偏好数据
  • 评估指标:分类用 accuracy/F1,回归用 R²/RMSE,时间序列用 SMAPE/MAE

实验关键数据

主实验

模型 基线总分 SFT 总分 RL 总分 提升
gpt-o4-mini ~45 - - 最强闭源也挣扎于 ML 建模
Qwen3-32B 23.25 ~42.5 (1.83×) - SFT 大幅提升
Qwen3-4B 4.39 ~25 37.40 (8.5×) RL 效果惊人

消融实验

任务类型 关键发现
Classification-IF LLM 不遵循种子/超参指令是主要失败原因
Classification-MM 开放建模下 LLM 仍然经常选择次优模型
Time-series-CF 最具挑战性的子任务,即使强模型也表现不佳
RL vs SFT 小模型上 RL 效果远优于 SFT;大模型上 SFT 已足够

关键发现

  • 即使 gpt-o4-mini 也在 ML 建模任务上表现挣扎,说明现有 LLM 的数据科学能力远未成熟
  • 指令遵循是主要瓶颈:模型频繁偏离指定过程(不用指定种子、改了预处理步骤等),导致 IF 任务失败
  • RL 在小模型上效果极其显著:Qwen3-4B 从 4.39 提升到 37.40(8.5×),证明可验证奖励+RL 对提升 DS agent 能力非常有效
  • 时间序列预测是最大短板:所有模型在 CF 变体上表现最差,暗示 LLM 缺乏时间序列建模的深度知识

亮点与洞察

  • 过程保真度→outcome-based 评估的转化:利用数据科学的可复现性,将"过程是否正确"转化为"确定性输出是否匹配",优雅解决了过程评估的客观性问题
  • 训练 + 评测统一:6300 个任务中 95% 可用于训练,5% 用于测试,真正支持"train on benchmark"的范式
  • RL 对小模型的极大增益:8× 的提升说明任务特定的 RL 训练可以极大释放小模型潜力,对 DS agent 部署有重要实义
  • 规模远超同类:6300 tasks vs 现有最大的 SWE-bench(21K 但不是 DS 任务),在 DS 评估领域是量级提升

局限与展望

  • Kaggle 数据集可能不代表工业界真实数据科学问题的复杂度
  • IF 任务的"确定性"依赖于完全控制随机种子,现实中很多 DS 流程不可完全复现
  • 未评估多轮交互/迭代式建模场景——实际 DS 工作往往需要多次实验迭代
  • 时间序列任务的评估指标选择可能影响排名(SMAPE vs MAE 等)

相关工作与启发

  • vs DSBench/MLE-bench: 规模更大(6300 vs 540/75),支持训练数据,覆盖时间序列
  • vs SWE-bench: SWE-bench 做软件工程,DARE-bench 做数据科学,互补性强
  • vs RLVR (DeepSeek-R1 等): DARE-bench 提供了数学/代码之外的新 RLVR 场景——DS 任务的可验证奖励

评分

  • 新颖性: ⭐⭐⭐⭐ IF+MM 双变体评估和 DS 过程保真度验证是新颖贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型评测+SFT+RL,6300 任务规模可观
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,流水线描述详细
  • 价值: ⭐⭐⭐⭐ 填补 DS agent 训练+评估的重要空白,RL 训练结果尤其有说服力