DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science¶

会议: ICLR 2026
arXiv: 2602.24288
代码: https://github.com/Snowflake-Labs/dare-bench
领域: LLM评测
关键词: data science benchmark, instruction following, ML modeling, RLVR, LLM agent

一句话总结¶

DARE-bench 是一个面向数据科学任务的大规模可验证基准，包含 6300 个 Kaggle 衍生任务，支持 ML 建模和指令遵循两类评估，提供训练集支持 SFT 和 RL——SFT 将 Qwen3-32B 提升 1.83×，RL 将 Qwen3-4B 提升 8× 以上。

研究背景与动机¶

领域现状：LLM 越来越多地被用作数据科学 agent（数据读取、转换、建模），但现有基准（DS-1000、DSBench、MLE-bench 等）存在重大缺陷：大多仅评估最终答案准确性，忽略过程保真度；缺乏可验证的 ground truth；任务规模小（几百个）且不提供训练数据。

现有痛点：(a) 缺乏标准化的过程感知评估——agent 是否真正遵循了指定的 DS 流程？(b) 准确标注的训练数据稀缺——限制了 SFT 和 RL 的应用；(c) 现有基准主要来自 Kaggle 竞赛，领域覆盖窄（缺少时间序列预测等重要任务）。

核心矛盾：评估过程保真度需要确定性的 ground truth，但 DS 任务天然包含随机性和环境依赖。如何让过程评估变得可验证？

本文目标 (a) 构建大规模、可验证、支持训练的 DS 基准；(b) 覆盖指令遵循和 ML 建模两类互补能力；(c) 支持 RLVR（强化学习 + 可验证奖励）训练。

切入角度：利用数据科学的高可复现性——通过控制随机种子和提供明确指令，忠实执行过程可以产生确定性结果，从而实现基于结果的过程保真度验证。

核心 idea：通过工程化确定性（固定种子+沙箱执行+参考解+可验证 ground truth），将 DS 过程评估转化为可自动验证的 outcome-based 评估。

方法详解¶

整体框架¶

DARE-bench 包含三大任务族（分类、回归、时间序列预测），每族两个变体。评估流程：给定自然语言问题 + 结构化文件 → LLM 在沙箱中执行代码生成预测 → 自动与 ground truth 对比评分。数据构造通过四阶段自动化流水线：数据源获取 → LLM 辅助任务设计 → 后处理 → 沙箱验证。

关键设计¶

双变体任务设计（IF + MM / XF + CF）:
- 功能：每个数据集生成两种互补的评估任务
- IF（Instruction Following）：要求 LLM 严格复现参考工作流（指定模型、超参数、预处理步骤），评估过程保真度。通过固定随机种子使忠实执行产生唯一确定的结果
- MM（ML Modeling）：不限定方法，只评估最终预测性能，评估 ML 建模能力
- XF/CF（时间序列）：XF 保留外生特征，CF 仅保留时间戳和实体列（经典预测设定）
- 设计动机：IF 模拟"严格执行数据科学家设计方案"的场景，MM 模拟"客户只关心最终效果"的场景。两者互补且均有实际需求
自动化数据构造流水线:
- 功能：从 Kaggle 数据集自动构造标准化 ML 任务
- 核心流程：(1) Dataset Sourcing——API + 爬虫获取 Kaggle 数据集 + 元数据；(2) LLM-Assisted Task Design——LLM 判断数据集是否可支持预测任务、识别目标列和特征；(3) Post-Process——数据分割、IF 任务加噪声注入、时间序列任务做重采样和实体检查；(4) Finalization——沙箱验证可解性
- 设计动机：突破人工标注瓶颈，LLM 仅处理辅助内容（描述、元数据、规则提取），不生成训练信号本身
可验证奖励设计:
- 功能：使 DARE-bench 支持 RLVR 训练
- 核心思路：IF 任务的 ground truth 来自固定种子下参考解的执行输出；MM 任务的 ground truth 来自原始数据集标签。两者均为确定性数值，可自动对比评分
- 设计动机：这是支持 RL 训练的关键——不需要人工评判或 LLM judge，纯 outcome-based 验证

损失函数 / 训练策略¶

SFT：使用 DARE-bench 训练集对 Qwen3-32B/4B 进行微调
RL：使用 GRPO 算法 + DARE-bench 可验证奖励，无需偏好数据
评估指标：分类用 accuracy/F1，回归用 R²/RMSE，时间序列用 SMAPE/MAE

实验关键数据¶

主实验¶

模型	基线总分	SFT 总分	RL 总分	提升
gpt-o4-mini	~45	-	-	最强闭源也挣扎于 ML 建模
Qwen3-32B	23.25	~42.5 (1.83×)	-	SFT 大幅提升
Qwen3-4B	4.39	~25	37.40 (8.5×)	RL 效果惊人

消融实验¶

任务类型	关键发现
Classification-IF	LLM 不遵循种子/超参指令是主要失败原因
Classification-MM	开放建模下 LLM 仍然经常选择次优模型
Time-series-CF	最具挑战性的子任务，即使强模型也表现不佳
RL vs SFT	小模型上 RL 效果远优于 SFT；大模型上 SFT 已足够

关键发现¶

即使 gpt-o4-mini 也在 ML 建模任务上表现挣扎，说明现有 LLM 的数据科学能力远未成熟
指令遵循是主要瓶颈：模型频繁偏离指定过程（不用指定种子、改了预处理步骤等），导致 IF 任务失败
RL 在小模型上效果极其显著：Qwen3-4B 从 4.39 提升到 37.40（8.5×），证明可验证奖励+RL 对提升 DS agent 能力非常有效
时间序列预测是最大短板：所有模型在 CF 变体上表现最差，暗示 LLM 缺乏时间序列建模的深度知识

亮点与洞察¶

过程保真度→outcome-based 评估的转化：利用数据科学的可复现性，将"过程是否正确"转化为"确定性输出是否匹配"，优雅解决了过程评估的客观性问题
训练 + 评测统一：6300 个任务中 95% 可用于训练，5% 用于测试，真正支持"train on benchmark"的范式
RL 对小模型的极大增益：8× 的提升说明任务特定的 RL 训练可以极大释放小模型潜力，对 DS agent 部署有重要实义
规模远超同类：6300 tasks vs 现有最大的 SWE-bench（21K 但不是 DS 任务），在 DS 评估领域是量级提升

局限与展望¶

Kaggle 数据集可能不代表工业界真实数据科学问题的复杂度
IF 任务的"确定性"依赖于完全控制随机种子，现实中很多 DS 流程不可完全复现
未评估多轮交互/迭代式建模场景——实际 DS 工作往往需要多次实验迭代
时间序列任务的评估指标选择可能影响排名（SMAPE vs MAE 等）

评分¶

新颖性: ⭐⭐⭐⭐ IF+MM 双变体评估和 DS 过程保真度验证是新颖贡献
实验充分度: ⭐⭐⭐⭐⭐ 多模型评测+SFT+RL，6300 任务规模可观
写作质量: ⭐⭐⭐⭐ 结构清晰，流水线描述详细
价值: ⭐⭐⭐⭐ 填补 DS agent 训练+评估的重要空白，RL 训练结果尤其有说服力