Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection¶
会议: ICML 2026
arXiv: 2605.28631
代码: https://github.com/JianghaoWu/SHIFT
领域: 强化学习 / LLM 推理 / 数据选择
关键词: RLVR, 数据选择, 隐状态动力学, CoreSet, 训练无关
一句话总结¶
SHIFT 用一次贪心解码下的"开始 token → 结束 token"隐状态差 \(\Delta(x)=\mathbf{e}(x)-\mathbf{s}(x)\) 同时充当 RLVR 样本的效用代理和多样性特征,再用质量加权的最远优先 CoreSet 在大规模无标注池里挑出极少量样本,全过程不训练、不需要奖励或答案。
研究背景与动机¶
领域现状:RLVR(带可验证奖励的强化学习)能让 LLM 推理能力暴涨,并且具备极端的样本效率——文献已显示一两个精心挑出的样本可以逼近用上千样本 RL 后的性能。代表方法(如 Wang et al. 2025c)通过"在小型 RL 训练里看每个样本的训练集准确率方差(Historical Variance Score, HVS)"来挑高价值样本。
现有痛点:这类基于训练时信号的选择必须先在大候选池上跑(代理)微调或 RL,并要求可验证奖励,等价于需要 ground truth 答案。这在医学推理等专业领域上既贵又不可行。经典主动学习的不确定性/梯度准则同样依赖训练时反馈,而预训练阶段的难度/PPL 代理与 RLVR 的奖励驱动效用之间相关性弱。
核心矛盾:RLVR 样本效用是奖励驱动的,但在选样阶段我们既没有奖励也没有标签,更不希望先做训练;现有主动学习信号都建立在"做过训练或拿到标签"之上。
本文目标:在 pre-RL 阶段、面向大规模无标注池、且不评估奖励的前提下,选出 \(|S|=B\) 个最有希望的训练样本。
切入角度:理论侧 Dherin et al. 2025 把 transformer 自注意力 + MLP 的 context 效应等价为对 MLP 第一层的秩-1 隐式权重更新,并给出 \(\|\Delta W(Y)\|_F \le \frac{\|W\|_2}{\|A(C\setminus Y,x)\|_2}\,\|\Delta A(Y)\|_2\) 的上界——这暗示"context 引起的表征变化"可以代理"模型内部学习量"。经验侧 Liang et al. 2025 已经证实 CoT 前后隐状态差能编码推理过程的非平凡结构。
核心 idea:用一次确定性 CoT rollout 中开始 / 结束 anchor 的多层平均隐状态之差作为样本效用代理 \(q(x)=\|\Delta(x)\|_2\),并在 \([\mathbf{s}(x);\Delta(x)]\) 的归一化空间里做质量加权 farthest-first 选择。
方法详解¶
整体框架¶
对无标注池 \(\mathcal{U}=\{x_i\}_{i=1}^{N}\) 中的每条样本:(1) 用基座 LLM \(f_\theta\) 在固定推理 prompt 下做 \(T=0\) 贪心解码生成一条 CoT;(2) 取 CoT 开始与结束 token(若模型支持 <think>/</think> 则取定界符)为 anchor,多层平均得到 \(\mathbf{s}(x), \mathbf{e}(x)\in\mathbb{R}^D\);(3) 计算 RIRS \(\Delta(x)=\mathbf{e}(x)-\mathbf{s}(x)\);(4) 用 \(\tilde q(x)\) 与 \(\phi(x)\) 喂入质量加权 farthest-first CoreSet 选出 \(B\) 个样本;(5) 只为这 \(B\) 个样本标注/计算奖励,跑 RLVR。整个选样过程"一次推理、零训练、零标签"。
关键设计¶
-
多层平均的 RIRS 表征:
- 功能:用一个 \(\mathbb{R}^D\) 向量浓缩"这条样本让模型在 CoT 期间内部状态改变了多少"。
- 核心思路:对每层 \(\ell\) 取 anchor token 隐状态 \(\mathbf{h}^{(\ell)}_{t_s}(x), \mathbf{h}^{(\ell)}_{t_e}(x)\),沿层求均值得到 \(\mathbf{s}(x), \mathbf{e}(x)\);定义 \(\Delta(x)=\mathbf{e}(x)-\mathbf{s}(x)\) 为"推理诱导的表征漂移"。理论侧借 Dherin et al. 的秩-1 隐式权重视角,把 \(\|\Delta(x)\|_2\) 解释为对一条 rollout 上累积 context-induced 变化的轨迹级、层聚合的可观测代理——但作者明确说明这是动机而非严格推导。
- 设计动机:只需一次推理就能拿到,远比"R=32 次随机采样算自一致熵"或"跑 RL 看奖励"便宜;同时比单层 anchor 更稳定,避免某一层异常带偏。
-
对数稳定化的效用分数:
- 功能:把 RIRS 范数转成数值稳定的样本效用代理。
- 核心思路:先算 \(q(x)=\|\Delta(x)\|_2\),再做单调对数压缩 \(\tilde q(x)=\log(1+q(x))\);高 \(\tilde q\) 意味着这条样本让模型内部走得更远,被假设为对 RLVR 更有学习价值。
- 设计动机:不同长度、不同领域样本的 \(\|\Delta\|_2\) 量级差异大,直接用会被极端值主导;对数变换在保持排序的同时压住尺度,让后续与多样性距离 \(d(x,S)\) 的乘法尺度可比。
-
质量加权 farthest-first CoreSet:
- 功能:在效用与覆盖之间做单次贪心权衡,避免只选高效用但同质化的样本。
- 核心思路:构造 \(\ell_2\) 归一化的覆盖特征 \(\phi(x)=[\mathbf{s}(x);\Delta(x)]/\|[\mathbf{s}(x);\Delta(x)]\|_2 \in \mathbb{R}^{2D}\),既包含 CoT 起点上下文又包含推理动力学;初始化 \(S\leftarrow\{\arg\max_x \tilde q(x)\}\),随后每步用 \(x^\star=\arg\max_{x\in\mathcal{U}\setminus S}\, \tilde q(x)\cdot d(x,S)\),其中 \(d(x,S)=\min_{x'\in S}\|\phi(x)-\phi(x')\|_2\),反复直至 \(|S|=B\)。
- 设计动机:高 \(\tilde q\) 样本往往扎堆(例如某一类难题),单纯 top-K 会浪费预算;farthest-first 单独用又会拣到无意义的离群点。乘法形式让两者必须同时成立才会被选中,且只需一次 \(O(NB)\) 贪心扫描,复杂度可扩展到上万规模的池子。
损失函数 / 训练策略¶
SHIFT 本身不训练任何参数——选样阶段只有一次贪心推理 + CoreSet 贪心。RLVR 阶段对所有方法用同一套训练预算与超参,只换"选哪些样本"的规则;MedQA 用 Qwen3-1.7B,MATH-500 用 Qwen2.5-Math-1.5B,均从公开 checkpoint 起步。
实验关键数据¶
主实验¶
| 数据集 | 选样预算 | 评估 | 全量 RLVR 参考 | Random | 最佳基线 | SHIFT |
|---|---|---|---|---|---|---|
| MATH-500(in-domain) | 2%(7/350) | Pass@1 | 66.00 | 53.73 | 见正文(Cluster 44.67 / CoreSet 47.33) | 与全量差距最小、显著超越 Cluster/CoreSet |
| AMC(OOD 数学迁移) | 2% | Pass@1 | 33.73 | 25.78 | 25.30(Cluster) | 文中报告稳定优于训练无关基线 |
| MedQA | 0.1–0.2% | 选样后 RLVR 准确率 | — | — | — | SHIFT 在多个超低预算下一致最优 |
复现细节:MATH-500 把 500 题切成 350 选样池 + 150 测试;MedQA 用 10.2K 训练集作选样池、1.27K 测试集评估,并迁移到 MedMCQA、PubMedQA、MedXpertQA(U/R) 检验跨集泛化。基线包含 KMeans-Center (Cluster)、Farthest-First (CoreSet)、Q-PPL(题面困惑度)、SC-Entropy(32 次随机解码答案熵)、CoT 相似度、A-PPL(生成答案困惑度)。
消融实验¶
| 配置 | 关键作用 | 说明 |
|---|---|---|
| Full SHIFT | RIRS 质量 + RIRS 覆盖 | 论文报告的最佳版本 |
| 仅效用 top-K(无 farthest-first) | 去掉覆盖项 | 容易选到同质化样本,掉点 |
| 仅 farthest-first(去掉 \(\tilde q\) 权重) | 去掉效用项 | 退化为通用 CoreSet,被离群点主导 |
| 句嵌入空间 CoreSet(baseline 对照) | 不用 RIRS 而用 MiniLM-L6-v2 | 不能捕捉推理时计算,显著弱于 SHIFT |
| 单 rollout vs 多 rollout 自一致 | 选样代价 | 单次贪心 RIRS 即可,无需 R=32 次随机采样 |
关键发现¶
- "RIRS 范数"与"输入/输出长度"等表面统计量解耦:作者专门做相关性分析,确认 \(\tilde q\) 的增益不能被简单长度因素解释,支持它是"推理诱导内部更新"的真实代理。
- 把 \(\Delta(x)\) 既当效用又拼进覆盖特征 \(\phi(x)\) 才是关键:仅当效用、不当特征,或者只当特征不当权重,都会显著掉点;二者互补。
- 在 MedQA 这种几乎无奖励可用的领域,SHIFT 把"标注 + 奖励评估"成本压缩到所选 \(B\) 条之内,让 RLVR 真正成为低资源可用的对齐范式,而不仅是"有钱有 ground truth 的人的玩具"。
- 跨集迁移(MedQA 训练 → MedMCQA、PubMedQA、MedXpertQA-U/R 评估)上 SHIFT 的优势保持稳定,说明所选样本不只过拟合到 in-domain 测试集,而是真的让 RLVR 学到了可迁移的推理结构。
- 同样基于 \([\mathbf{s}(x);\Delta(x)]\) 特征做单纯 CoreSet 也比句嵌入 CoreSet 强,说明 RIRS 增益既来自质量信号也来自更贴合推理的特征空间。
亮点与洞察¶
- 用"一次推理就能看到的轨迹级残差"取代"必须先训练才能看到的奖励/梯度信号",是从 in-context implicit weight update 视角对样本价值的全新刻画——把 Dherin 2025 的理论端口接到了非常实用的选样问题上。
- 算法极简:\(O(N)\) 推理 + \(O(NB)\) CoreSet,没有学习率,没有调参,没有奖励模型;这种"提示一致、Anchor 明确、可即插即用"的设计很容易迁移到任何带
<think>/</think>的推理模型。 - 把效用和多样性写成乘法 \(\tilde q\cdot d\) 而不是加法,是个值得借鉴的工程细节:避免量纲调权,并强制"非空"——只有两边都非零才能进入候选。
局限与展望¶
- 理论与方法之间存在 gap:上界 (5) 是单块、单 query 位置的陈述,而 \(\Delta(x)\) 是跨层、跨整条 rollout 的聚合;作者已坦承这是"动机而非推导",未来需要更紧致的连接。
- 评估模型偏小(1.5B、1.7B),且预算极低;当池子或模型放大、奖励变得稠密时,RIRS 的"高 norm = 高价值"假设是否仍然单调成立尚需更多证据。
- Anchor 取决于 CoT 定界符或人为约定的开始/结束位置;若模型不输出明确 CoT 段或解码不稳定,\(\Delta(x)\) 的语义会被噪声稀释。
相关工作与启发¶
- vs Wang et al. 2025c(HVS):HVS 必须先跑 RL 看每个样本的训练集准确率方差,需要奖励/标签;SHIFT 在 pre-RL、零标签下用一次推理替代,定位完全互补。
- vs 经典主动学习(CoreSet、Cluster、Entropy):传统方法的不确定性/距离信号来自静态输入嵌入或训练损失,捕捉不到推理时计算;SHIFT 显示把特征空间换成"推理动力学"能在同一 CoreSet 框架下大幅升级。
- vs Liang et al. 2025 的隐状态轨迹分析:他们用类似的 start-end delta 解释推理结构,SHIFT 把这种诊断信号转化为选样准则,是一次很直接的"分析→落地"映射。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 in-context implicit update 的理论桥接到 RLVR 数据选择,视角新颖。
- 实验充分度: ⭐⭐⭐ 数学与医学双场景 + 多基线 + 消融较完整,但模型规模与预算偏窄。
- 写作质量: ⭐⭐⭐⭐ 问题设定、理论动机、算法、消融逻辑链条清晰。
- 价值: ⭐⭐⭐⭐ 给低资源专业领域上 RLVR 提供了真正可用的零标签选样配方。