OptimSyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vFcm5sOitq
代码: 无
领域: LLM预训练 / 合成数据 / 强化学习
关键词: 合成数据, 影响力函数, rubric优化, GRPO, SFT

一句话总结¶

OptimSyn 把"为合成数据写 rubric（生成规则）"从专家手工活变成一个可学习的策略：用基于梯度的影响力分数衡量每条合成 QA 对目标模型训练的真实贡献，再把这个分数当成奖励，用 GRPO 训练一个 rubric 生成器，在人文社科和医疗两类知识密集领域稳定刷出比主流开源 SFT 语料更好的下游精度。

研究背景与动机¶

领域现状：LLM 的强下游能力很大程度来自海量 SFT 数据。但在人文社科、医学、法律、金融这类知识密集垂直领域，高质量真实 SFT 数据极度稀缺——专家标注贵、隐私约束严、标签一致性难保证。于是业界转向合成数据：典型做法是拿领域文档喂给一个 teacher 模型生成问答对，再用人工设计的 rubric（规则或 prompt）去过滤和引导。

现有痛点：这套范式有两个根本问题。其一是可迁移性差——rubric 高度依赖专家、强领域绑定，在一个领域好用的规则换到另一个领域往往失效。其二是启发式优化脆弱——主流流程是一个"手写 rubric → 合成数据 → 训模型 → 看结果 → 猜着改"的循环，全靠经验，缺乏可靠的量化反馈：人根本没法把下游性能变化可靠地归因到某条具体的 rubric 选择上，导致整个过程慢、脆、不确定。

核心矛盾：判断一条合成样本"好不好"时，大家习惯看它在表示空间（embedding）里像不像真实数据。但作者发现一个关键裂缝：合成样本和真实样本在 embedding 空间里可能很近，对学习的实际影响却天差地别。换句话说，"看起来高质量"不等于"训起来有用"。

本文目标：用目标模型在具体任务上的训练效用来直接衡量合成数据质量，并用这个信号反过来指导数据生成；同时把 rubric 设计从专家手工活变成可学习、可迁移的优化问题。

切入角度：作者借鉴经典影响力函数（influence function）——它用一阶梯度信息近似训练动态、估计单个训练样本对留出集性能的贡献。既然现代 LLM 都用 Adam 训练，作者采用一个 Adam 兼容的影响力估计器，让信号对齐真实的优化过程。预实验（Fig.1）显示：梯度空间里更靠近验证集的合成样本下游表现更好，而 embedding 空间里没有这个规律；并且数据集级别的影响力聚合与留出准确率强正相关，验证了影响力是合成数据质量的可靠代理。

核心 idea：用"梯度影响力分数"代替"人手 rubric 直觉"作为奖励，闭合"合成—训练"反馈回路，用 RL 训出一个能针对目标模型和任务自动产 rubric 的生成器。

方法详解¶

整体框架¶

给定一批种子文档 \(S=\{S_i\}_{i=1}^N\)，目标是构造一批合成问答对 \(\{(Q_i, A_i)\}\) 用于 SFT。OptimSyn 的核心是把"写 rubric"这一步交给一个专门的 rubric 生成器（即 prompter / 策略模型）：对每个种子文档 \(S_i\) 和指定的目标模型，prompter 产出一条定制 rubric \(B_i\)；teacher 模型（generator）在 \((B_i, S_i)\) 条件下合成一对 \((Q_i, A_i)\)；目标模型则对这对数据算出一个标量奖励，衡量它对训练的实际效用。这个奖励由"梯度影响力分数"主导，再用 GRPO 把 prompter 朝"最大化下游提升"的方向更新，从而闭合整条合成—训练回路。

整条流水线是一个 RL 回环：种子文档进来，prompter 采样 \(G\) 条候选 rubric（rollout 组），每条 rubric 经 generator 变成一对合成 QA，目标模型对每对算影响力奖励，组内归一化成优势后更新 prompter，反复迭代。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["种子文档 Seed Doc"] --> B["Rubric 生成器策略<br/>采样 G 条候选 rubric"]
    B --> C["Generator 合成<br/>每条 rubric → 一对 QA"]
    C --> D["优化器感知影响力估计<br/>梯度对齐算训练效用"]
    D --> E["可验证影响力奖励<br/>有效性校验 × IF 分数"]
    E -->|GRPO 组内归一化优势| B
    E --> F["高效用合成 SFT 数据"]

关键设计¶

1. 优化器感知的影响力估计：用梯度而非 embedding 量化"训练效用"

这一步针对"看起来像但训不动"的痛点。经典影响力函数衡量单个训练点如何影响模型参数与预测；TracIn 用一阶、基于轨迹的可扩展估计器，把训练 checkpoint 上的梯度内积累加起来近似影响力，只需逐样本梯度、学习率和保存的 checkpoint，在 LLM 规模下可行。由于现代 LLM 用 Adam 训练，作者采用一个 Adam 兼容变体：给定训练样本 \(z\)，它对某评估样本 \(z'\) 的影响力为

\[\mathrm{Inf}_{\text{Adam}}(z, z') = \sum_{i=1}^{T} \bar{\eta}_i \cos\big(\nabla_\theta \ell(z'; \theta_i),\ \Gamma(z, \theta_i)\big),\]

其中 \(\bar{\eta}_i\) 是第 \(i\) 个 epoch 的平均学习率，\(\theta_i\) 是该 epoch 后的 checkpoint，\(\Gamma\) 引入了依赖历史梯度的 Adam 矩统计量 \((m, v)\)（细节在附录，⚠️ 以原文为准）。作者把合成对 \((Q,A)\) 相对验证集的这个分数记作 \(\mathrm{IF}(Q, A)\)。之所以用梯度而非 embedding：实验证明梯度分布更接近验证集的合成集下游更好，而 embedding 邻近性常常预测不了增益——语义对齐的样本可能把优化推向次优方向。这把"数据合成"从启发式 rubric 工程变成了以模型为中心的优化。

2. Rubric 生成器作为可学习策略：把专家直觉换成模型反馈驱动的策略

这一步针对"rubric 强领域绑定、不可迁移"的痛点。传统做法是人为每个领域精雕 rubric；OptimSyn 反过来，只给 prompter 一段轻量的"引导文本"（minimal guiding text），把具体 rubric 的产出完全委托给一个 rubric 专用模型，并以种子文档和目标模型为条件。形式上，给定种子 \(S\)，策略 \(\pi_\theta\) 产出 rubric \(B \sim \pi_\theta(\cdot \mid S)\)；teacher 在 \((S, B)\) 条件下合成 \((Q, A)\)。一条轨迹是 \(\tau = \{S, B, (Q, A)\}\)，目标是最大化 \(\mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]\)。因为 rubric 是以目标模型和任务为条件学出来的，它天然随领域/模型迁移，不再需要为每个领域定制规则——分析显示 RL 后的 rubric 在 embedding 空间覆盖更广更结构化，词云从"focus/align/short"这类泛泛指令转向"critical/clarity/completeness/parsability/信息密度/逻辑严谨"这类具体可执行的质量准则。

3. 可验证的影响力奖励 + GRPO 优化：让 rubric 朝"真正提升下游"进化

前两个设计要靠一个奖励信号串起来。OptimSyn 把轻量有效性校验和影响力分数组合成奖励：设 \(\mathrm{Valid}(Q, A) \in \{0, 1\}\) 是一组轻量校验器（格式、非平凡性、安全）的合取，奖励为

\[R(\tau) = \mathrm{Valid}(Q, A) \cdot \mathrm{IF}(Q, A) - \lambda\,(1 - \mathrm{Valid}(Q, A)),\]

其中 \(\lambda > 0\) 惩罚无效生成。这样既给出与下游提升对齐的可验证信号，又压制退化输出。优化用 GRPO/PPO 风格的裁剪策略梯度配组相对基线降方差：对每个种子 \(S\) 采样 \(G\) 条 rubric 得到轨迹 \(\{\tau_i\}_{i=1}^G\)，优势用组内归一化

\[\hat{A}_{i,t} = \frac{R(\tau_i) - \frac{1}{G}\sum_{j=1}^{G} R(\tau_j)}{\sqrt{\frac{1}{G}\sum_{j=1}^{G}\big(R(\tau_j) - \frac{1}{G}\sum_{k} R(\tau_k)\big)^2 + \delta}},\]

目标函数 \(J(\theta)\) 用重要性比 \(r_{i,t}(\theta)\) 做裁剪并对参考策略 \(\pi_{\text{ref}}\) 加 KL 信任域 \(\beta\)，再加熵正则鼓励探索。这就闭合了合成—训练反馈回路：策略学到的 rubric 系统性地最大化实测训练影响，产出的不只是"启发式上看着合理"、而是"经验上真帮学习"的合成数据。

损失函数 / 训练策略¶

影响力估计前先用初始 prompter+generator 合成数据的 10% 对目标模型做 warmup，得到的模型提供参考梯度用于算影响力分数，再进入 RL 阶段。RL 用 GRPO：batch size 256，学习率 \(1\times10^{-6}\)，rollout 温度 1.5，rollout size \(n=5\)，训 1 个 epoch，\(\lambda=0.1\)。处理约 20K 样本约 10 小时，全程 8×H200。

实验关键数据¶

主实验¶

两个领域、12 个 benchmark。目标模型默认 Qwen3-8B-Base，teacher 默认 Qwen3-235B-Instruct，prompter 基座 Qwen3-8B-Instruct。下表为部分 HSS 与医疗结果（准确率，越高越好）：

领域	Benchmark	Qwen3-8B-Base	Qwen3-8B-Instruct	最强SFT基线	OptimSyn(Ours)
HSS	MMLU-pro	22.83	49.87	52.76 (Wildchat)	56.96
HSS	SuperGPQA	20.77	23.44	24.60 (Openhermes)	26.07
HSS	HLE	5.70	4.66	8.29 (MAGACorpus)	7.85
医疗	SuperGPQA	28.06	37.16	35.28 (Medical-R1)	38.28
医疗	PubMed	65.90	65.70	85.40 (ChatDoctor)	80.70
医疗	MedQA	51.45	57.09	58.75 (Medical-o1)	58.75

关键结论：OptimSyn 把同一个 8B base 持续抬过主流开源 SFT 语料，多个指标上追平甚至超过 Qwen3-8B-Instruct；HSS 上 HLE 相对增益 +27.2%（0.0785 vs 0.0570），说明结构化、组感知的数据合成能在不依赖测试时推理的情况下蒸馏出推理能力。

数据特性对比（医疗）¶

数据集	样本数	Token均值	MTLD	HDD
WildChat	529,428	289.59	52.70	0.9188
Condor	20,000	428.79	101.48	0.8650
SynthQuestions	2,500	634.60	137.02	0.8584
OptimSyn(Ours)	25,875	196.49	133.82	0.9241

OptimSyn 在 token 长度不占优的情况下取得最高 HDD（词汇多样性）和较高 MTLD，说明它产的数据短而多样、不靠堆长度取胜。

关键发现¶

梯度 vs embedding：影响力分数（梯度空间）与下游精度强正相关，embedding 邻近性则预测不了增益——这是全文最核心的"啊哈"，也是用影响力当奖励的依据。
IF 是可靠代理：从合成池随机抽 2K/4K 子集分别 SFT，高 IF 子集一致带来更高测试精度，二次回归拟合 \(R^2=0.57\)（2K）/ \(0.54\)（4K），高 IF 端有轻微饱和。
跨模型族/规模稳健：换 Qwen3-{4B,8B,14B} 和 Llama3-8B，增益从小模型到大模型都在，且能从 Qwen3 迁到 Llama3，说明不靠模型容量。
对 generator 稳健：把 generator 换成 GPT-4.1、Gemini-2.5-Pro，增益依然在，且影响力分布一致被推向更高均值——奖励信号能跨 generator 放大高效用样本。
rollout 组大小 \(G\)：\(G\in\{5,10,15\}\) 中更大的 \(G\) 奖励更高、方差更小，下游精度也随之提升，说明更广的 rubric 探索能稳定 IF 驱动的优化。

亮点与洞察¶

把"数据质量"重定义为"训练效用"：不再问"这条数据像不像真实数据"，而是问"它对目标模型这个任务的梯度有没有正贡献"。这个视角把合成数据评估从感官判断变成可量化优化，很值得迁移。
影响力当奖励、rubric 当策略：把一个静态的离线评估信号（influence）接进 RL 回路当 reward，让"生成什么数据"和"实测模型影响"对齐，是把 data selection 思想升级成 data generation 的巧妙一步。
轻量引导文本 + 委托生成：人只给一段最小引导，把领域细节全交给模型条件生成，天然解决了 rubric 不可迁移的工程痛点，可移植性强。

局限与展望¶

间接信用分配：prompter 用 RL 优化，但奖励是在一个独立 generator 合成 QA 之后才算出来的，梯度无法穿过生成这一步回传。这条间接路径让 reward 同时夹杂 generator 的随机性和影响力估计噪声，导致 GRPO 高方差、训练不稳，尤其在 rollout 组小的时候。
影响力估计的成本与近似：Adam 兼容影响力依赖逐样本梯度、checkpoint 和 warmup，计算开销不小；\(\Gamma\) 的矩统计近似细节在附录（⚠️ 以原文为准）。
领域覆盖有限：只验证了 HSS 和医疗两类，法律、金融等同样数据稀缺的高风险领域尚未实测；医疗合成数据也明确声明仅为研究 artifact、不可用于临床。
可改进方向：把奖励直接对生成步可微化（或用更稳的 credit assignment）以降方差；加大 rollout 组虽稳但更贵，探索更高效的探索机制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把梯度影响力当 RL 奖励来学 rubric，"训练效用 ≠ embedding 相似"的洞察扎实且反直觉
实验充分度: ⭐⭐⭐⭐ 两域 12 benchmark + 跨模型族/规模/generator 消融充分，但领域仅 HSS 与医疗、缺更广垂直域
写作质量: ⭐⭐⭐⭐ 动机—洞察—方法链条清晰，公式与算法完整，少数估计细节推到附录
价值: ⭐⭐⭐⭐⭐ 为数据稀缺高风险领域提供可移植、模型对齐的 SFT 数据合成范式，工程落地价值高