Learning to Generate Unit Test via Adversarial Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2508.21107
代码: 项目页面
领域: 代码生成/强化学习
关键词: 单元测试生成, 对抗训练, RLVR, 自博弈, 判别奖励

一句话总结¶

提出UTRL框架，通过对抗RL迭代训练单元测试生成器和代码生成器——测试生成器学习生成能区分LLM代码与正确代码的判别性测试用例，代码生成器学习通过这些测试——Qwen3-4B训练后超越GPT-4.1的测试生成质量。

领域现状：单元测试是编程核心实践，高质量测试用于best-of-N采样和RLVR奖励函数。LLM已被用于自动化测试生成，但训练LLM生成高质量测试的方法仍不充分。

现有痛点：(1) SFT需要指令-测试对标注，昂贵且难以跨领域扩展；(2) 测试质量评估本身是开放性问题，没有唯一正确答案；(3) 为测试生成定义可验证奖励是非平凡的——不像代码生成有明确的通过/不通过。

核心矛盾：需要无需测试标注就能训练测试生成器的方法，但定义"好测试"的奖励信号需要某种参考标准。

切入角度：既然有指令-代码对数据集，可以用"能否区分LLM生成代码与正确代码"作为测试质量的代理指标——好的测试应该能发现LLM代码中的bug。

核心 idea：测试生成器被奖励"抓到"代码生成器的bug，代码生成器被奖励通过测试，两者对抗式共同进化。

迭代两步：Step 1训练测试生成器 \(\mathcal{M}_{\text{UT}}\)（最大化判别奖励+有效性奖励），Step 2训练代码生成器 \(\mathcal{M}_{\text{code}}\)（最大化测试通过率）。两者共享Qwen3-4B基座，用GRPO优化。

判别奖励 (Discrimination Reward):
- 功能：衡量测试 \(\mathcal{T}\) 能区分多少LLM生成代码与正确代码
- 核心思路：\(R_{\text{disc}}(\mathcal{T}, \mathcal{C}, C^*) = \frac{1}{|\mathcal{C}|}\sum_{C \in \mathcal{C}}[1 - \prod_{T \in \mathcal{T}}(1-\text{Pass}(C,T))^{\text{Pass}(C^*,T)}]\)，先过滤无效测试用例（不通过正确代码的），再计算被至少一个有效测试"抓到"的LLM代码比例
- 设计动机：好的测试应能发现LLM代码中的bug，判别率越高→测试越有区分力
有效性奖励 (Validity Reward):
- 功能：衡量测试用例的功能正确性（mapping正确）
- 核心思路：\(R_{\text{valid}}(\mathcal{T}, C^*, \tau) = \frac{\sum_{T} \text{Pass}(C^*, T)}{\max(|\mathcal{T}|, \tau)}\)，分母clamp到 \(\tau\) 防止极少测试用例获得高分
- 设计动机：防止生成少量trivial测试用例骗取高有效性分
代码生成器训练:
- 功能：训练代码生成器通过测试生成器产生的测试
- 核心思路：\(R_{\text{code}} = \frac{\sum_T \text{Pass}(C,T) \cdot \text{Pass}(C^*,T)}{\sum_T \text{Pass}(C^*,T)}\)，只考虑有效测试用例的通过率
- 设计动机：随着测试生成器进化，通过这些越来越难的测试→代码生成器也不断进步

测试生成器：\(r_{\text{UT}} = \lambda R_{\text{disc}} + (1-\lambda) R_{\text{valid}}\)，GRPO优化
代码生成器：\(R_{\text{code}}\)，GRPO优化
迭代训练，两者交替更新

TACO评估集（竞赛编程），Best-of-N提升：

方法	模型	Best-of-N代码精度增益	测试保真度
Base Qwen3-4B	4B	1×	基线
SFT (带GT测试)	4B	中	中
SFT (带推理)	4B	中+	中+
UTRL	4B	3.1×	最高
GPT-4o	~万亿	中	中
GPT-4.1	~万亿	高	高
UTRL (Qwen3-4B)	4B	超越GPT-4.1	超越