💻 代码智能¶
🧪 ICML2026 · 2 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (48) · 📷 CVPR2026 (2) · 🔬 ICLR2026 (20) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (21) · 📹 ICCV2025 (1)
- BoostAPR: Boosting Automated Program Repair via Execution-Grounded Reinforcement Learning with Dual Reward Models
-
BoostAPR 给"用 RL 训 program-repair 模型"造了一套三阶段流水线——execution-verified SFT → 训序列级 + 行级双重 reward → PPO 时用行级模型把序列奖励重新分配到关键 edit lines;在 Qwen2.5-Coder-32B 上把 SWE-bench Verified 从 17.8% 推到 40.7% (+22.9pp),跨语言迁移到 Defects4J 取 24.8%。
- HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-bench
-
在 SWE-bench 上传统 PPL 既受"长上下文税"干扰又无法预测 SFT 后的智能体能力,本文提出"熵压缩假说"和 HE-SNR 指标,只在 Top-10 熵大于 \((\ln 3 + \ln 4)/2\) 的"高熵决策点"上算信号噪声比,与下游 SWE-bench 得分的 Pearson 相关达 0.96,Kendall 一致性 0.98。