ICLR2026 代码智能论文解读论文笔记 LLM 强化学习 Agent 推理对抗鲁棒

💻 代码智能¶

🔬 ICLR2026 · 58 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (49) · 🧪 ICML2026 (22) · 🤖 AAAI2026 (10) · 🧠 NeurIPS2025 (19) · 📹 ICCV2025 (1) · 🧪 ICML2025 (9)

🔥 高频主题： LLM ×10 · 代码智能 ×8 · 强化学习 ×5 · Agent ×4 · 推理 ×4

A Problem-Oriented Perspective and Anchor Verification for Code Optimization: 提出以问题为导向（而非用户为导向）的优化对构建方法来整合多程序员的策略多样性，并设计锚点验证框架利用"慢但正确的代码"生成测试用例来缓解"优化税"（正确性损失），将优化比从 31.24% 提升到 71.06%，加速比从 2.95x 提升到 6.08x。
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions: AetherCode 是首个系统性从 IOI、ICPC 等顶级编程竞赛收集 456 道高难度题目、并用「自动生成 + 67 位专家人工标注」混合方法把每道题的测试用例做到 100% TPR / 100% TNR 的代码推理 benchmark，结果显示即便最强的 o4-mini-high 也只有 35.5% 的 Pass@1，揭穿了「LLM 已征服竞赛编程」的错觉。
Agnostics: Learning to Synthesize Code in Any Programming Language with a Universal Reinforcement Learning Environment: 用"只看程序的标准输入/输出行为对不对"作为统一判分标准，做一个语言无关的代码执行沙箱 + GRPO 训练框架，让任意低资源编程语言的 RL 后训练只需写 4-5 行 YAML 配置，把 Qwen-3 4B 在 Lua/Julia/R/OCaml/Fortran 上的能力拉到媲美 16B–70B 模型。
Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering: 构建 Ambig-SWE（基于 SWE-Bench Verified 的欠指定变体），系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%，但模型默认非交互行为且难以区分指定充分/不足的指令。
An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems: AFL 把"用 LLM 解复杂车辆路径问题（VRP）"拆成问题描述、代码生成、求解三个子任务，并用生成、判断、修订、错误分析四个专职 agent 互相把关，从一份原始 VRPLIB 实例全自动产出一个不依赖外部求解器的 Python 求解器；在 60 个 VRP 变体上把 LLM 方法的运行报错率压到 0%、可行解率拉到 100%，且与人工精心设计的算法相比差距大多落在 3% 以内。
ATGen: Adversarial Reinforcement Learning for Test Case Generation: ATGen 把一个"测试用例生成器"和一个"对抗代码生成器"放进一个互相博弈的强化学习循环里——生成器越强，对手就被逼着造出越隐蔽的 bug，这种自动加难的动态课程打破了静态数据集的"固定难度天花板"，让 7B 模型的攻击成功率比 SFT 方法 UTGen 翻倍（36.99% vs 16.24%）。
Behavioral Embeddings of Programs: A Quasi-Dynamic Approach for Optimization Prediction: 针对编译优化里"静态表示太死、动态画像太贵"的两难，本文提出准动态程序表示：用一组优化序列去"探针"程序的 LLVM IR，把优化前后静态特征的变化量化成 Program Behavior Spectrum，再用乘积量化（PQ）把连续反应向量离散成结构化"子词"、用多任务 Transformer（PQ-BERT）预训练学习其语法，在 Best Pass Prediction 和 -Oz Benefit Prediction 两项任务上大幅超过 inst2vec / IR2Vec 等静态嵌入。
BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization: BOAD 把"为软件工程任务设计一套分层多智能体系统"这件事重新表述成多臂老虎机问题——每个候选子智能体是一根臂、奖励是它在团队协作中的"有用度"（helpfulness），再用 UCB 做探索-利用、用中餐馆过程动态扩档案、用 hindsight 信用分配避免"搭便车"，从而在有限评测预算下自动发现"一个 orchestrator + 两个专精子智能体"的结构；在 SWE-bench-Verified 上 36B 模型拿到 53.2%，在更偏分布外的 SWE-bench-Live 上以 20.0% 一度位列排行榜第二，超过 GPT-4o、Claude 3.7 等更大的模型。
CARD: Towards Conditional Design of Multi-agent Topological Structures: CARD提出了一种条件图生成框架(Conditional Agentic Graph Designer)，通过条件变分图编码器和环境感知优化，根据模型能力、工具可用性和知识源变化等动态环境信号自适应地设计多Agent通信拓扑结构，在HumanEval、MATH和MMLU上一致超越静态和基于提示的基线方法。
Code2Bench: Scaling Source and Rigor for Dynamic Benchmark Construction: 针对代码生成评测中「题源静态易污染 + 测试浮于表面」两大顽疾，本文提出 Dual Scaling（双重扩展） 哲学——一边从真实代码仓库按模型知识截止日期动态取题（扩展题源），一边用属性测试 PBT 配合 100% 分支覆盖的「Great Filter」自动生成高严谨度测试（扩展严谨度）——并实例化为端到端框架 Code2Bench，产出含 Python/Java 原生实例的 Code2Bench-2509 基准，对 10 个主流 LLM 给出细粒度诊断。
Code Aesthetics with Agentic Reward Feedback: 本文把网页设计和图表生成这类“结果好不好看也很重要”的编程任务定义为代码审美问题，构建 AesCode-358K 数据集、OpenDesign 评测集和由执行/静态审美/交互审美三类智能体组成的奖励反馈，再用 GRPO-AR 训练出小规模 AesCoder，使 4B 模型在 OpenDesign 上超过 GPT-4o、GPT-4.1 以及多种大规模开源代码模型。
Code World Models for General Game Playing: 不再把 LLM 当成直接出招的"棋手"，而是让它把游戏规则和少量对局轨迹翻译成一份可执行的 Python 世界模型代码（含状态转移、合法动作、终局判定，外加价值函数与隐状态推理函数），再把这份代码交给 MCTS / ISMCTS 这类经典规划器去深搜；在 10 个游戏（含 4 个自造的全新游戏）上，9 个游戏打平或战胜 Gemini 2.5 Pro。
CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning: CodeSense 是第一个面向真实世界软件工程的细粒度代码语义推理 benchmark：作者从 744 个 Python/C/Java GitHub 项目里跑测试、抓执行轨迹，自动构造出语句级/代码块级/函数级的执行值与程序属性（循环、指针别名、分支）的 ground truth，共 4483 个样本，评测 14 个 SOTA LLM 后发现它们连单条真实语句的算术和 API 调用都常常算不对。
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning: 本文提出"批判强化学习"（Critique Reinforcement Learning, CRL）——让模型对"问题-解答"对做出 True/False 判断、用判断是否正确作为可验证奖励，并把它和标准代码 RL 按 20%:80% 混合训练，得到的 Critique-Coder 在多个代码基准上一致超过纯 RL，8B 模型 LiveCodeBench(v5) 突破 60，并把批判能力迁移到逻辑推理任务。
CrossPL: Systematic Evaluation of Large Language Models for Cross Programming Language Interoperating Code Generation: CrossPL 是第一个系统评测 LLM「跨编程语言互操作代码」生成能力的 benchmark，用 156 个有限状态机从 1.9 万个多语言 GitHub 仓库里挖出 1982 个 IPC 任务、再用 GSL 库构造 522 个 Python–C FFI 任务，对 20 个主流模型测下来发现：单语言代码生成已经 90%+ Pass@1 的模型，在 FFI 互操作上最好也只有 19.5% Pass@1，暴露出严重短板。
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning: 提出 DiaBlo——一种用对角块更新替代低秩分解的参数高效微调方法：将权重矩阵划分为 \(N \times N\) 块后只训练对角块 \(\mathbf{D}_1, \ldots, \mathbf{D}_N\)，彻底绕开 LoRA 中 \(\mathbf{AB}\) 乘积带来的非凸优化、初始化敏感与梯度不稳定问题，零初始化即可收敛，PyTorch 一行 torch.einsum 实现 batched matmul，理论证明同参数预算下表达力严格优于 LoRA，在常识推理、算术推理、代码生成、安全对齐四大任务及 4-bit/2-bit 量化场景全面领先。
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation: 本文训练了一个 7B 的掩码扩散代码模型 DiffuCoder，提出局部/全局 AR-ness 指标系统刻画扩散 LLM 的"非自回归"解码行为，并设计 coupled-GRPO（互补掩码耦合采样的扩散原生 RL 方法），在 EvalPlus 上提升 4.4%。
EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits: EDIT-Bench 把近 500 名真实开发者在自研 VSCode 插件里写下的 in-the-wild 指令式代码编辑请求，转成 540 道带测试用例的难题，评测 40 个 LLM，发现这是一个连 SOTA 都只有 1 个模型过 60% 的硬骨头。
Evolving Graph Structured Programs for Circuit Generation with Large Language Models: CircuitEvo 把电路图编码成「图结构程序」这一 LLM 友好的文本形式，再用 LLM + 进化式提示策略迭代生成更紧凑的电路，并配一个有理论保证的「结构感知功能补全」模块兜底正确性，是首个能在保证 100% 功能正确的同时持续压缩电路规模的 LLM 逻辑综合方法。
FHE-Coder: Benchmarking Secure Agentic Code Generation for Fully Homomorphic Encryption: 针对"LLM 生成的 FHE 代码功能通过却密码学不安全"这一致命盲区，提出三阶段智能体框架 FHE-Coder（提示形式化器 + 专家增强 RAG + 安全验证器）并配套新指标 Pass@1(func sec) 与 10 任务基准，让多种 LLM 在 TFHE/CKKS 上稳定产出可编译、功能正确且可验证安全的同态加密代码。
From Assistant to Independent Developer — Are GPTs Ready for Software Development?: 本文提出 APPFORGE——首个评测 LLM 从零端到端构建完整 Android 应用能力的基准（101 个真实任务、全自动编译/功能/稳定性评测），发现最强的 GPT-5 也只能做对 18.8% 的应用，揭示了当前模型距离"独立开发者"还有巨大鸿沟。
From Large to Small: Transferring CUDA Optimization Expertise via Reasoning Graph: ReGraphT 把大模型积累的 CUDA 优化轨迹组织成一张可复用的「推理图」，再用蒙特卡洛图搜索（MCGS）在图上引导小模型逐步选择优化手段，从而在不训练、不上云的前提下让 7B 级小模型逼近 671B 大模型的 CUDA 代码生成性能，平均加速 2.33×。
Gistify: Codebase-Level Understanding via Runtime Execution: 提出 GISTIFY 任务——让编程智能体把整个代码库中某条命令的功能压缩成一个单文件、自包含、最小化、忠实复现运行时行为的"精华文件"，从而真正考验模型对代码库结构与执行流的理解，并发现当前 SOTA 模型在长执行轨迹上普遍翻车。
Gradient-Based Program Synthesis with Neurally Interpreted Languages: NLI 让一个编码器-解码器架构端到端地自己发明一套离散的、类符号的编程语言，并配一个可微分的循环神经执行器逐 token 解释程序，从而既能像符号方法那样组合泛化，又能用梯度下降在程序空间里搜索，在测试时把归纳器给出的初始程序猜测精修到能解释数据为止。
HARDTESTGEN: A High-Quality RL Verifier Generation Pipeline for LLM Algorithmic Coding: 针对算法竞赛代码题，提出 HARDTESTGEN 测试合成流水线——用 LLM 写"生成器程序"而非直接生成测试，配合多 oracle 共识过滤，造出一套精度高 11 个点的高质量测试用例数据集 HARDTESTS（2.66 万题），并证明验证器质量直接决定拒绝采样和 RL 后训练的效果。
Improving Code Localization with Repository Memory: 通过利用代码仓库的 commit 历史构建情景记忆（过去 commit）和语义记忆（活跃代码功能摘要），增强语言代理的代码定位能力，在 SWE-bench 上取得显著提升。
IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation: 提出 IMSE——将预训练 ViT 线性层通过 SVD 分解为"谱专家"，仅微调奇异值实现极端参数高效的测试时适应，并通过多样性最大化损失和域感知谱码检索机制，在 TTA/CTTA/渐进 CTTA 三种场景下达到 SOTA。
InnoGym: Benchmarking the Innovation Potential of AI Agents: 提出 InnoGym，第一个系统评估 AI Agent 创新能力的基准和框架，引入 Performance Gain 和 Novelty 两个互补指标，通过 18 个可改进任务发现当前 Agent 具备一定创新性但缺乏将创新转化为可靠性能提升的鲁棒性。
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence: 针对"代码 + 视觉"多模态语料稀缺的瓶颈，本文造了一套数据合成工具箱，合成出迄今最大的多模态代码语料 JanusCode-800K，并训出统一模型 JanusCoder / JanusCoderV，用一个模型同时覆盖图表生成、网页 UI、动画、科学演示等文本侧与视觉侧任务，7B–14B 规模即逼近甚至超过 GPT-4o。
Kimi-Dev: Agentless Training as Skill Prior for SWE-agents: 本文提出把 Agentless（工作流式）训练当作 SWE-Agent（多轮交互式）的"技能先验"，用一套 mid-training + cold-start + RL + 测试时自博弈的配方训出开源模型 Kimi-Dev，在 SWE-bench Verified 上取得工作流方案 SoTA 的 60.4%，再用 5k 条轨迹轻量 SFT 即把它升级成 48.6% pass@1 的智能体，与 Claude 3.5 Sonnet 持平。
KV Cache Transform Coding for Compact Storage in LLM Inference: 提出 KVTC，一种借鉴经典媒体压缩技术（PCA 特征去相关 + 自适应量化 + 熵编码）的 KV 缓存压缩方法，在 Llama 3、Mistral NeMo、R1-Qwen 2.5 等模型上实现最高 20× 压缩（特定场景下 40×+），优于 token 驱逐、量化、SVD 等基线方法。
LearNAT: Learning NL2SQL with AST-guided Task Decomposition for Large Language Models: LearNAT 用 AST 引导的 MCTS 搜索自动合成"可验证"的 NL2SQL 任务分解数据，再用感知 margin 的 DPO 做细粒度多步偏好优化，让一个 7B 小模型在 NL2SQL 上达到接近 GPT-4 的水平。
Learning to Reason without External Rewards: 提出 Intuitor，一种用模型自身置信度（self-certainty，即输出分布与均匀分布的 KL 散度）替代外部可验证奖励的 RLIF 方法，在数学推理上匹配 GRPO 性能，同时在代码生成等域外任务上展现更好的泛化能力。
LLM-Guided Evolutionary Program Synthesis for Quasi-Monte Carlo Design: 把两个困扰数十年的拟蒙特卡洛（QMC）设计问题——构造低星偏差有限点集、挑选 Sobol' 方向数——重新表述为"程序合成"任务，用一个 LLM 充当智能变异算子的进化循环来搜索生成代码，不做任何针对性训练就重现了已知最优解、并在多个有限规模和高维金融定价场景上刷新了人类手工设计的最好成绩。
Local Success Does Not Compose: Benchmarking Large Language Models for Compositional Formal Verification: 本文提出 DAFNYCOMP —— 首个针对「多函数程序组合式规约生成」的形式化验证基准，揭示了前沿 LLM 在单函数 Dafny 验证上能拿到 58%+ 通过率，但一旦把 2–5 个函数拼成调用链，端到端验证率几乎归零（最强模型 Pass@8 仅 2%），证明「局部成功不能组合」。
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages: 把只评 Python 的 LiveCodeBench 扩展到 12 种编程语言——靠一条把 LeetCode 函数式任务统一改写成 STDIN/STDOUT 的转换流水线，在不丢任务、不破坏污染控制的前提下实现同题跨语言对比，揭示出当前 LLM 普遍存在的 "Python 过拟合" 与语言特异性数据污染。
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning: 提出 PaperCoder——一个多智能体 LLM 框架，通过规划（Planning）、分析（Analysis）、生成（Coding）三阶段流水线，将机器学习论文自动转化为可运行的代码仓库，其中 88% 的生成仓库被论文作者评为最佳，且在 PaperBench 基准上大幅超越基线。
Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents: 针对 SWE 智能体"装环境"这个最基础却最易卡壳的环节，本文提出 EnConda-Bench：通过往正确 README 里注入 6 类真实错误来自动造题，把传统只看"最后能不能 build/test 通过"的黑盒评测，拆解成对智能体规划—感知—反馈—执行四类能力的过程级诊断，发现当前智能体"能找到错却改不对错"是性能瓶颈。
QLCoder: A Query Synthesizer For Static Analysis of Security Vulnerabilities: QLCoder 把一个 LLM-Agent 嵌进「生成候选查询 → CodeQL 执行打分 → 按反馈修补」的迭代回路里，并用自定义 MCP 工具箱（CodeQL 语言服务器保语法 + RAG 向量库保语义）约束它的推理，从 CVE 元数据自动合成出能"在漏洞版本报警、在修复版本静默"的 CodeQL 查询；在 176 个真实 Java CVE 上成功率 53.4%，F1 0.70，远超直接用 Claude Code（10%）和 IRIS/CodeQL 现成查询套件（F1 0.048 / 0.073）。
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory: 提出 ReasoningBank 记忆框架，从 Agent 自我判断的成功和失败经验中蒸馏可泛化的推理策略存入记忆库，并提出 memory-aware test-time scaling (MaTTS) 建立记忆与测试时扩展的协同效应，在 WebArena、Mind2Web 和 SWE-Bench 上一致超越基线（最高 34.2% 相对提升），同时减少 16% 交互步数。
RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback: RECODE-H 把"研究代码生成"从一次性出题改成多轮人机协作：102 个来自真实顶会论文+官方仓库的仓库级任务，配上单元测试和一套五级反馈层级，再用 ReCodeAgent（ReAct 多轮 + 记忆压缩）做强基线，系统量化"反馈越细、LLM 改得越对"——GPT-5 的 Recall 从无反馈 29.4% 一路升到最强反馈 71.6%。
RefineStat: Efficient Exploration for Probabilistic Program Synthesis: RefineStat 让 7~8B 的小语言模型也能可靠地合成概率程序（PyMC/NumPyro）：它在生成阶段用语义约束解码逐片段剪掉非法分布/参数，在精化阶段用贝叶斯诊断指标回溯重采样先验或似然，使得单个开源小模型产出的程序在统计可靠性上能追平甚至超过 GPT-4 / OpenAI o3 等闭源大模型。
RESCUE: Retrieval Augmented Secure Code Generation: RESCUE 针对"安全代码生成"提出一套新的 RAG 框架：离线用"聚类-总结 + 程序切片"把杂乱的漏洞修复数据蒸馏成分层安全知识库，在线用"分层多面检索"从漏洞成因、API 模式、代码三个安全视角主动分析任务并融合检索，在四个基准、六个 LLM 上把兼顾安全与功能的 SecurePass@1 指标平均提升 4.8 个点，刷新 SOTA。
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation: 本文提出 Repository Planning Graph（RPG），把"建什么功能（proposal）"和"怎么实现（implementation）"统一编码进一张显式的图（节点是能力/文件/函数，边是数据流与层级），并基于它构建 ZeroRepo 框架，按"提案级建图 → 实现级建图 → 图引导代码生成"三阶段从零生成整仓代码，在自建的 RepoCraft 基准上做到 81.5% 覆盖率、69.7% 通过率、平均 36K 行代码，规模是最强 baseline（Claude Code）的 3.9×。
Sharing State Between Prompts and Programs: 提出共享程序状态（shared program state）抽象，让 prompt 直接读写程序变量、操作堆对象和控制程序流程，实现为 Nightjar 系统（Python + prompt 混合编程），在保持或提升准确率（+4-19%）的同时减少 39.6% 代码量。
ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code: 提出 ShieldedCode——首个保护感知的代码表征学习框架，通过层次依赖建模（指令内/前序/跨指令三层）和联合功能感知+保护感知对比学习，使 LLM 能够生成、比较和推理虚拟机保护代码，在 VM 代码生成（Pass@1 26.95% vs. GPT-4o 22.58%）和二进制相似性检测上均超越现有方法。
SK2Decompile: LLM-based Two-Phase Binary Decompilation from Skeleton to Skin: SK2Decompile 把二进制反编译拆成“先恢复可编译的程序骨架、再补回语义化标识符”的两阶段 LLM 流程，并分别用编译器反馈和语义相似度奖励做强化学习，从而同时提升反编译代码的可执行性与可读性。
SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification: 这篇论文指出当前 Text-to-SQL 评估"在单个测试库上比执行结果"的做法过于乐观，提出 SpotIt 用 SMT 有界等价验证主动搜索一个能区分生成 SQL 与 gold SQL 的数据库；在 BIRD 上把十个 SOTA 方法的准确率拉低了 9.8%–13.5%，还顺带发现"对不上时往往是 gold SQL 本身错了"。
SWE-RM: Execution-Free Feedback for Software Engineering Agents: 本文指出"测试时扩展（TTS）表现好"并不能保证一个奖励模型在强化学习（RL）里也好用，提出用 TTS + 判别力（AUC）+ 校准（ECE） 三个维度共同衡量奖励模型，并据此训练出 30B-A3B 的免执行奖励模型 SWE-RM，在 SWE-Bench Verified 的 TTS 上把 Qwen3-Coder-Max 从 67.0% 提到 74.6%（开源 SOTA），用作 RL 奖励时比纯执行反馈再涨 3 个点。
SweRank：用代码排序做软件 Issue 定位: SweRank 把"根据 bug 报告找到要改的函数"这件事从昂贵的 LLM agent 多步推理，重构成一次性的"检索 + 重排"排序问题：先用自建大规模数据集 SweLoc 训练一个双编码器检索器（SweRankEmbed）和一个列表式 LLM 重排器（SweRankLLM），在 SWE-Bench-Lite 和 LocBench 上以远低于 Claude-3.5 agent 的成本取得了文件/模块/函数三个粒度的 SOTA 定位准确率。
The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution: 这篇论文用 13 万+ 次代码生成请求 + 数百个全栈框架任务做了一次大规模实证检验，量化出 AI 编程助手对主流语言/框架的成功率显著高于小众技术，揭示了一个与「马太效应」一致的反馈循环——数据丰富的生态获得更好的 AI 支持，从而进一步强化其统治地位。
The Natural Geometry of Code: Hyperbolic Representation Learning for Program Reasoning: 本文主张代码的「自然几何」是双曲空间，提出在数值稳定的 Lorentz 模型上原生运行的图神经网络 HypeCodeNet，用双曲嵌入层、tangent-space 消息传递和测地注意力为 AST 学习低失真的层次化表示，在克隆检测、代码补全、链接预测三类程序推理任务上全面超越欧氏模型，且只用 32 维就能追平 768 维的 SOTA。
TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning: TikZilla 通过构建 200 万级高质量 TikZ 数据集 DaTikZ-V4，并在 SFT 后用基于逆图形学图像编码器的 GRPO 奖励继续训练小型 Qwen 模型，使 3B/8B 开源模型在 Text-to-TikZ 科学图形生成上超过 GPT-4o、自动指标上超过 GPT-5，并显著提高编译率与图形语义对齐。
Training Large Language Models To Reason In Parallel With Global Forking Tokens: 提出 Set Supervised Fine-Tuning (SSFT)，通过二分图匹配将全局分叉令牌 (global forking tokens) 与多样推理轨迹对齐，使 LLM 能从单个控制令牌全局引导不同推理模式，在数学推理和代码生成任务上显著优于标准 SFT 和 GRPO。
VeriEquivBench: An Equivalence Score for Ground-Truth-Free Evaluation of Formally Verifiable Code: 针对「可验证代码生成」评测被人工标注的真值规约卡住规模、还有错的问题，本文提出等价分数（equivalence score）——用 Dafny 验证器自动检查代码与规约的双向蕴含，从而无需真值就能判定规约质量；并据此构建了含 2,389 道复杂算法题的 VeriEquivBench，结果显示连 Claude-4-sonnet 在 pass@4 下都全军覆没。
VERINA: Benchmarking Verifiable Code Generation: VERINA 用 189 道人工精修的 Lean 编程任务，把"可验证代码生成"拆成代码生成（CodeGen）、规约生成（SpecGen）、证明生成（ProofGen）三个可独立、可组合评测的基础任务，并给出一套"定理证明 + 全覆盖测试"的多阶段规约评估器，结果显示即便最强的 o3 也只有 72.6% 代码正确率、52.3% 规约合格率，证明成功率更是低到 4.9%。
VisCoder2: Building Multi-Language Visualization Coding Agents: 针对现有可视化代码模型「语言覆盖窄、跑不通、不会迭代纠错」三大痛点，本文一次性给出数据集（VisCode-Multi-679K，12 种语言、67.9 万条可执行样本）、基准（VisPlotBench，8 种语言、888 个任务）和模型（VisCoder2，3B~32B），让开源模型在执行通过率上首次追平 GPT-4.1（32B 自调试后达 82.4%），尤其在 LilyPond/LaTeX/Asymptote 这类符号/编译型语言上大幅领先。
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning: WebGen-Agent 让一个写代码的 LLM 在每一步迭代里都拿到「网页截图 + GUI agent 实测」的多层级视觉反馈来改网站代码，再把这两个反馈分数当成步级奖励做 Step-GRPO 强化训练，把 Claude-3.5-Sonnet 在 WebGen-Bench 上的准确率从 26.4% 拉到 51.9%、把 7B 小模型从 38.9% 训到 45.4%。