SolidCoder: Bridging the Mental-Reality Gap in LLM Code Generation through Concrete Execution¶

会议: ACL 2026
arXiv: 2604.19825
代码: https://github.com/10kH/SolidCoder
领域: 代码生成 / LLM Agent
关键词: 代码生成, 心理模拟, 执行验证, 多智能体, 属性测试

一句话总结¶

SolidCoder 通过 S.O.L.I.D. 架构（Shift-left Planning、Oracle-based Assertions、Live Execution、Intermediate Simulation、Defensive Accumulation）将代码验证从 LLM 的"想象执行"转变为"真实执行"，在 GPT-4o 上达到 HumanEval 95.7%、CodeContests 77.0%、APPS 26.7% 的 pass@1 性能。

研究背景与动机¶

领域现状：当前最先进的代码生成框架（如 MapCoder、CodeSIM）采用多智能体架构，其中 CodeSIM 通过"心理模拟"（Mental Simulation）让 LLM 在内部追踪代码执行来验证正确性，在多个基准上取得了领先结果。

现有痛点：心理模拟存在根本缺陷——LLM 会产生执行幻觉。在复杂的算法场景中，模型会"想象"出与实际程序行为不符的执行轨迹，自信地验证有 bug 的代码。这就像蒙眼下棋却宣布胜利一样。CodeSIM 团队曾尝试通过自一致性来增强测试用例，结果性能下降了 9.3%，因此放弃了执行验证。

核心矛盾：Mental-Reality Gap（心理-现实鸿沟）沿两个正交维度展开：(1) Specification Gap——在规划阶段忽视边界情况；(2) Verification Gap——在验证阶段幻觉出正确的执行轨迹。这两个问题独立存在，修复一个不能解决另一个。

本文目标：同时弥合两个维度的鸿沟，既让模型在规划阶段考虑边界情况，又用真实执行替代想象执行进行验证。

切入角度：作者观察到 CodeSIM 测试生成失败的原因不是测试生成本身，而是试图预测精确输出。验证不需要精确答案——通过检查属性（如"输出长度等于输入长度"、"结果是输入的排列"）而非精确值，就可以在没有 oracle 的情况下判断正确性。

核心 idea：用基于属性的断言（property-based assertions）替代精确输出预测，结合沙盒执行，将验证从"想象"变为"执行"——don't imagine, execute。

方法详解¶

整体框架¶

SolidCoder 建立在 CodeSIM 的三智能体架构（Planning Agent、Coding Agent、Debugging Agent）之上，加入 S.O.L.I.D. 五个组件。输入为自然语言问题描述，经过 Planning Agent 生成带有边界情况意识的算法规划，Coding Agent 将规划翻译为代码并经过中间模拟检查，然后进入 Live Verification 循环：生成基于属性的测试用例、在沙盒中执行、累积失败用例进行回归防护，最终输出通过所有测试的代码。

关键设计¶

Shift-left Planning (S):
- 功能：在算法规划之前强制识别边界情况
- 核心思路：提示 LLM "什么最坏情况的输入可能破坏一个朴素解法？"，将识别出的边界情况（空输入、边界值、角落情况）注入规划 prompt，迫使模型从一开始就设计鲁棒的算法。传统方法在 debug 阶段才反应式地处理边界情况，此方法将其"左移"到规划阶段
- 设计动机：消融实验显示移除该组件导致 -23.7%p 的下降，证明边界情况盲目性是算法竞赛问题中的主要失败模式
Oracle-based Assertions (O) + Live Execution (L):
- 功能：用基于属性的验证和真实执行替代心理模拟
- 核心思路：Oracle 部分生成领域不变的属性断言（如排序函数应保持长度、维持有序性、产生排列），将验证从"这个输出正确吗？"转变为"这个输出满足必要属性吗？"——后者可以通过执行来回答。Live Execution 在沙盒环境中（5秒超时、文件系统受限）运行代码，遇到断言失败或运行时错误则路由到 debug
- 设计动机：解决了"缺失 Oracle 问题"——无需知道正确答案就能验证代码。移除 O 导致 -11.6%p，移除 L 导致 -7.9%p 的下降
Intermediate Simulation (I) + Defensive Accumulation (D):
- 功能：I 是代码生成后的快速预筛；D 防止迭代 debug 中的回归
- 核心思路：I 在代码生成后立即让 LLM 在样例输入上追踪代码。与 CodeSIM 不同，I 不提供最终裁决——Live Execution 才是权威判定。D 维护一个持久测试套件，每次 Live Execution 发现失败用例就加入累积测试集，每次代码修改后必须通过所有累积测试，提供单调性保证
- 设计动机：I 作为成本效益高的预过滤器，D 提供 -6.7%p 的回归防护贡献

损失函数 / 训练策略¶

本文是推理时框架，不涉及模型训练。核心超参数为 \(p=5\) 规划迭代、\(d=5\) debug 迭代、\(a=3\) 假设打破迭代，均沿用 CodeSIM 设置。

实验关键数据¶

主实验¶

基准	模型	CodeSIM	SolidCoder	提升
HumanEval	GPT-4o	95.1%	95.7%	+0.6%p
CodeContests	GPT-4o	72.7%	77.0%	+4.3%p
APPS	GPT-4o	23.3%	26.7%	+3.4%p
CodeContests	GPT-OSS-120B	87.9%	92.1%	+4.2%p
CodeContests	Grok-4.1-Fast	95.2%	98.2%	+3.0%p

消融实验（CodeContests, GPT-4o）¶

配置	Pass@1	Δ
Full SolidCoder	77.0%	–
w/o Shift-left Planning [S]	53.3%	-23.7%p
w/o Intermediate Simulation [I]	64.0%	-13.0%p
w/o Oracle-based Assertions [O]	65.4%	-11.6%p
w/o Live Execution [L]	69.1%	-7.9%p
w/o Defensive Accumulation [D]	70.3%	-6.7%p
GPT-4o Direct	42.4%	-34.6%p

关键发现¶

Shift-left Planning 贡献最大（-23.7%p），证明边界情况盲目性是算法任务的主要失败模式，而非执行幻觉
Live Execution 捕获的是分类上不同的错误，心理模拟会错误地验证这些 bug 代码。虽然绝对贡献小于 [S]，但这类错误无法通过改善规范来解决
改进与难度成正比：HumanEval（简单）仅 +0.6%p，CodeContests（中等）+4.3%p 增幅最大，APPS（困难）瓶颈从验证转移到生成本身
RL 后训练模型（GPT-OSS-120B、Grok-4.1-Fast）同样受益，说明即使模型生成能力提升，推理时仍依赖心理模拟做自我评估

亮点与洞察¶

属性测试替代精确输出预测是核心创新：将不可解的 oracle 问题转化为可执行的属性验证问题，思路非常巧妙且具有广泛迁移价值
两维度分解的分析框架（Specification Gap + Verification Gap）让问题分析更加清晰，消融实验完美地验证了两者独立且互补
Shift-left 思想源自软件工程，将测试左移到规划阶段的做法可以迁移到其他多智能体推理框架，如数学推理或科学推理任务中

局限与展望¶

Live Execution 目前仅支持 Python，扩展到其他语言需要语言特定的沙盒化
评估聚焦于函数级基准，未在仓库级任务（如 SWE-bench）上验证
当 LLM 同时生成代码、属性和验证测试时，系统性偏差可能传播
Token 开销显著：CodeContests 上 +50%，HumanEval 上 +97%；可考虑难度感知路由来优化效率
消融实验仅覆盖 CodeContests + GPT-4o 一个组合

评分¶

新颖性: ⭐⭐⭐⭐ Mental-Reality Gap 的二维分解和属性测试解决 oracle 问题是有意义的创新，但整体架构增量式
实验充分度: ⭐⭐⭐⭐ 三个基准、三个模型、完整消融；但消融仅在一个组合上做
写作质量: ⭐⭐⭐⭐⭐ 动机讲解清晰，"蒙眼下棋"的比喻生动，Figure 2 的对比示例直观有说服力
价值: ⭐⭐⭐⭐ 属性测试思路具有广泛迁移价值，但 token 开销和 Python 限制降低实用性