Reward is Enough: LLMs are In-Context Reinforcement Learners¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=keCXNHOe4W
代码: 无
领域: 强化学习 / 测试时扩展 / LLM 推理
关键词: 上下文强化学习, ICRL, 测试时自我改进, 标量奖励, 多轮 prompting

一句话总结¶

本文发现 LLM 在推理阶段就能涌现出强化学习行为（in-context RL，ICRL）：只需把过去的回答和对应的标量奖励拼进上下文、反复多轮 prompting，模型的回答质量就会随上下文增长而单调提升，在 Game of 24、创意写作、ScienceWorld、AIME/HMMT 上显著超过 Self-Refine 和 Reflexion，且即使奖励由模型自己打分也依然有效。

研究背景与动机¶

领域现状：要让 LLM 在新任务上当好 agent，它必须能在推理时自我改进，这就是「测试时扩展」（test-time scaling）。Sutton 指出能利用算力换性能的只有两条路——搜索（search）和学习（learning）。在 LLM 上，搜索这条路已经被充分挖掘：从 Best-of-N，到 Tree-of-Thoughts，再到 MCTS，都是在推理时靠外部搜索结构提升表现。

现有痛点：相比之下，「学习」这条路在推理时几乎被忽略。上下文监督学习（ICL）虽然也是一种推理时学习，但它需要专家示范作为 ground-truth 标签，而这种示范数据在推理时难以规模化获取，限制了它在测试时扩展中的适用性。强化学习是最强的「不依赖人类知识的自我改进」算法，但它的成功几乎都发生在模拟环境里、或者 LLM 的训练阶段（如 RLHF / R1），从未被验证能在 LLM 的推理阶段自发出现。

核心矛盾：现有的 ICRL 工作大多局限在 bandit 或小规模模拟环境，用从头训练的小模型，且常常需要人工干预，在自然语言这种开放动作空间上完全没打开局面。真实世界是「大世界」（big world）——环境远比 agent 复杂，agent 会不断遇到训练数据之外的情况，必须在推理时就地适应，而不是每遇到新情况就花大价钱重训。

本文目标：验证一个问题——强化学习能否在 LLM 的推理阶段（即前向传播）自发涌现？如果能，就能优雅地同时满足两个需求：LLM 提供通用的初始策略，RL 提供持续自我改进的能力。

切入角度：作者坚持一个「极简主义」（minimality）原则。为了证明性能提升真的来自 LLM 内在的 RL 能力、而不是各种外挂机制，他们刻意剔除了文本梯度、优先经验回放、采样启发式、额外工程模块——唯一给模型的监督信号就是那个标量奖励本身。这正好呼应了 Sutton 的「奖励假说」和 Silver 的「reward is enough」假说。

核心 idea：用一个极简的多轮 prompting 框架（ICRL prompting）——每轮把「过往所有回答 + 对应的标量奖励」拼成上下文，再加一句探索/利用的元指令，喂回给同一个 LLM——让模型在推理时把标量奖励信号最大化，表现得就像一个 RL 算法。

方法详解¶

整体框架¶

ICRL prompting 把「LLM 的多轮自我改进」直接对应到 RL 的 MDP 框架上：把 LLM 当作策略 \(\pi_\theta\)（参数 \(\theta\) 全程不更新），把 token 生成过程当作 agent-environment 交互（状态 = 已生成的 token，动作 = 下一个 token），把每轮回答叫一个 episode，并为回答提供一个标量奖励。和 ICL 把 \((x, y)\) 对放进上下文类似，ICRL 把「状态-动作-奖励」三元组连同简单的元指令放进上下文。

整个流程是一个外层循环（Algorithm 1）：维护一个经验缓冲区 \(B\)；第 \(k\) 个 episode 开始时，把缓冲区里所有历史（过往回答 + 奖励）、任务描述 \(s_{\text{task}}\)、ICRL 元指令 \(s_{\text{ICRL}}\) 拼成初始 prompt \(S_0\)；让 LLM 执行策略生成完整回答；用奖励函数 \(r\) 给回答打分；把「动作序列 + 各步奖励」推回缓冲区 \(B\)；进入下一个 episode。关键观察是：随着上下文（缓冲区）增长，回答质量持续上升——由于 \(\theta\) 固定，这种提升只能来自上下文的增长，因此本质上就是「上下文内的策略改进」（in-context policy improvement）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["任务描述 s_task"] --> B["LLM 作为策略<br/>πθ（θ 不更新）"]
    H["经验缓冲区 B<br/>历史回答 + 奖励"] --> B
    I["ICRL 元指令 s_ICRL<br/>探索 / 利用"] --> B
    B --> C["生成本轮完整回答"]
    C --> D["奖励函数 r 打分<br/>规则 / 环境 / LLM 自评"]
    D -->|"(动作,奖励) 推回缓冲区"| H
    D -->|上下文增长 K 轮后| E["质量随上下文单调提升<br/>= 上下文内策略改进"]

关键设计¶

1. LLM 即策略 + 标量奖励即唯一监督：把多轮 prompting 改写成 RL

这针对的痛点是：以往推理时自我改进要么靠搜索（外部结构），要么靠文本式自我修正（Self-Refine / Reflexion 那种「给一段自然语言反馈再让模型改」），后者依赖模型对任务的参数化知识，容易累积幻觉反馈、迭代几轮后性能崩塌。本文的做法是把每轮回答看成一个 episode 的动作序列，回答后只给一个数值标量奖励 \(R_{t+1} \doteq r(S_{t+1})\)，并且显式在数字前写上「Reward:」这个词告诉模型这是奖励。下一轮的初始 prompt \(S_0\) 由「缓冲区历史 + \(s_{\text{task}}\) + \(s_{\text{ICRL}}\)」拼成，模型必须自己从历史的「回答↔奖励」模式里推断出更好的回答——这正是 RL「从奖励里学」而非「按指令改」的本质区别。和 Self-Refine/Reflexion 的对比，本质上就是标量反馈 vs 文本反馈之争，而标量反馈不会像文本反馈那样把幻觉一路放大。

2. 奖励函数的极简与灵活：连「外部反馈」都可以不要

奖励 \(r\) 可以是稀疏的（只有终止状态 \(R_T\) 非零，对应 outcome reward）或稠密的（非终止状态也能非零，对应 progress reward）；来源可以是规则、单独训练的模型、或者同一个 LLM 的自评。最反直觉的设计是后者：当 \(r\) 就是 LLM 自己对答案的打分时，框架里其实没有任何外部反馈，但作者依然期望回答会越改越好。其底层假设是「评估比生成更容易」——模型也许写不出最优解，但能识别出哪个回答更好，于是把这种「会评不会写」的不对称转化成改进。作者同时诚实地提出一个假设：纯自评的性能天花板会低于有外部反馈时的天花板（实验里 Game of 24 和创意写作就是纯自评，数学/ScienceWorld 用真实奖励）。为了保证提升真的来自 LLM 的内在 RL 能力，框架刻意排除了文本梯度、经验回放、采样启发式等一切外挂——这种「极简」既是设计也是证明手段。

3. 经验缓冲区 + 探索/利用元指令：让上下文承载「策略」并平衡探索利用

经验缓冲区 \(B\) 把过往 episode 的回答和奖励尽可能多地（在上下文窗口允许范围内）拼进当前 prompt，因为本文的核心假设是「预训练 LLM 已经天生具备 ICRL 能力」，只要把经验摆进上下文，模型就能在前向传播里「就地强化学习」。在此之上，作者用自然语言元指令 \(s_{\text{ICRL}}\) 显式注入 RL 里经典的探索-利用权衡，分三类指令：探索指令（要求给出与所有历史回答都不同的新回答）、利用指令（要求基于历史中奖励最高的回答生成最佳回答）、以及「探索或利用」指令。由此衍生两种策略：ICRL Preset——按 episode 奇偶交替使用探索/利用指令；ICRL Autonomous——每轮都给「探索或利用」指令，让 LLM 自己决定该探索还是利用。消融显示，正是这种探索能力让 ICRL 区别于 Best-of-N：它能生成比探索阶段见过的任何回答都更好的新回答，而不只是从历史里挑一个最好的。

一个例子：Game of 24¶

给定四个数字，要求每个数字恰好用一次、只用加减乘除得到 24。用 GPT-4.1 既当策略 \(\pi_\theta\) 也当奖励 \(r\)（同一模型、不同 prompt）。任务描述里用 CoT 让模型分 4 个思考步给出完整解，并附 5 个 in-context 示范保证格式。真实奖励 \(r^*\) 用 SymPy 符号计算验证表达式是否等于 24；但算法拿不到 \(r^*\)，只能用 GPT-4.1 对每个思考步在「用剩余数字够到 24 的可能性」上打 0–3 分（0=不可能，3=确定）作为可访问的 \(r\)。每个 episode 只有 4 个奖励（对应 4 步），就只把这 4 个奖励、各自打上「Reward:」标签、紧跟在对应动作后拼进 \(S_0\)。随着 trial 增多，ICRL Preset 的成功率曲线呈现明显的「探索-利用交替」式振荡并稳步抬升，50 轮后达到 90%，而 Best-of-N（即便用真实 \(r^*\) 挑最优）只有 49%、Self-Refine 47%、Reflexion 44%。

实验关键数据¶

主实验¶

四个任务上 ICRL 全面超越自我修正类基线（Self-Refine / Reflexion）和搜索类基线（Best-of-N）：

任务	指标	ICRL (Ours)	Best-of-N	Self-Refine	Reflexion
Game of 24	成功率（50 trial）	90% (Preset)	49%	47%	44%
创意写作	LC 胜率（vs 对应基线）	—	93.81%	86.32%	59.48%
ScienceWorld	平均 return	比基线高约 20%	—	—	—

注：创意写作用 Length-Controlled Alpaca-Eval 2.0 算 ICRL 对各基线的成对胜率；Game of 24 里 Best-of-N 还额外用了真实奖励 \(r^*\) 挑最优，仍大幅落后。

跨模型 / Olympiad 数学（Table 4，32k 上下文，CW=创意写作）：

模型	方法	HMMT	AIME	CW
Qwen3-32B	Base	9.14	22.54	34.14
Qwen3-32B	ICRL	33.33	46.66	50.00
Llama-4 Maverick	Base	8.50	17.58	—
Llama-4 Maverick	ICRL	20.00	35.00	50.00

ICRL 在所有模型/任务上一致超越 Self-Refine 和 Reflexion，相比 base 模型常有 10–20 分的提升。

消融实验¶

配置	效果	说明
Full (ICRL Preset/Autonomous)	最佳曲线	完整框架，对 prompt 设置很鲁棒
Zero Rewards（奖励全置 0）	明显下降	去掉奖励信号，验证「奖励缺失则退化」
Short Context（只留近 3 个 episode）	明显下降	上下文变短性能掉，验证「上下文增长是关键」
Exploration Only（只探索、无奖励）	显著差于完整	证明提升不是「探索后挑最优」的 Best-of-N
Exploitation Only（只利用、有奖励）	接近最佳	带奖励的利用也很强，说明奖励信号是核心
No ICRL Instruction（去掉元指令）	下降	元指令有帮助

关键发现¶

「奖励缺失就退化、上下文越长越好」是 RL 的「鸭子测试」：作者把「奖励最大化、探索-利用权衡、上下文增长带来提升、短上下文掉点、无奖励掉点」这五个现象全部观测到——这些都是 RL 算法该有的行为，因此推断推理过程里确实涌现了 RL。
探索能力是 ICRL 区别于搜索的关键：「只探索无奖励」的 running-max 曲线显著低于 ICRL，说明 ICRL 不是靠「多采样再挑最好」，而是能生成比探索阶段见过的更优的新回答。
真·测试时学习而非测试时搜索：在「为模型训练截止后发表的 arXiv 论文写摘要」（ground-truth 不在训练数据里）这一设置下，Best-of-N 和 Reflexion 很快停滞，而 ICRL 仍能持续改进——证明它是从外部奖励里学，而非在参数化知识里搜。
上下文长度即算力效率：Qwen3-32B 在 8k/16k/32k 上下文下，ICRL 的创意写作 LC 胜率稳定在 50%、AIME 从 40% 升到 46.66%，单位算力性能均优于 Self-Refine/Reflexion。

亮点与洞察¶

把「多轮 prompting」严格对齐到 MDP：状态=已生成 token、动作=下一个 token、episode=一轮回答，这套映射让「LLM 推理时自我改进」第一次能用 RL 语言精确描述，且 \(\theta\) 全程不动，提升只能归因于上下文——逻辑闭环很干净。
极简主义既是设计也是论证：刻意剔除文本梯度/经验回放/采样启发式，把唯一监督收缩到标量奖励，从而把「LLM 内在 RL 能力」从外挂机制里隔离出来——这种「做减法以做证明」的思路很值得借鉴。
自评奖励也有效，指向纯内生的测试时扩展：当奖励由同一 LLM 打分时框架内毫无外部信息，却仍能改进，把「评估易于生成」的不对称转化成新的 test-time scaling 范式——可迁移到任何「能自评但难一次写对」的开放任务（如代码、写作、规划）。

局限与展望¶

作者自己承认：纯自评（无外部反馈）时性能天花板低于有外部反馈时——自评 ICRL 的上限受限于模型的评估能力。
框架强依赖长上下文能力：缓冲区要把尽量多的历史拼进上下文，受上下文窗口和算力预算约束；Self-Refine 在创意写作里就因上下文过度增长先 plateau 后下滑。
「涌现 RL」是基于行为现象的「鸭子测试」式归因，并未从机理（前向传播究竟实现了什么 RL 算法）层面给出证明，留待后续机制可解释性工作。
实验主要在文本任务和几个 benchmark 上，是否能扩展到更长程、更稀疏奖励的真实「大世界」任务仍待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统论证「RL 能在 LLM 推理阶段涌现」，并用极简框架把现象隔离出来，视角新且干净。
实验充分度: ⭐⭐⭐⭐ 覆盖 4 类任务 + 多个开源/闭源模型 + 6 项消融 + 上下文长度/测试时学习 vs 搜索分析，较全面；机理层面证据偏行为现象。
写作质量: ⭐⭐⭐⭐⭐ 动机推导（big world、reward is enough）和「鸭子测试」论证逻辑清晰、可读性强。
价值: ⭐⭐⭐⭐⭐ 提出一个新的 test-time scaling 范式，连自评奖励都有效，对 LLM agent 持续自我改进有直接启发。