REVOLVE: Optimizing AI Systems by Tracking Response Evolution in Textual Optimization¶
会议: ICML 2025
arXiv: 2412.03092
代码: 无
领域: 视频理解
关键词: 文本优化, LLM系统优化, 响应演化, TextGrad, 提示工程
一句话总结¶
REVOLVE 通过跟踪 LLM 系统中响应在迭代过程中的"演化"趋势来指导优化,比 TextGrad 等基于即时反馈的方法更稳定高效,在提示优化、方案改进和代码优化上分别提升 7.8%、20.72% 和 29.17%。
研究背景与动机¶
领域现状¶
领域现状:领域现状**: LLM 系统 (包含 prompt + 工具交互) 在复杂任务中表现出色,但针对特定任务的优化仍依赖手工 prompt engineering 和超参调优。
现有痛点: TextGrad 等自动优化方法利用 LLM 的文本反馈作为"梯度"进行迭代改进,但仅关注即时反馈(类似数值梯度下降中只看当前导数),当调整过小或不稳定时容易停滞或震荡。
核心矛盾: 即时反馈 vs 趋势感知——仅看当前步的改进方向不足以做出全局最优的调整决策。
本文切入: 类比数值优化中使用动量/加速梯度等历史信息,引入跨迭代的响应演化历史来指导优化。
核心 idea: 在每步优化时,不仅提供当前反馈,还提供响应如何随时间演化的信息,使 LLM 能做出更有远见的渐进式调整。
解决思路¶
本文目标:### 整体框架 输入:待优化的 LLM 系统 (prompt / solution / code) → 多次迭代 → 每步记录响应 + 评估 → 汇总演化趋势 → LLM 根据演化历史生成改进建议 → 更新系统 → 直到收敛。
方法详解¶
整体框架¶
输入:待优化的 LLM 系统 (prompt / solution / code) → 多次迭代 → 每步记录响应 + 评估 → 汇总演化趋势 → LLM 根据演化历史生成改进建议 → 更新系统 → 直到收敛。
关键设计¶
-
响应演化追踪:
- 记录每次迭代的完整响应和评分
- 构建演化轨迹:\((r_1, s_1) \to (r_2, s_2) \to ... \to (r_t, s_t)\)
- 向 optimizer LLM 提供不仅是当前改进方向,还有完整的演化趋势
- 设计动机:类比动量法,利用历史信息避免短视优化
-
自适应调整策略:
- 当改进变缓:加大调整力度(类比加速梯度)
- 当出现震荡:稳定调整方向
- 当持续改进:保持当前方向
- 设计动机:针对不同优化阶段采用不同策略
-
通用框架应用:
- Prompt 优化:改进 system prompt 以提升任务准确率
- Solution 改进:迭代优化自然语言或结构化方案
- Code 优化:逐步修复和改进代码实现
- 设计动机:统一的文本优化范式适用于多种 LLM 系统场景
损失函数 / 训练策略¶
- 无传统意义上的损失函数,而是用任务 metric 作为评估信号
- LLM 作为 optimizer,根据演化历史生成文本形式的"梯度"
实验关键数据¶
主实验¶
| 任务类型 | 指标 | REVOLVE | TextGrad | 提升 |
|---|---|---|---|---|
| Prompt 优化 | 准确率 | 最优 | 基线 | +7.8% |
| Solution 改进 | 质量分 | 最优 | 基线 | +20.72% |
| Code 优化 | 通过率 | 最优 | 基线 | +29.17% |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 完整 REVOLVE | 最优 | 演化追踪 + 自适应调整 |
| 无演化追踪 | 下降 | 退化为类似 TextGrad |
| 仅看最近2步 | 部分下降 | 历史太短难以判断趋势 |
| 固定调整策略 | 下降 | 缺乏自适应能力 |
关键发现¶
- REVOLVE 在更少迭代次数内收敛,节省计算成本
- 演化趋势信息对避免优化停滞和震荡至关重要
- 在代码优化任务上提升最为显著 (+29.17%),因为代码修改需要更稳定的方向
亮点与洞察¶
- 跨学科类比:将数值优化中的动量/加速梯度思想迁移到文本优化
- 简洁有效:不需要修改底层 LLM,只修改 optimizer prompt 的信息组织方式
- 通用性强:同一框架适用于 prompt/solution/code 多种优化场景
局限与展望¶
- 历史信息增长可能超出 LLM 上下文窗口
- 评估信号的质量直接影响优化效果
- 需要更多 LLM 调用(记录和分析演化历史)
相关工作与启发¶
- TextGrad (Yuksekgonul et al. 2024) 是直接前驱
- OPRO (Yang et al. 2024) 用 LLM 优化 prompt
- 启发:经典优化理论中的许多策略可以"翻译"到 LLM 文本优化中
评分¶
- 新颖性: ⭐⭐⭐⭐ 将优化理论洞察迁移到文本优化,思路清晰
- 实验充分度: ⭐⭐⭐⭐ 三个场景全面验证
- 写作质量: ⭐⭐⭐⭐ 类比传统优化的叙述方式易于理解
- 价值: ⭐⭐⭐⭐ 实用性强的 LLM 系统优化工具