Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards¶

会议: ICLR 2026
arXiv: 2507.03041
代码: https://optimas.stanford.edu/
领域: LLM NLP / 系统优化
关键词: 复合AI系统, 局部奖励函数, 全局对齐, 异构参数优化, 收敛保证

一句话总结¶

提出 Optimas 框架，为复合 AI 系统中每个组件维护一个与全局奖励对齐的局部奖励函数（LRF），使异构组件（prompt、模型参数、超参数、模型选择）可独立优化，在五个真实系统上平均提升 11.92%。

研究背景与动机¶

领域现状：现代 AI 系统越来越多地集成 LLM、检索器、工具调用、传统 ML 模型等多个组件，形成复合 AI 系统来处理复杂任务。这些系统对组件故障高度敏感——一个组件的错误会沿 pipeline 级联放大。

现有痛点：(a) 组件间不可微分，无法端到端梯度优化；(b) 配置空间高度异构——文本 prompt、连续超参数、模型权重、离散模型选择等需要完全不同的优化策略；(c) 每次评估全局性能都需运行完整系统，成本高昂，数据效率低下。

核心矛盾：现有方法（DSPy 优化 prompt、TextGrad 用文本反馈优化、OPRO 单步优化）只能处理单一类型的参数。即使各组件独立优化到最佳，上游组件也无法感知下游偏好，组件间协作可能是次优的。缺乏统一框架来同时优化异构配置。

核心idea：为每个组件学习一个局部奖励函数（LRF），只要 LRF 与全局奖励保持对齐（即局部最优方向与全局一致），就可以用各组件最适合的方法独立优化，无需频繁运行全系统。这本质上将联合优化分解为多个独立的坐标优化问题。

方法详解¶

整体框架¶

复合系统建模为 DAG \(\mathcal{G}=(\mathcal{C},\mathcal{E})\)，包含 \(K\) 个组件 \(\{C_k\}_{k=1}^K\)。每个组件 \(C_k\) 有配置策略 \(\mathbf{v}_k\)（可以是 prompt、超参或模型权重）。系统支持动态规划——对不同输入 \(x\)，组件间连接 \(\mathcal{E}(x)\) 可以自适应变化。输入按拓扑序经过各组件产生输出 \(y=f(x;\mathbf{v})\)，目标是最大化 \(\mathbf{v}^{\star}=\arg\max_{\mathbf{v}} \mathbb{E}_{x\sim\mathcal{D}}[R(x,f(x;\mathbf{v}))]\)。

关键设计¶

局部奖励函数（LRF）：
- 功能：对每个组件 \(C_k\) 学习评分函数 \(r_k(x_k,y_k)\)，评估其输出对全局性能的贡献
- 核心思路：所有 LRF 共享 LLM backbone \(\phi\)，加组件特定线性投影头 \(h_k\)：\(r_k(x_k,y_k) = h_k \circ \phi([x_k, y_k])\)。共享 backbone 保证扩展性，独立头捕获组件特异性
- 对齐性质（关键）：如果 \(r_k(x_k,y_k^+) \geq r_k(x_k,y_k^-)\)，则用 \(y_k^+\) 替换后的下游系统全局奖励也应更高。训练时用 pairwise log-sigmoid ranking loss：\(\mathcal{L}_k = -\mathbb{E}[\log\sigma(r_k(x_k,y_k^+)-r_k(x_k,y_k^-))]\)，偏好数据通过 Monte Carlo 采样下游输出构造
- 设计动机：将全局优化分解为独立局部优化的理论基石——Theorem 4.1 证明最小化此 loss 的 LRF 必然满足对齐性质
- 自适应 LRF 更新：
- 功能：配置变化时轻量级更新 LRF 保持对齐
- 核心思路：Stage 1 初始离线训练 LRF 至收敛；Stage 2 每次配置更新后仅采样小批量偏好数据在线 adaptation，维护历史 buffer 提升稳定性
- 设计动机：系统配置变化后 LRF 会过时（上游更新改变了同一输出的全局价值，下游更新使 LRF 面临分布外输入）。避免从头重训 LRF 的昂贵开销
- 异构组件优化：
- 文本 prompt：用 OPRO 按 LRF 平均分数排序候选 prompt 选最优
- 可训练模型（如 LLM）：用 PPO 等 RL 算法，以 LRF 作为 critic
- 离散/低维连续配置（模型选择、超参）：构建基于 LRF 分数的概率分布采样更新
- 验证门控：仅当小验证集上全局奖励提升时才接受新配置，防止级联错误

理论保证¶

Theorem 4.1：LRF 的 ranking loss 最小化器满足局部-全局对齐性质，且最大化 LRF 与最大化条件全局奖励具有相同解
Theorem 4.2：在紧致性和唯一分量最优条件下，Optimas 收敛到 component-wise maximum（坐标最大化经典结果的直接推论）

实验关键数据¶

主实验（五个真实复合系统）¶

系统	任务	Unoptimized	DSPy	TextGrad	Optimas	相对提升
Amazon 产品推荐	Acc	21.21	18.18	20.88	24.24	+14.3%
PubMedQA 医疗	Acc	57.46	60.26	56.96	69.13	+1.8%
STaRK-Prime 检索	MRR	40.73	41.40	41.31	50.54	+22.1%
HotpotQA RAG	F1	33.80	44.90	24.86	50.48	+12.4%
BigCodeBench 代码	Pass	36.67	33.81	35.71	38.92	+9.0%

消融与关键分析¶

配置	说明
Optimas (完整)	全部组件使用对齐 LRF 独立优化，5 个系统全部提升
w/o LRF adaptation	下降 2-5%，LRF 不更新导致对齐退化
Global reward only	下降 3-8%，缺乏局部信号数据效率低
DSPy (仅prompt)	在 Amazon 推荐上反而下降 14.3%，优化单一配置类型不可靠

Optimas 是唯一在全部 5 个任务上都提升性能的方法；DSPy 和 TextGrad 在部分系统上反而降低性能
LRF 排序准确率平均 77.96%，远超 LLM Judge (49.52%)，说明学习的 LRF 比直接用 LLM 打分更可靠
系统运行次数平均 0.71k vs DSPy 0.79k，数据效率更高
LRF 的 adaptive update 是长期效果的关键——不更新时后期性能退化明显

关键发现¶

异构配置联合优化是决定性因素：仅优化 prompt 在行为驱动推荐（需要超参调整）上失效
LRF 的对齐性质在实践中确实成立——局部改进一致地带来全局提升
复合系统中的瓶颈组件各不相同：Amazon 推荐的瓶颈在超参，HotpotQA 的瓶颈在 prompt

亮点¶

统一框架处理异构配置优化，DSPy/TextGrad 只能单类型
LRF 对齐有严格理论保证（收敛到分量最优）
共享 backbone + 独立头的 LRF 架构可扩展且内存高效
5 个真实系统上一致提升，DSPy 在 Amazon 上反而下降 14.3%

局限与展望¶

坐标最大化在非凸问题中只保证分量最优，非全局最优
LRF 在线适配仍需少量系统运行和 Monte Carlo 采样，成本并非为零
实验中组件数量有限（2-5个），更大规模系统的可扩展性未验证
LRF 共享 backbone 在组件输入分布差异极大时可能学习冲突表征

与相关工作的对比¶

DSPy/TextGrad: 仅优化 prompt，不支持异构配置；DSPy 在部分任务上性能不稳定
OPRO: 单步生成优化，无法处理多组件多步骤
LLMSelector: 仅做模型路由，系统运行成本 3x 于 Optimas
过程奖励模型: 依赖人工标注或 MCTS，Optimas 通过偏好自动构造对齐数据

评分¶

新颖性: ⭐⭐⭐⭐ (LRF 对齐思路新颖，统一异构优化)
实验充分度: ⭐⭐⭐⭐⭐ (5 个真实系统 + 丰富消融 + 理论分析)
写作质量: ⭐⭐⭐⭐ (结构清晰，图表丰富)
价值: ⭐⭐⭐⭐ (复合 AI 系统优化是重要方向)