Trinity: An Evolved LLM Coordinator¶

会议: ICLR 2026
arXiv: 2512.04695
代码: 无（Sakana AI）
领域: 强化学习 / LLM协作
关键词: LLM协调, 模型组合, 进化策略, CMA-ES, 多角色协作, test-time composition

一句话总结¶

Trinity设计了一个轻量级coordinator（0.6B SLM + ~10K可训练参数的head），通过sep-CMA-ES优化，在多轮对话中将查询分配给不同LLM并指定Thinker/Worker/Verifier三种角色，在LiveCodeBench上达到86.2% pass@1的SOTA，在4个分布内和4个分布外任务上一致超越所有单模型和多agent基线。

研究背景与动机¶

领域现状：LLM scaling law虽有效但代价高昂、收益递减。模型合并（model merging）受限于架构不兼容和闭源API。宏观层面的test-time模型组合（coordination）是一个有前景的替代方向。

现有痛点：(1) 现有routing/coordination方法（MasRouter、RouterDC、Smoothie等）无法有效利用多样化模型的互补优势，某些方法甚至降低性能到不如随机选择；(2) 缺乏对输入查询的丰富上下文理解来做出有效的delegation决策。

核心矛盾：Coordinator需要足够的语义理解力来正确分配任务，但又不需要（也不应该）像底层agent那样强大。如何用最少的参数学到最有效的coordination策略？

本文目标：(1) 如何从小模型的内部表示中提取足够的语义信号用于coordination？(2) 如何在极端参数预算（~10K）下优化coordination策略？(3) 如何设计有效的多轮协作模式？

切入角度：利用SLM隐藏状态（而非生成文本）作为上下文表示，用极轻量级head做routing决策，通过进化策略而非RL进行优化。

核心 idea：小模型的hidden states包含足够的语义信号，一个<20K参数的head就能协调多个顶级LLM超越任何单一模型。

方法详解¶

整体框架¶

Trinity 把"用哪个 LLM、让它扮演什么角色"这件事交给一个极轻量的协调器（coordinator）决定，而被协调的顶级 LLM 本身一字不改。协调器是一个 Qwen3-0.6B 小语言模型（SLM）外挂一层线性头（head）：每一轮把到目前为止的完整对话 transcript 喂给 SLM，从它倒数第二个 token 的 hidden state 读出两组 logits——一组在 \(L\) 个候选 LLM 里选一个、一组在 Thinker/Worker/Verifier 三种角色里选一个；选定后消息模块给该 LLM 注入对应角色的 prompt 并取回输出，把输出接进 transcript 进入下一轮，直到 Verifier 判定 ACCEPT 或达到轮次上限 \(K\) 才停。协调器那层 head 的参数则在离线阶段用 sep-CMA-ES 这种进化策略训出来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["查询 Q + 历史<br/>对话 transcript"] --> C["超轻量参数化<br/>0.6B SLM 读 transcript<br/>取倒数第二 token 的 hidden state"]
    C --> H["线性 head → 两组 logits<br/>选 1 个 LLM + 选 1 个角色"]
    OPT["sep-CMA-ES 优化<br/>仅训 head + SVD 奇异值<br/>（&lt;20K 参数）"] -. 离线训练 .-> H
    H --> M["消息模块注入<br/>角色专属 prompt"]
    M --> R["三角色协调<br/>选中 LLM 扮<br/>Thinker / Worker / Verifier 并推理"]
    R --> D{"Verifier 判 ACCEPT<br/>或达轮次上限 K?"}
    D -->|"否：输出接入 transcript"| Q
    D -->|是| OUT["返回最终答案 O_τ"]

关键设计¶

1. 超轻量参数化：让协调头只学"怎么分配"而不重学语言能力

协调器要有足够语义理解力把任务派对，又不该像底层 agent 那样昂贵——Trinity 把真正可训练的部分压到不到 20K 参数（比常规微调小几个数量级），核心是只在两处下手。一是 head 本身，它是一层线性映射，把 hidden state \(h \in \mathbb{R}^d\) 投到 \(\mathbb{R}^{L+3}\) 的 logits 上（\(L\) 个 LLM 加 3 个角色），不引入任何额外结构。二是对 SLM 的权重矩阵做 SVD 分解后只学习奇异值的缩放、固定住正交基，用极少的自由度给 hidden state 补一点任务相关的表征改善。这套设计能成立的关键洞察是：协调器生成的文本被整个丢弃，真正用到的只有 hidden state 导出的 logits——既然不需要它把话说完，就可以只取早期 token（而非等到生成结束）的 hidden state 快速出决策，进一步压低开销。

2. 三角色协调：把复杂能力外包给底层 LLM，自己只做分工

如果协调器自己要会规划、会解题、会校验，那它就不可能只用上万参数；Trinity 的破法是给每轮被选中的 LLM 指派一个明确职责。Thinker 负责策略规划，分析当前状态、给出计划/分解/对部分解的批判等高层指导，还可顺带指定下一轮的角色；Worker 负责具体执行，产出代码、推导、数值结果这类可操作内容；Verifier 负责质量评估，输出判断 \(u_k \in \{\texttt{ACCEPT}, \texttt{REVISE}\}\) 并可附带诊断 \(\delta_k\)。终止时刻定义为 \(\tau = \min\{k \le K : R_k = \mathrm{V}\ \text{且}\ u_k = \texttt{ACCEPT}\}\)，没人 ACCEPT 就跑满 \(K\) 轮、返回 \(O_\tau\)。这样划分把"获得复杂能力"这件难事完全外包（offload）给底层强模型，协调器只需做轻量的"派谁、扮谁"决策——这正是设计 1 能只用上万参数的前提。

3. sep-CMA-ES 优化：在高维稀疏奖励下用进化策略替代 RL

这个优化问题有几个棘手特征叠在一起：参数维度高（~10K）、参数块之间耦合很弱、每走一步都要让被协调的 agent 真实推理一遍因而单步代价极高，而奖励只是答案对错的二值终端信号 \(R(\tau) \in \{0,1\}\)，整体目标即 \(J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]\)。直接上 RL 在这里很吃亏：REINFORCE 的逐参数梯度信噪比极低，弱块间耦合让梯度病态、credit assignment 很差。Trinity 改用 sep-CMA-ES——它只维护一个对角协方差矩阵，天然契合这种近似 block-diagonal 的优化景观，在高维且评估预算被严格卡死（10K 维问题只给 1.5K–40K 次评估）的设定下比 RL、模仿学习和随机搜索都更稳。文中 Proposition 1 进一步给出理论支撑：在迭代次数 \(T\) 较小的 regime 下，sep-CMA-ES 的改进量随迭代近似线性增长，而随机搜索只有对数增长。

实验关键数据¶

分布内评测（4个benchmark）¶

方法	MATH500	MMLU	RLPR	LiveCodeBench v6
GPT-5 (4K)	0.91	0.92	0.34	0.56
Gemini-2.5-pro (4K)	0.92	0.91	0.41	0.47
Claude-4-Sonnet (4K)	0.90	0.89	0.37	0.51
MoA	0.83	-	0.38	0.39
Trinity	0.95	0.94	0.44	0.61

Trinity在所有4个任务上一致领先。MATH500相对error reduction 11.76%（vs Gemini-2.5-pro 5x CTX）。 LiveCodeBench SOTA: 86.2% pass@1（V1 train → V6 test）。

零样本迁移（4个未见任务）¶

模型	AIME	BigCodeBench	MT-Bench	GPQA-D	Average
Gemini Pro 2.5	46.67	35.10	9.37	75.25	52.34
GPT-5	46.67	33.80	9.35	72.73	51.07
Trinity	50.00	35.80	9.60	76.82	54.21

在所有4个未见任务上超越每个单模型，证明泛化能力。

关键发现¶

平均相对error reduction 21.9%（vs second-best方法）
某些baseline方法降低性能低于随机（如RouterDC在RLPR上0.28 < random 0.32），凸显effective coordination的难度
Trinity在3/4任务上接近"Per-Question-Best"上限
涌现的task-aware策略：不同任务类型展现不同的T/W/V选择模式

消融实验¶

Head架构：block-diagonal-10（极少参数）仍保留大部分性能 → 证实block-\(\varepsilon\)-separability
SVD微调 vs 不微调：微调提供额外的表征改善
sep-CMA-ES vs REINFORCE vs random search vs imitation learning：CMA-ES在此regime下大幅领先

亮点与洞察¶

极端参数效率：<20K可训练参数协调7个顶级LLM（含GPT-5、Claude-4-Sonnet），这一参数量级令人惊叹
Hidden states的语义密度：证明即使0.6B SLM的internal representation也足以为coordination提供丰富的上下文信号
进化策略 vs RL的niche：在高维、弱耦合、稀疏奖励、高per-step成本的特定regime下，CMA-ES理论和实证上优于policy gradient——打破了"RL万能"的思维定式
三角色设计的优雅性：T/W/V分工将coordinator从complex skill acquisition中解放出来，只需做assignment

局限与展望¶

依赖闭源API的LLM pool，成本和延迟是实际部署瓶颈
Coordinator的SLM仍需推理每轮的完整transcript，对很长对话可能有效率问题
三角色的prompt设计是hand-crafted的，role自动化发现值得探索
训练集规模较小（400 LiveCodeBench samples），更大规模训练效果有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ SLM hidden state + 超轻量head + CMA-ES的组合极为创新
实验充分度: ⭐⭐⭐⭐⭐ 8个benchmark（4 in-dist + 4 zero-shot），全面的消融和理论分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义精确，理论分析扎实，实验展示清晰
价值: ⭐⭐⭐⭐⭐ LiveCodeBench SOTA，开创了超轻量coordination的新范式