C-Evolve: Consensus-based Evolution for Prompt Groups¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=iyxRqYiCbF
代码: 待确认
领域: LLM Agent / 提示词优化 / 进化算法
关键词: 提示词进化, 共识聚合, 多数投票, 岛屿模型, 复合 AI 系统, 黑盒优化

一句话总结¶

C-Evolve 把"进化出一个最优提示词"改成"进化出一组互补的提示词"，用一个衡量提示词在群体投票中贡献度的 voting score 作为进化适应度，让多个提示词聚合后达成共识，从而突破单提示词的能力天花板。

研究背景与动机¶

领域现状：GPT-4.1、Claude 这类闭源大模型只能通过 API 访问，无法微调权重，于是基于提示词的黑盒优化成为主流。其中进化类方法（GEPA 用自然语言反思 + Pareto 选择、AlphaEvolve 用岛屿模型进化整段程序）最为强大，它们都在一个种群里反复变异、选择，最终挑出单个适应度最高的提示词作为全局最优解。

现有痛点：单个最优提示词存在天然的表达瓶颈。复杂任务往往有多个侧面的要求，一条提示词很难面面俱到——它在某些 case 上必然失败。传统机器学习早就证明集成（ensemble）比单分类器更强，self-consistency、多智能体也都验证了"多个专家投票胜过单个专家"。但在提示词优化领域，如何系统性地聚合多条提示词的输出来达成共识，几乎没人深入研究。

核心矛盾：如果只是事后把几条各自最优的提示词凑成一组投票，效果并不好——因为它们是按"个体得分"进化出来的，彼此高度同质，犯的错也相似，聚合后无法互补。论文实验证实：直接把 AlphaEvolve 三个岛各自最优的提示词组队投票，准确率仍停在 41.15%，毫无提升。问题在于进化目标错了：要想群体投票强，进化时就该奖励"善于配合"的提示词，而不是"单打独斗强"的提示词。

本文目标：找到最优提示词组 $G^* = \arg\max_G \mathbb{E}_{(x,m)\sim\tau}[\mu(C(y_G), m)]$，其中 $C$ 是共识聚合器，让这组提示词的聚合输出（而非任一个体）在任务上最优。

核心 idea（投票分驱动进化）：用一个 voting score 度量每条提示词在它所参与的所有群体中的平均贡献，把它作为进化适应度，使得"更可能组成高分群体"的提示词被保留繁殖、"拖后腿"的被淘汰，进化方向天然指向高质量共识。

方法详解¶

整体框架¶

C-Evolve 在 AlphaEvolve 的岛屿进化模型基础上改造：初始化 $|G|$ 个岛屿（默认 3 个），各岛并行独立进化以保持种群多样性，最后从每个岛各取一条提示词组成投票群体。整个流程分两阶段——先 warm-up 阶段用个体得分把每条提示词本身练强，再 voting 阶段改用群体共识的投票分作适应度，让提示词学会互补配合。进化由一个 evolver LLM 完成：它读取被选提示词及其执行反馈，refine 出新个体。推理时，从每个岛取 EMA 投票分最高的个体组成最终群体，聚合得出答案。

flowchart TD
    A[初始化 |G|=3 个岛<br/>每岛容量 N_max=10] --> B[Warm-up 阶段<br/>适应度=个体分 s_ind]
    B --> C[Voting 阶段开始<br/>初始化 s_EMA = warm-up 末个体分]
    C --> D[每岛采样1个体→evolver LLM<br/>用群体反馈进化出新个体]
    D --> E[跨岛采样 n_c=10 个投票群体<br/>每组各岛取1人, 共识聚合器评分]
    E --> F[算 voting score 式3<br/>→ EMA 更新 s_EMA 式4]
    F --> G[淘汰各岛 s_EMA 最低个体]
    G --> H{迭代结束?}
    H -- 否 --> D
    H -- 是 --> I[每岛取 s_EMA 最高个体<br/>组成最终群体, 共识推理]

关键设计¶

1. Voting score：把"个体强"换成"团队贡献强"的适应度。 这是 C-Evolve 区别于一切单提示词进化的核心。一个朴素想法是直接淘汰"最差群体"里的所有成员，但群体之间成员高度重叠，最差群体里也可能混着别处的好成员，一刀切毫无道理。论文转而度量每个个体在所有含它的群体中的平均共识表现： $$s_{\Pi,\text{voting}} = \frac{\sum_{k=1}^{n_c} \mathbb{I}(\Pi \in G_k)\cdot \mathbb{E}_{(x,m)\sim D_{met}}\big[\mu(C(y_{G_k}), m)\big]}{\sum_{k=1}^{n_c}\mathbb{I}(\Pi \in G_k)}$$ 其中 $\mathbb{I}(\Pi\in G_k)$ 表示个体 $\Pi$ 是否属于群体 $G_k$。投票分越高，说明含它的群体越容易给出正确共识，它就越该被保留来组队。把它当适应度，进化自然就奖励"善于配合"的提示词——这正是 Table 2 里 C-Evolve（43.88%）反超 AlphaEvolve 直接组队（41.15%）的根本原因，哪怕 C-Evolve 单个体得分（40.47/39.79/38.77）还不如 AlphaEvolve 的 41.15。

2. EMA 平滑：让适应度反映"当前种群"而非陈年旧账。 voting score 在不同迭代算出来的值差异很大，因为种群一直在变。如果简单对一个个体历史上所有群体表现求平均，会把早已被淘汰的旧成员组成的群体也算进来、还给同样权重，这无法反映该个体在当前种群里的真实贡献。论文用指数移动平均更新： $$s_{\Pi,\text{EMA}} \leftarrow \alpha\cdot s_{\Pi,\text{EMA}} + (1-\alpha)\cdot s_{\Pi,\text{voting}}$$ $\alpha\in[0,1]$ 平衡历史与当下，给近期表现更高权重、压制久远历史的影响。voting 阶段开始时用 warm-up 末尾的个体分初始化 $s_{\Pi,\text{EMA}}$，之后每轮更新完淘汰各岛 $s_{\Pi,\text{EMA}}$ 最低者。消融显示简单平均只有 41.16%，EMA 在 $\alpha=0.8$ 时最佳达 42.85%。

3. 共识聚合器：闭/开放任务分而治之。 群体内每条提示词先各自产出 $y = \Phi(x;\Pi)$，再由聚合器 $C$ 整合成 $y_{final}=C(y_G)$。闭式任务（多选、数学）直接多数投票取票最多的答案；开放式任务（自由文本）则用 LLM-based 聚合器挑出"覆盖最多其他回答内容的最具代表性回答"。消融对比两种 LLM 聚合策略：LLM-summary（综合所有回答生成新答案）只有 38.66%，而 LLM-selection（从已有回答里选最具代表性的） 达 42.85%，因为选择保留了原始输出的忠实性，而综合容易"编"出没有任何个体支撑的内容。

4. 双数据集 + 群体反馈进化。 进化用 $D_{met}$（配评测指标 $\mu$）算分、用独立的 $D_{feed}$ 生成详细执行反馈喂给 evolver。warm-up 阶段反馈含个体内各提示词、系统各模块的输入输出及个体指标分；voting 阶段则升级为群体反馈——额外加入分组信息、组内每个个体的输出、群体达成的共识、共识在 $D_{met}$ 上的得分。evolver LLM 据此诊断"错在哪个模块、何时出错"，refine 出更会配合的新个体。岛屿间还设 10% 迁移率避免陷入局部最优。

实验关键数据¶

主实验表格¶

跨 2 个开放式任务（HotpotQA、IFBench）+ 3 个闭式任务（HoVer、MATH、GPQA），在开源 Qwen3-8B 和闭源 GPT-4.1-mini 上对比：

模型	方法	HotpotQA	IFBench	Hover	MATH	GPQA	平均提升
Qwen3-8B	Baseline	50.03	31.29	37.66	67.66	41.43	-
	GEPA	65.72	34.01	43.33	-	-	+8.02
	AlphaEvolve	65.31	41.15	44.66	82.66	43.08	+9.75
	C-Evolve	70.67	43.88	50.33	85.33	47.15	+13.85
GPT-4.1-mini	Baseline	44.24	40.13	42	78.66	46.34	-
	GEPA	68.39	46.59	39	-	-	+9.2
	AlphaEvolve	67.31	45.24	50.33	92.66	63.01	+13.42
	C-Evolve	70.64	47.96	51.66	95.33	66.26	+16.09

C-Evolve 全部任务 SOTA：Qwen3-8B 上平均超 baseline +13.85%、超 GEPA +5.83%、超 AlphaEvolve +4.1%；更强的 GPT-4.1-mini 上仍超 GEPA +6.89%、超 AlphaEvolve +2.67%。

消融实验表格¶

消融项	设置	准确率(%)
LLM 聚合器	LLM-summary	38.66
	LLM-selection	42.85
投票分平滑	Group Average	41.16
	EMA, α=0.5	42.51
	EMA, α=0.8	42.85
	EMA, α=0.95	41.50

（均在 IFBench / Qwen3-8B 上，warm-up 50 轮 + voting 50 轮）

关键发现¶

共识对难题增益最大：MATH 按难度分层（Table 3），单个体在 Level 5 全部跌破 67%，而 C-Evolve 投票后在 Level 3–5 分别达 92.00 / 82.66 / 68.33%，专啃单提示词解不了的硬骨头。在"三个体中恰好两个达成共识"的 25% 问题里，C-Evolve 解对 49.33%，而单最优提示词只有 40%。
多岛进化出差异化分工：IFBench 上三个岛各自演化出不同侧重——岛1 主"核心约束优先 + 精修修正"，岛2 主"约束预声明 + 分层校验"，岛3 主"任务优先级分层 + 关键失败点验证"；t-SNE 和 Levenshtein 距离显示 voting 阶段三岛逐渐形成各自簇，互补性是性能来源。
进化曲线对比：AlphaEvolve 早期快升但很快饱和，C-Evolve 进入 voting 阶段后继续爬升，说明共识驱动的适应度提供了单提示词进化耗尽后的新优化空间。

亮点与洞察¶

重定义了进化目标：从"找单个最优解"转向"找最优互补组合"，把集成学习的智慧第一次系统性地注入提示词进化。关键洞见是——要让群体投票强，进化时的适应度就必须是"团队贡献"而非"个人成绩"，否则进化只会产出同质、错误相关的提示词，聚合无增益。
voting score + EMA 的组合很巧：voting score 解决"如何归因群体表现到个体"，EMA 解决"如何只用当前种群的有效信号"，两者配合让淘汰决策既公平又紧跟种群演化。
岛屿模型在这里不只是防局部最优，而是多样性的生产引擎：并行隔离进化天然孕育出分工不同的提示词，正好满足"互补才能共识增益"的前提，框架自洽。

局限与展望¶

推理成本翻倍：群体有 $|G|$ 条提示词，每个 query 要跑 $|G|$ 次再聚合，开放式任务还要额外一次 LLM 聚合，token 开销随群体规模线性增长，论文未充分讨论成本-收益权衡。
岛屿数固定为 3：$|G|=3$ 是经验设定，更多岛是否持续增益、何时边际递减、最优群体大小如何随任务自适应，缺乏系统分析。
依赖 evolver 与聚合器的能力：进化质量和共识质量都受底层 LLM 制约，弱模型上 voting score 的反馈信号可能噪声更大；LLM-based 聚合器本身也可能引入偏差。
代码与 AlphaEvolve 复现：对比的 AlphaEvolve 系作者自行复现（原方法未开源），公平性需谨慎看待。

评分¶

新颖性: ⭐⭐⭐⭐ — 把集成/共识思想首次系统性嵌入提示词进化，voting score 作适应度的设计点题精准，从"单最优"到"最优组合"的目标重定义有真正的概念贡献。
实验充分度: ⭐⭐⭐⭐ — 2 模型 × 5 任务覆盖开/闭式，对比 GEPA/AlphaEvolve 两个强基线，难度分层、多岛分工可视化、EMA/聚合器消融齐全；扣分在推理成本与岛屿数缺系统分析、AlphaEvolve 系自行复现。
写作质量: ⭐⭐⭐⭐ — 动机递进清晰（单解瓶颈→集成启发→进化目标错配→voting score），公式与图示到位，Table 2 的"直接组队无效"对照极具说服力。
价值: ⭐⭐⭐⭐ — 黑盒模型时代提示词优化是刚需，"共识驱动进化"为该方向打开了单提示词之外的优化空间，且思路可迁移性强。