Optimizing Diversity and Quality through Base-Aligned Model Collaboration¶
会议: ICML 2026
arXiv: 2511.05650
代码: 有 (项目主页 + 仓库已开源)
领域: LLM / NLP
关键词: 多样性-质量权衡, 推理时协同, token级路由, 对齐, 开放式生成
一句话总结¶
作者提出 BACO,一种推理时 token 级路由框架:让"未对齐的 base 模型"和"对齐后的 instruct 模型"在同一次解码里逐 token 切换,用 logit 不确定度与内容词信号决定该信谁,从而在不再训练、不多次采样的前提下同时拿到 base 的多样性与 aligned 的质量,best router 相对最强 baseline 取得 21.3% 的多样性-质量联合提升。
研究背景与动机¶
领域现状:对齐(SFT + RLHF/DPO)让 LLM 在指令跟随、安全性、奖励分数上大幅提升,已经是部署级模型的默认形态;但同样的 prompt 反复采样时,对齐模型会塌缩到极少数"模板回答",例如问"美国夏季旅游目的地"会反复给出"Maui, Hawaii"。
现有痛点:之前缓解多样性塌缩主要走两条路。训练侧(如 diverse RLHF、多样性正则)需要重新训模型,会动到对齐分布、可能牺牲安全与有用性;推理侧则要么是高温/多样 beam search,要么是 in-context resampling、paraphrase prompting、回译,多数需要多次解码或长程规划,而且常常用质量换多样性。
核心矛盾:单模型范式存在结构性 trade-off ——对齐过程本身会降低 next-token 分布的熵(mode collapse),让概率质量集中在少数高质量 token 上。论文给出实测对比:Llama-3-8B 与 Llama-3-8B-Instruct 在 WildChat 子集上 diversity 比是 3.15×,但 quality 比反向是 5.95×,没有 Pareto 占优的一边。
本文目标:在不再训练、且只跑一次解码的前提下,得到一个能在 diversity-quality 平面上整体抬高 Pareto 前沿、并可由用户按需调节工作点的方法。
切入角度:作者抓住了"superficial alignment"现象——base 和 aligned 模型在大多数 token 上的预测高度一致,分歧主要集中在风格性/功能性 token(标点、换行、function word)和少数高不确定度的"语义岔路口"。既然只有少数位置真正分歧,那就只在这些位置切换模型即可。
核心 idea:把 base 当作"多样性来源"、把 aligned 当作"质量来源",在解码时用一个轻量级 router 在 token 粒度上动态选其一来出 token,把单模型权衡变成两模型协同。
方法详解¶
整体框架¶
BACO 把生成形式化为 \(P_{\text{BACO}}(y_t|c_t) = w_{\text{base}} \cdot P_{\text{base}}(y_t|c_t;\theta_{\text{base}}) + (1-w_{\text{base}}) \cdot P_{\text{aligned}}(y_t|c_t;\theta_{\text{aligned}})\), 其中 \(c_t = [x, y_{<t}]\),\(w_{\text{base}} \in \{0,1\}\) 是 router 给出的硬选择(不是混合权重,每个 token 完全归属一个模型)。流水线很短:两模型并行前向 → router 看当前 step 的信号 → 选 base 或 aligned → 采样 token → 拼回上下文。为了避免两模型 tokenizer 不一致导致拼出乱码,作者把切换约束到 word boundary(词边界)上。整套流程只跑一次解码、不需要任何微调和 prompt 工程,所以可以无成本套到任何"base + aligned"现成对。
关键设计¶
-
基于 logit 的路由(model-centric 信号):
- 功能:用 base 模型自己的预测不确定度判断当前位置是不是"语义岔路口",是岔路口就交给 base 出多样性、否则交给 aligned 保质量。
- 核心思路:两个代表性变体——BACO-P 当 base 的 top-1 概率 \(\max_{y_t} P_{\text{base}}(y_t|\cdot) < \gamma\) 时路由到 base;BACO-H 当 base 的预测熵 \(H_{\text{base}}(Y_t|\cdot) = -\sum_{y_t} P_{\text{base}}(y_t|\cdot)\log P_{\text{base}}(y_t|\cdot) > \gamma\) 时路由到 base。阈值 \(\gamma\) 起到类似温度的作用:调大 \(\gamma\) 偏向 base(更多样),调小偏向 aligned(更高质量)。
- 设计动机:高不确定度位置说明多个续写都合理,强行让 aligned 收敛只会浪费"可多样化的预算";而低不确定度位置 base 和 aligned 大概率一致,没必要冒险切换。
-
基于内容的路由(language-centric 信号):
- 功能:用 token 的语言学/语义角色而非概率值判断该谁出 token,专门把"风格性 token"留给 aligned,把"实义内容词"留给 base。
- 核心思路:BACO-PUNC 在 top-1 是标点/格式 token(如
\n、句号)时强制走 aligned,保住格式一致;BACO-FC 在 top-1 是 function word(and/if/the 等)时走 aligned,保住语篇衔接。这一类信号不需要 logit,因此也适用于黑盒模型。 - 设计动机:作者引用语言学观察——内容词才是人感知到"多样性"的地方(地名、动词、形象描写),而风格/功能词是 aligned 与 base 分歧最多但读者最不关心的地方;把后者交给 aligned 既稳了风格又不损失多样性。
-
组合路由 + 可控阈值(实践中最强的版本):
- 功能:把 logit 信号与内容信号按优先级串联,并通过单一阈值 \(\gamma\) 在 diversity-quality 平面上沿 Pareto 前沿连续滑动。
- 核心思路:BACO-P-PUNC、BACO-P-FC、BACO-H-PUNC 这类组合先用内容规则(PUNC/FC)锁定"必须走 aligned"的 token,剩余 token 再回退到 logit 规则决定方向;改 \(\gamma\) 就能扫出一条覆盖低多样高质量到高多样中等质量的整条曲线,给上层应用留出"可控旋钮"。
- 设计动机:单独看,logit 信号偏向"有把握就让 aligned 出",内容信号偏向"风格/功能词归 aligned",两者互补;组合后既保住了语篇连贯,又能在真正的岔路口放手让 base 跑多样性,从而比任一单策略都更逼近 Pareto 前沿。
损失函数 / 训练策略¶
不训练。所有 router 都是无参的启发式,唯一的连续超参是阈值 \(\gamma\),相当于一个用户面向的"多样性温度",无需校准也无需学习。论文显式留下 learned router 作为 future work,理由是多样性本身多维(lexical / semantic / discourse),单一标量损失反而会引起目标冲突和训练不稳。
实验关键数据¶
主实验¶
评测集合:NoveltyBench(指令跟随)、WildChat(对话)、Narrative-Discourse(长文本创意写作);模型对:Llama-3-8B/Instruct、Olmo2-7B/Instruct;指标:11 个多样性 × 2 个质量 = 22 个 diversity-quality 子空间,并用 Coverage(曲线下面积,衡量整段 trade-off 占据的区域)和 Dominance(占全局 Pareto 前沿的比例,衡量是否独占最优解)两个多目标优化指标聚合。
| 方法 | Lexical Cov. | Lexical Dom. | Semantic Cov. | Semantic Dom. | Overall Cov. | Overall Dom. |
|---|---|---|---|---|---|---|
| Base | 0.098 | 12.7% | 0.098 | 16.0% | 0.098 | 14.3% |
| Aligned | 0.269 | 49.0% | 0.104 | 29.2% | 0.186 | 39.0% |
| Nudging (协同 baseline) | 0.276 | 9.3% | 0.247 | 9.9% | 0.261 | 9.6% |
| Prompting (Best) | — | 2.7% | — | 2.2% | — | 2.4% |
| Ensemble (Best) | — | 1.1% | — | 1.9% | — | 1.5% |
| BACO (Best) | 0.445 | 24.9% | 0.360 | 40.5% | 0.403 | 32.7% |
Coverage 相对最强 baseline 提升 0.142(约 +30% 可达区域),整体多样性-质量联合提升 21.3%;语义维度 Dominance 提升到 40.5%(即近一半的 Pareto 最优点是 BACO 独占的)。
消融实验(NoveltyBench 上不同 router)¶
| Router | Lexical Cov. | Lexical Dom. | Semantic Cov. | Semantic Dom. | Overall Cov. | Overall Dom. |
|---|---|---|---|---|---|---|
| -RAND(随机切换) | 0.493 | 26.3% | 0.409 | 17.0% | 0.451 | 21.7% |
| -JUDGE(外部模型判) | 0.302 | 2.6% | 0.254 | 0.6% | 0.278 | 1.6% |
| -P(仅最大概率) | 0.433 | 4.8% | 0.397 | 8.5% | 0.415 | 6.7% |
| -FC(仅 function word) | 0.419 | 3.2% | 0.382 | 4.7% | 0.401 | 4.0% |
| -P-PUNC(最优组合) | 0.495 | 30.7% | 0.452 | 31.3% | 0.474 | 31.0% |
| -H-PUNC | 0.466 | 16.4% | 0.427 | 18.6% | 0.446 | 17.5% |
| -P-FC | 0.435 | 16.0% | 0.406 | 19.2% | 0.421 | 17.6% |
关键发现¶
- 组合策略(-P-PUNC、-H-PUNC、-P-FC)几乎全面碾压单策略,证明 logit 信号和内容信号互补、不能互相替代。
- -RAND 在 lexical 维度表现意外不错,但 semantic Dominance 只有 17%——说明"无脑切"只能制造表面词形多样性,做不出真正语义多样性,必须有 router 引导。
- -JUDGE(让另一个 LLM 当裁判判每个 token)反而最差且最慢,作者用这个结果反证:本任务不需要复杂判别器,启发式信号已经够强。
- 在可验证任务(IFEval、GSM8K)上,BACO 也能在保持质量/准确率不掉的前提下抬高多样性,说明收益不是"开放式评测的伪影"。
- 人工评估与自动指标方向一致,多样性提升被人类评审感知到,未带来明显的质量退化。
亮点与洞察¶
- 把"模型协同"从一次只能选一个模型升级到 token 级硬切换,且严格走 word boundary,是个干净又工程友好的做法——任何 base + instruct 的开源对都能现成接上,零训练成本。
- "superficial alignment"假设被用得很到位:既然两模型大多数 token 一致,只需在少数分歧点做选择,于是 router 就只需要是几行规则而不是一个学习模型,简单到反直觉地强。
- 把多样性-质量评估从"单点比分"升级为"Coverage + Dominance 两指标 + 11×2 子空间",把"是否可控"作为一等公民评估,方法论上比之前 NoveltyBench 等单指标评测更扎实,可复用到任何 trade-off 类研究。
- 内容信号(PUNC/FC)适用于黑盒模型,意味着即便只能调 API 的对齐模型,也能通过"分句/结构 token 走 API,其余 token 走开源 base"的方式复刻 BACO,工程外推性很好。
局限与展望¶
- 需要同时持有 base 和 aligned 两份权重,部署内存翻倍;论文未给出量化或 KV 复用版本,对显存吃紧的场景不友好。
- 严格依赖"base 与 aligned 同源、分歧仅在风格/岔路口"这一假设;若 base 与 aligned 来自不同家族(如不同 tokenizer 或不同预训练数据),不仅 word-boundary 切换会失效,"superficial alignment"也未必成立。
- 评测集中在英文开放式生成,对代码、长链推理、多语言的覆盖较少;只在 IFEval/GSM8K 做了 sanity check,没有给出在强推理任务上多样性是否仍有积极价值的结论。
- 阈值 \(\gamma\) 仍需用户/任务调,论文没有自动选 \(\gamma\) 的机制;如何用一两个无监督信号(例如 prompt embedding 或任务类别)自动设定 \(\gamma\) 是自然的下一步。
- learned router 被显式留作 future work,但在多维度多样性目标下学习信号的设计本身就是开放问题,可能需要 multi-objective RL 框架配合。
相关工作与启发¶
- vs Nudging (Fei et al., 2025): 同样基于"superficial alignment"做协同,但 Nudging 是把 aligned 的少量 token 注入 base 的解码以提升 base 的质量;BACO 的目标恰恰相反——是把 base 注入 aligned 来恢复多样性,并且把方向选择交给可控 router,因此能扫出整条 Pareto 而不是单点。
- vs 训练侧多样性方法(diverse RLHF / DivPO): 后者要重训对齐阶段、可能损害安全与有用性;BACO 完全推理时、不动权重,安全属性保持不变。
- vs 解码多样化(温度、Diverse Beam Search、对比解码): 这些只能在一个模型的分布内"翻搅",受限于该分布本身的熵;BACO 利用了两个不同分布作为多样性源,天花板更高,对 mode collapse 的缓解是结构性的而非参数级的。
- vs Prompt 类(in-context resampling / paraphrase): 需要多次解码或更长上下文,开销大;BACO 单次解码完成,wall-clock 上更友好。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 base+aligned 协同来"反向使用 superficial alignment"是一个干净的新视角;router 本身朴素,但目标重定向到 diversity 是值得记一笔的贡献。
- 实验充分度: ⭐⭐⭐⭐⭐ 22 个 trade-off 子空间 + 长文本 + 多模型对 + 人工评估 + 可验证任务交叉检验,覆盖面在 ICML 同类工作里属上乘。
- 写作质量: ⭐⭐⭐⭐ 概念图清晰,把"diversity-quality 平面 + Coverage/Dominance"这套评估语言讲得很顺;方法部分稍偏简洁,附录依赖较重。
- 价值: ⭐⭐⭐⭐ 零训练即可缓解 mode collapse,对开放式生成、创意写作、对话推荐这些 diversity-first 场景立刻可用;额外提供了一套可复用的多目标评测协议。