跳转至

Soft Quality-Diversity Optimization

元信息

一句话总结

提出 Soft QD Score 作为无需行为空间离散化的质量多样性优化新目标,并据此推导出可微分算法 SQUAD,在高维行为空间中具有更好的可扩展性,且在标准基准上与 SOTA 竞争力相当。

研究背景与动机

  • Quality-Diversity (QD) 优化:寻找一组既高质量又行为多样的解,应用于 RL 策略多样化、红队测试、内容生成等。
  • 传统方法的局限
  • 将行为空间离散化为网格/CVT 单元格,遭受维度灾难——单元格数指数增长或单元格体积指数膨胀
  • 不可微的离散化阻碍梯度优化
  • 核心问题:能否设计无需离散化的 QD 目标,直接在连续行为空间上进行可微优化?

方法详解

整体框架

SQUAD 把质量-多样性优化从"在离散单元格里填充档案"重写成"在连续行为空间上最大化一个软目标"。它先用高斯核把每个解的质量摊成一片随距离衰减的"亮度场",把整片空间的总亮度定义为 Soft QD Score;再推导出这个目标的一个可微下界,让 \(N\) 个解通过梯度同时优化质量并互相排斥,从而绕开网格离散化带来的维度灾难。

关键设计

1. 行为值与 Soft QD Score:把质量摊成连续的"亮度场"。 传统 QD 把行为空间切成网格,再往每个单元格塞最优解,单元格数随维度指数膨胀。SQUAD 改为把每个解 \(\theta_n\) 看成一盏照亮行为空间的光源:亮度正比于它的质量 \(f_n = f(\theta_n)\),影响以高斯方式随到它行为描述符 \(\mathbf{b}_n = \text{desc}(\theta_n)\) 的距离衰减,于是空间中任一点 \(\mathbf{b}\) 的行为值取所有光源的最大亮度 \(v_{\bm{\theta}}(\mathbf{b}) = \max_{1 \leq n \leq N} f_n \exp\!\left(-\|\mathbf{b} - \mathbf{b}_n\|^2 / 2\sigma^2\right)\)。把它在整个行为空间上积分,就得到无需离散化的标量目标 Soft QD Score \(S(\bm{\theta}) = \int_{\mathcal{B}} v_{\bm{\theta}}(\mathbf{b})\, d\mathbf{b}\)。要让这个积分大,就必须让高质量的解尽量分散地铺满整片空间——质量与多样性被自然地编码进同一个连续目标。

2. 理论性质:保证软目标行为合理且兼容旧定义。 一个新目标若想取代成熟的 QD Score,得先证明它不会退化。定理 1 给出三条性质:单调性——新增一个解或提升任一现有解的质量,\(S(\bm{\theta})\) 都不减,符合"越多越好质量越高越好"的直觉;次模性——后加入的解边际贡献递减,意味着覆盖已密集的区域回报变低、优化会自然把解推向空白区;极限等价——当核宽 \(\sigma \to 0\) 时高斯核收缩成尖峰,Soft QD Score 收敛到传统 QD Score(相差一个常数倍)。第三条说明 Soft QD 不是另起炉灶,而是旧目标的连续光滑推广,\(\sigma\) 是控制"软硬程度"的旋钮。

3. SQUAD 可微下界:把不可解积分换成成对排斥力。 直接对 \(S(\bm{\theta})\) 求梯度受阻于其中的积分无闭式解。定理 2 给出一个可计算且可微的下界 \(\tilde{S}(\bm{\theta}) = \sum_{n=1}^N f_n - \sum_{1 \leq i < j \leq N} \sqrt{f_i f_j}\, \exp\!\left(-\|\mathbf{b}_i - \mathbf{b}_j\|^2 / \gamma^2\right)\),正是优化的实际目标。第一项是质量项,像吸引力一样驱动所有解提升各自的 \(f_n\);第二项是多样性项,对行为接近的高质量解对施加惩罚,像排斥力一样把它们推开。关键在排斥强度用几何均值 \(\sqrt{f_i f_j}\) 加权:只有当两个解都已经较优时排斥才显著,于是低质量解会先把质量做上去、再开始与同伴分散——形成天然的"先学好、再分开"课程。超参 \(\gamma\) 直接控制排斥的作用半径,从而调节质量与多样性的权衡。

4. 高效实现:把成对计算压到线性并处理有界空间。 朴素地算 \(\tilde{S}\) 的多样性项需要遍历所有 \(O(N^2)\) 对解。由于指数衰减让远处解的排斥力可忽略,SQUAD 对每个解只计算 \(k\) 个最近邻的排斥力,把复杂度降到 \(O(Nk)\);再配合 mini-batch 分批更新以压低显存。对于行为描述符被限制在有界区间的问题(如图像坐标),高斯核在边界附近会失真,于是先用 logit 变换把行为空间映射到无界空间再优化,这一步在实验中对有界问题至关重要。

一个完整示例

以同时优化 \(N\) 个解为例,看一轮迭代里它们的状态如何变化。初始化 \(N\) 个解后,外层循环跑 \(T\) 步;每步内按 mini-batch 处理:先为批内每个解找出 \(K\) 近邻,据此算出下界目标 \(\tilde{S}\) 及其对参数的梯度,用 Adam 更新参数,再重新评估更新后解的质量 \(f_n\) 与行为描述符 \(\mathbf{b}_n\) 供下一轮使用。早期低质量解的排斥项被几何均值压低,它们主要沿质量项的梯度爬升;随着质量上来,排斥项变强、相互推开,整群解逐渐自组织成"高质量且铺满空间"的均衡分布。

实验关键数据

主实验 1:高维行为空间可扩展性(Linear Projection)

行为空间维度 CMA-MAEGA Sep-CMA-MAE GA-ME SQUAD
2D 最优 竞争力强
10D 下降明显 下降 下降 保持稳定
50D 严重退化 退化 退化 仍有效
100D 几乎失效 失效 失效 仍有效

SQUAD 是唯一在高维行为空间中不严重退化的方法。

主实验 2:图像合成 (IC) 与潜空间照亮 (LSI)

方法 IC QD Score IC Vendi Score LSI QD Score LSI Vendi Score
CMA-MAEGA 最优级 较高 最优级 较高
Sep-CMA-MAE
DNS-G 较高 较高
SQUAD 竞争力强 最高 竞争力强 最高

SQUAD 在多样性指标上一致最优,在 QD Score 上与 SOTA 竞争。

消融实验:\(\gamma\) 的影响

\(\gamma\) 平均质量 Vendi Score 说明
最高 最低 弱排斥→偏向质量
平衡
较低 最高 强排斥→偏向多样性

\(\gamma\) 直观控制质量-多样性权衡。

关键发现

  1. 基于单元格的方法在高维行为空间中因维度灾难而失败
  2. SQUAD 的连续目标自然避免了离散化问题
  3. 排斥力中的几何均值项使低质量解先提升质量——形成自然的"先质量后多样性"课程
  4. Logit 变换对有界行为空间至关重要
  5. K 近邻近似对最终结果几乎无影响(因为指数衰减使远处解影响可忽略)

亮点与洞察

  • 范式转换:从离散单元格到连续 Soft 目标,避免维度灾难
  • 优雅的物理类比:吸引力(质量提升)+ 排斥力(多样性分散)= 自组织均衡
  • 理论完备:单调性、次模性、极限等价性提供坚实基础
  • 几何均值的巧妙效果:自动实现"低质量→先提升质量;高质量→开始分散"的课程

局限性

  • 下界近似忽略了三阶及以上的多体交互,可能在非常紧密的群体中不准确
  • \(\gamma\) 超参需要调优,且与问题规模和行为空间结构相关
  • 比基于 archive 的方法缺少显式的解存储,不便直接查询特定行为
  • 在非可微目标函数(如需要模拟器的 RL 问题)中不直接适用

相关工作

  • QD 算法: MAP-Elites (Cully et al., 2015), CMA-MEGA (Fontaine & Nikolaidis, 2021/2023)
  • 可微 QD: DQD (Fontaine & Nikolaidis, 2021), PGA-ME (Nilsson & Cully, 2021)
  • 新颖性搜索: Lehman & Stanley (2011), DNS (Bahlous-Boldi et al., 2025)
  • 多样性度量: Vendi Score (Friedman & Dieng, 2023)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — Soft QD 重新定义了 QD 优化的目标,范式性贡献
  • 理论深度: ⭐⭐⭐⭐ — 单调性、次模性、极限等价性、下界推导
  • 实验充分性: ⭐⭐⭐⭐ — 三个基准域、多维度可扩展性、消融分析
  • 实用价值: ⭐⭐⭐⭐ — 高维 QD 的可行方案,但限于可微目标