Discount Model Search for Quality Diversity Optimization in High-Dimensional Measure Spaces¶

会议: ICLR2026
arXiv: 2601.01082
代码: discount-models.github.io
领域: LLM评测
关键词: Quality Diversity, MAP-Elites, CMA-MAE, Discount Model, High-Dimensional Measure Space

一句话总结¶

提出 Discount Model Search (DMS)，用神经网络拟合连续平滑的 discount 函数替代 CMA-MAE 中基于直方图的离散表示，解决高维 measure space 下 distortion 导致搜索停滞的问题，并首次实现以图像数据集直接定义 measure space（QDDM 范式）。

背景与动机¶

Quality Diversity (QD) 优化旨在找到一组既高质量又多样化的解集合：每个解不仅要最大化目标函数 \(f\)，还要在用户定义的 measure 函数 \(\bm{m}\) 输出空间中尽可能覆盖。经典应用包括机器人控制策略搜索、生成式建模和 LLM 红队测试等。

当前最先进的黑盒 QD 算法 CMA-MAE 使用直方图（histogram）将 measure space 划分为离散 cell，在每个 cell 中存储标量 discount 值来引导搜索。然而在高维 measure space 中，由于 distortion（大量解映射到 measure space 的狭小区域），很多解落入同一个 cell，获得相同的 discount 值，导致算法无法区分这些解的改进方向，搜索迅速停滞。

作者通过实验验证了这一现象：在 10D LP (Sphere) 基准上，CMA-MAE 每迭代采样 540 个解，但随时间推移落入不同 cell 的解数量从数百急剧下降到仅 30 个左右，表明高维 distortion 严重削弱了搜索信号。

核心问题¶

高维 distortion 放大效应：measure space 维度增高时，每个 cell 体积指数增大，更多具有相近 measure 的解被归入同一 cell，CMA-MAE 给予它们相同 discount 值，导致 CMA-ES 无法识别最大 archive improvement 方向
增大 archive 分辨率不可行：虽然更小的 cell 可缓解 distortion，但所需内存随维度指数增长
缺乏高维 measure 的应用范式：传统 QD 仅考虑 <10D 的手设 measure，难以扩展到以图像等高维数据作为 measure 的场景

方法详解¶

DMS 架构总览¶

DMS 保留 MAP-Elites 风格的 archive 和 CMA-ES emitter，但用神经网络 \(\hat{f}_A(\cdot; \psi)\) 替代直方图来表示 discount 函数。核心流程为两阶段循环：

阶段一：搜索（Search）

每个 emitter 从高斯分布 \(\mathcal{N}(\bm{\theta}^*, \bm{\Sigma})\) 采样 \(\lambda\) 个解
对每个解 \(\bm{\theta}_i\)，计算目标值 \(f(\bm{\theta}_i)\) 和 measure \(\bm{m}(\bm{\theta}_i)\)
通过 discount 模型计算 improvement：\(\Delta_i = f(\bm{\theta}_i) - \hat{f}_A(\bm{m}(\bm{\theta}_i))\)
按 \(\Delta_i\) 排名更新 CMA-ES 分布参数，引导搜索向 archive improvement 最大方向移动
若解优于当前 cell 中的解，替换之

阶段二：训练 Discount Model

每次迭代构建训练集 \(\mathcal{D}_A\)，包括两类数据：

解数据：对 emitter 采样的每个解，生成 \(({\bm{m}(\bm{\theta})}, t_A)\) 条目，其中 target \(t_A\) 仿照 CMA-MAE 的阈值更新规则：

\[t_A = \begin{cases} \hat{f}_A(\bm{s}) & \text{if } f(\bm{\theta}) \leq \hat{f}_A(\bm{s}) \\ (1-\alpha)\hat{f}_A(\bm{s}) + \alpha f(\bm{\theta}) & \text{if } f(\bm{\theta}) > \hat{f}_A(\bm{s}) \end{cases}\]

空 cell 数据：从 archive 中随机采样 \(n_{empty}\) 个未占据的 cell 中心，target 设为 \(f_{min}\)，防止模型在未探索区域产生虚高的 discount 值

关键设计¶

连续平滑性：神经网络天然输出连续函数，即便两个解 measure 非常接近，也能给出不同的 discount 值，提供准确的梯度方向
灵活架构选择：低维 measure 用 MLP，图像 measure 可用 CNN，文本 measure 可用 Transformer
"Empty Points" 正则化：对未探索区域的 clamping 机制，确保模型在未见过的 measure space 区域输出合理的低 discount 值
Archive Learning Rate \(\alpha\)：控制探索/利用平衡，\(\alpha=1\) 纯探索，\(\alpha=0\) 纯目标优化

QDDM：用数据集定义 Measure¶

DMS 支撑了一种全新的 QD 使用范式——Quality Diversity with Datasets of Measures (QDDM)：

不再手设低维 measure 函数，而是直接用数据集（如图像集）定义期望的 measure 空间
构建 CVT archive 时，以数据集样本为 Voronoi 中心点
基于 manifold hypothesis，高维数据实际分布在低维流形上，CVT 只需划分用户关心的子空间
距离函数可灵活选择（Euclidean、CLIP score 等）

实验关键数据¶

基准测试（LP 系列，20 trials）¶

基准	DMS QD Score	CMA-MAE QD Score	DMS Coverage	CMA-MAE Coverage
2D LP (Sphere)	6,978	6,328	95.9%	81.0%
10D LP (Sphere)	6,410	609	89.2%	7.0%
20D LP (Sphere)	7,406	882	96.0%	9.1%
50D LP (Sphere)	6,991	2,327	87.0%	24.2%
10D LP (Rastrigin)	5,139	247	88.2%	3.0%

高维场景下 DMS 优势极为显著：10D LP (Sphere) 上 QD Score 是 CMA-MAE 的 10.5 倍，Coverage 从 7% 提升到 89%。

QDDM 域（5 trials）¶

域	DMS QD Score	CMA-MAE QD Score	DMS Coverage	CMA-MAE Coverage
TA (MNIST)	951.56	954.27	99.84%	99.48%
TA (F-MNIST)	701.14	625.65	72.28%	63.92%
LSI (Hiker)	214.91	14.61	3.77%	1.56%

TA (MNIST) 的高 coverage 说明不是所有 QDDM 域都有强 distortion
LSI (Hiker) 中 DMS 显著优于 CMA-MAE（QD Score 215 vs 15），但绝对 coverage 仍较低（3.77%），体现复杂 QDDM 域的挑战
DMS 甚至在 diversity-only 的 LP (Flat) 域上超越了专为 diversity 设计的 DDS

计算开销¶

DMS 因训练 discount model 比 CMA-MAE 慢 2-3 倍（LP 基准），但在 QDDM 域中因解的评估（如 StyleGAN3 渲染）成为瓶颈，算法本身的开销差异不显著。

亮点¶

核心 insight 清晰有力：用连续模型替代离散直方图的想法简洁且效果显著，10D 以上维度实现数量级提升
QDDM 范式创新：首次提出用图像数据集直接定义 measure space，降低 QD 使用门槛——用户无需手设 measure 函数，只需提供期望的数据集
LSI (Hiker) 演示效果出色：生成的登山者图像确实按地形匹配了穿着风格（雪山穿厚外套、海滩穿轻装），直观展示了方法价值
实验全面：涵盖 9 个基准 + 3 个 QDDM 域，20/5 trials 统计检验严格（Welch ANOVA + Games-Howell）
消融实验完整：验证了 \(\alpha\) 和 \(n_{empty}\) 的关键作用

局限与展望¶

Discount 模型噪声：在需要精细目标优化的域（如 TA (MNIST)）中，模型误差作为噪声干扰 improvement 排名，DMS 无法超越 CMA-MAE 的精确直方图
LSI (Hiker) coverage 极低：仅 3.77%，说明在极高维复杂 QDDM 域中探索仍远未充分
计算成本：LP 基准上比 CMA-MAE 慢约 2-3 倍，大规模应用时训练 discount model 的开销不可忽视
CVT archive 的距离函数选择：当前仅探索了 Euclidean 和 CLIP score，更好的距离度量可能进一步提升性能
DDS 无法在 QDDM 域运行：KDE 运行时间随维度线性增长，限制了对比完整性
缺乏非图像 QDDM 实验：文中虽提到音频/文本，但未实际验证

与相关工作的对比¶

方法	核心机制	高维支持	优化目标
MAP-Elites	随机突变 + 网格 archive	差（指数内存）	QD
CMA-MAE	CMA-ES + 直方图 discount	差（同 cell 停滞）	QD
DDS	KDE 密度估计	中（KDE 慢）	仅 diversity
DMS	CMA-ES + 神经网络 discount model	强	QD

DMS 继承了 CMA-MAE 的 archive improvement 框架，但将离散直方图替换为连续模型，同时借鉴了 DDS 中平滑信号有利于探索的思想。与 DDS 不同，DMS 同时考虑目标值和多样性。

启发与关联¶

"用数据集替代手设函数" 的思路具有广泛迁移价值：在机器人策略搜索中，可以用目标行为演示代替手设 behavior descriptor；在 LLM 红队测试中，可以用攻击样本集定义多样性方向
连续模型替代离散计数器的思路可类比于经典的 count-based exploration → neural density estimation 的演进（如 RL 中的 RND、ICM）
QDDM 中 CLIP score 作为距离函数的做法，提示在其他高维空间中也可利用预训练模型的语义表征来定义 measure space 结构

评分¶

新颖性: ⭐⭐⭐⭐ (连续 discount model + QDDM 范式均为原创贡献)
实验充分度: ⭐⭐⭐⭐⭐ (12 个域、严格统计检验、全面消融)
写作质量: ⭐⭐⭐⭐ (动机阐述清晰，Figure 1 对比直观)
价值: ⭐⭐⭐⭐ (高维 QD 和 QDDM 范式有实际应用潜力)