Enhancing Interpretability in Deep Reinforcement Learning through Semantic Clustering¶

会议: NeurIPS 2025
arXiv: 2409.17411
代码: github.com/ualiangzhang/semantic_rl
领域: 强化学习
关键词: interpretability, semantic clustering, VQ-VAE, dimensionality reduction, Procgen

一句话总结¶

提出语义聚类模块(SCM)，将特征降维网络(FDR)与改进的 VQ-VAE 在线聚类相结合，无缝集成到 DRL 训练流程中，解决了 t-SNE 可视化不稳定的问题，揭示 DRL 内在具有基于语义的动态聚类特性。

研究背景与动机¶

领域现状：深度强化学习(DRL)在机器人、游戏等领域广泛应用，但其"黑盒"决策过程缺乏可解释性。语义聚类在 NLP（Word2Vec、GloVe）和 CV（图像特征空间）中已被充分研究，但在 DRL 中仍欠探索。

现有痛点：(a) 先前工作（Mnih et al. 2015, Zahavy et al. 2016）仅在 Atari 固定场景游戏上用 t-SNE 分析 DRL 特征，无法区分聚类是来自像素相似性还是语义理解；(b) t-SNE 结果不稳定——对初始化、随机种子、样本数量高度敏感；(c) t-SNE 没有自动聚类机制，需要大量人工标注。

核心矛盾：要理解 DRL 模型的内部语义组织，需要稳定、自动化的聚类方法，但现有可视化工具不满足这些要求。

本文目标：(a) 验证 DRL 是否内在具有语义聚类能力（排除像素相似性混淆因素）；(b) 提供稳定的替代 t-SNE 的分析工具；(c) 基于聚类结果开发策略分析方法。

切入角度：使用 Procgen 而非 Atari——Procgen 的程序生成关卡确保场景多样性，如果聚类仍然成立则说明是真正的语义理解而非像素记忆。将 VQ-VAE 的离散编码机制改造为在线聚类工具。

核心 idea：用改进 VQ-VAE 的 codebook 作为在线聚类中心，与 DRL 端到端训练，既增强聚类质量又保持策略性能。

方法详解¶

整体框架¶

在标准 DRL（如 PPO）的特征提取器 \(f\) 之后接入语义聚类模块(SCM)。SCM 包含两部分：(1) FDR 网络 \(g\) 将高维特征降到 2D；(2) VQ 量化器将 2D 特征分配到最近的 codebook 嵌入（相当于聚类）。VQ 编号 \(k\) 通过维度扩展后加回原始特征，实现条件化策略训练 \(\pi(a|s,k)\)。

关键设计¶

特征降维网络 (FDR Network):
- 功能：学习一个从高维特征到 2D 的稳定映射，替代 t-SNE
- 核心思路：训练 FDR 网络 \(g\) 使低维空间保持高维空间的距离关系。使用 Student's t-分布计算成对相似度： \(p_{ij} = \frac{d(i,j)}{\sum_{k\neq l}d(k,l)}, \quad d(m,n) = \left(1+\frac{\|f(\mathbf{s}_m)-f(\mathbf{s}_n)\|^2}{\alpha}\right)^{-\frac{\alpha+1}{2}}\) FDR 特征的相似度 \(q_{ij}\) 同公式但用 \(g \circ f\) 替代 \(f\)。FDR 损失为交叉熵：\(\mathcal{L}_{\text{FDR}} = -\sum_i\sum_j p_{ij}\log(q_{ij})\)
- 设计动机：t-SNE 不稳定因为其非凸目标函数对初始化敏感。FDR 网络训练后产生确定性映射，不随随机种子或样本数变化
- 与 t-SNE 的关键区别：高维和低维使用相同的自由度参数 \(\alpha\)，确保原始距离关系被严格保持（不只保留近邻关系）
改进的 VQ-VAE 在线聚类:
- 功能：自动将 FDR 特征分配到离散聚类
- 核心思路：仅保留 VQ-VAE 损失的第二项（嵌入更新项），使 codebook 嵌入作为在线 k-means 聚类中心：\(\mathcal{L}'_{\text{VQ-VAE}} = \|sg[g(f(\mathbf{s}))] - \mathbf{e}_k\|_2^2\)，其中 \(\mathbf{e}_k\) 是最近的 codebook 嵌入
- 设计动机：(a) 丢弃 VQ-VAE 的重建项（不需要重建观测）和 commitment loss（由 FDR 损失替代）；(b) stop-gradient 防止聚类目标直接拉动 FDR 特征，而是通过 \(\mathcal{L}_{\text{FDR}}\) 联合训练间接增强聚类紧致性
条件化策略训练:
- 功能：将聚类信息注入策略
- 核心思路：VQ 编号 \(k\) 先扩展到特征维度 \(\mathbf{k}^{\text{expand}} = \text{expand}(k, \dim(\mathbf{f}))\)，然后与原始特征逐元素相加 \(\mathbf{f}^{\text{fused}} = \mathbf{f} + \mathbf{k}^{\text{expand}}\)，策略和值函数基于融合特征输出
- 设计动机：使策略能利用聚类信息，为下游分层学习奠定基础（如将聚类作为 macro-action 选择的基础）
自适应控制因子 \(\lambda_{\text{ctrl}}\):
- 功能：在训练早期降低 SCM 损失权重
- 核心思路：根据训练性能动态调整 \(\lambda_{\text{ctrl}}\)，早期语义分布不清晰时减小权重避免干扰策略学习
- 设计动机：有效的语义聚类依赖清晰的语义分布，训练早期尚未形成

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{DRL}} + \lambda_{\text{ctrl}}(w_{\text{FDR}}\mathcal{L}_{\text{FDR}} + w_{\text{VQ-VAE}}\mathcal{L}'_{\text{VQ-VAE}})\)

联合训练 PPO 参数 \(\theta\)、FDR 参数 \(\phi\)、codebook 嵌入 \(\{\mathbf{e}_k\}_{k=1}^K\)。使用 \(K=8\) 个聚类。

实验关键数据¶

t-SNE vs FDR 稳定性对比¶

对比维度	t-SNE	FDR (本文)
改变随机种子	可视化结构剧变	映射完全不变
减少 50% 样本	分布结构改变	仅密度降低,空间分布不变
聚类边界	无清晰边界,需人工检查	清晰分离的聚类
自动聚类	不支持	VQ 编码自动分配
分析方式	静态可视化	支持动态策略分割

人类评估结果 (5点 Likert 量表)¶

评估声明	Jumper	FruitBot	Ninja
每个聚类一致展示相同技能	4.24 (±0.15)	4.10 (±0.11)	4.30 (±0.15)
聚类匹配给定的技能描述	4.36 (±0.16)	4.16 (±0.11)	4.20 (±0.17)
识别的技能助于理解决策过程	4.50 (±0.22)	4.10 (±0.18)	4.20 (±0.20)

所有评分均 >4.0（15名评估者），说明人类普遍认同 DRL 具有有意义的语义聚类属性。

聚类语义分析示例 (Ninja 游戏, 8 个聚类)¶

聚类	语义描述
0	在第一个平台行走,然后高跳到更高平台
1	在场景中部做小跳
2	从最左端走到起始位置/在无更高平台时行走准备
3	在平台上走动准备跳到更高平台
4	高跳后失去下方平台视线
5	在平台上走动准备跳到同高或更低平台
6	高跳中但保持下方平台可见
7	向场景右边移动并触碰蘑菇

关键发现¶

语义聚类是 DRL 的内在属性：不依赖外部约束（如 bisimulation 或对比学习），DRL 模型内在地按语义组织特征空间
动态而非静态的聚类：与 NLP/CV 中基于单个输入的聚类不同，DRL 的语义聚类是时序的——连续的状态序列被归为同一聚类，可用自然语言描述（类似"技能"）
超越像素距离：在 Procgen 的程序生成关卡中，视觉完全不同的状态因语义相同被聚到一起，证明聚类基于语义理解而非像素相似
策略层次发现：Episode 的聚类分割揭示了策略的层次结构（cluster 5→7 的切换由右侧墙壁检测驱动而非蘑菇出现）
SCM 对策略性能影响可忽略：集成 SCM 后 PPO 的游戏性能基本不变

亮点与洞察¶

VQ-VAE 的巧妙改造：将生成模型的量化机制重新解释为聚类工具——去掉解码器和重建损失，只保留嵌入更新项。这个"减法创新"简洁有效
聚类 = 技能的自然发现：每个聚类对应一个人类可理解的行为阶段（"走到平台边缘"、"高跳"、"触碰蘑菇"），这暗示可以将聚类直接用作分层 RL 中的选项/宏动作
可视化工具的实用性：交互式 hover 工具和动态 episode 分割为 DRL 调试提供了新的分析范式——观察聚类切换点可以发现策略错误（如 Figure 6c 中误检测右侧墙壁的案例）

局限与展望¶

聚类数量的选择：使用固定 \(K=8\)，未探索自适应聚类数量方法（如 elbow method、silhouette score）
依赖清晰的语义分布：当策略远离最优时语义分布模糊，聚类不稳定
人工语义描述：聚类的语义标签仍需人工提供（每个环境约 15 分钟），作者计划用 GPT-4V 自动化
仅在 Procgen 验证：未在连续控制或更复杂任务（如 StarCraft）中验证
聚类使用的 affinity：当前使用 Student's t-分布成对相似度，可探索余弦相似度或 bisimulation metric

评分¶

新颖性: ⭐⭐⭐⭐ VQ-VAE 改造为聚类工具的 idea 简洁优雅,DRL 语义聚类的系统性研究填补空白
实验充分度: ⭐⭐⭐ Procgen 上三个游戏的分析+人类评估=基本充分，但缺乏连续控制和复杂多主体场景
写作质量: ⭐⭐⭐⭐ 图表丰富，可视化出色，方法说明清晰
价值: ⭐⭐⭐⭐ 揭示 DRL 内在语义组织的分析工具，对可解释 RL 和分层 RL 都有启发