Globscope: Toward a Global View of the Loss Landscape¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无(论文未提供)
领域: 优化 / 损失景观分析 / 可视化
关键词: 损失景观、全局可视化、自编码器、merge tree、mode connectivity
一句话总结¶
用一个可逆的自编码器把一堆独立训练好的网络(每个模型展平成参数向量)压进二维潜空间,再在这个潜空间上把"loss"当作标量场做拓扑分析(merge tree),第一次给出能同时容纳多个极小值/盆地及其连通关系的全局损失景观可视化,并用它复现 mode connectivity 与置换对称(re-basin)等理论现象。
研究背景与动机¶
领域现状:损失景观(loss landscape)是参数空间 \(\theta\) 上由损失函数 \(L(\theta)\) 定义的高维曲面,它的几何编码了泛化、优化难度、模型相似性等关键信息。但几百万维的参数空间没法直接看,所以历来都靠降维可视化。经典做法(Goodfellow 等的线性插值、filter-wise 归一化方向、Hessian 主曲率方向)几乎全是局部分析——只刻画单个训练好的解附近的曲面形状。
现有痛点:局部方法天生看不到"多个解之间的关系"。要做全局分析(多个独立训练的模型分别落在哪些盆地、盆地之间怎么连通),现有手段要么是基于度量的(CKA 相似度、mode connectivity 标量、LossLens 的图视角),只给数字不给连续的几何图像;要么是聚类嵌入(t-SNE / Isomap),能把模型聚成团却画不出盆地的几何组织与连通结构。
核心矛盾:一个合格的全局景观可视化必须同时满足两个互相拉扯的条件——(i) 在同一坐标系里表示多个极小值及其盆地;(ii) 逆映射:能把降维后的点映回原始参数空间,从而真的算出该点的 loss。线性方法(PCA)逆映射现成但表达不了多解诱导的非线性结构;非线性方法(Kernel-PCA、UMAP)表达力够却往往没有可靠的逆变换,实测画出来的全局图也没有有意义的几何信息。也就是说,"非线性表达力"和"可逆能算 loss"之间一直没被同时满足。
本文目标:造出第一个连续、可逆、几何感知的全局损失景观可视化工具,既能容纳多个极小值,又能把潜空间的点解码回权重去评估真实 loss。
切入角度:作者注意到自编码器(AE)天然是"编码器 + 可逆解码器"的结构——编码器给出低维嵌入提供表达力,解码器给出逆映射让你能算 loss。再叠一层拓扑数据分析(merge tree)把连续景观浓缩成可读的层级结构。
核心 idea:用可逆 AE 学一个低维参数流形代替线性投影/无逆非线性投影,再在流形上用 merge tree 做拓扑摘要,从而第一次让"全局损失景观"既看得见又算得出。
方法详解¶
整体框架¶
输入是一批独立训练好的神经网络(既包含同一条训练轨迹上每隔若干 epoch 采样的 checkpoint,也包含改了超参——batch size / 学习率 / weight decay 等——重训出的不同变体),把每个模型的可训练参数展平成一维向量 \(w_i \in \mathbb{R}^D\)。整条管线分三步把这堆高维向量变成一张可读的全局景观图:先用 AutoEncoder 把 \(\{w_i\}\) 压进 \(d\) 维潜空间(\(d \ll D\),主实验取 \(d=2\))得到流形 \(M\);然后在 \(M\) 上把每个潜空间点解码回权重、算出它的 loss,得到一个标量场 \(f: M \to \mathbb{R}\);最后对这个标量场算 persistence diagram 去噪、简化,再构造 merge tree,把景观浓缩成"极小值—鞍点—盆地"的层级树。得到的流形与树再被当作分析底座,去投影 mode connectivity 曲线、可视化 re-basin 后的模型落在哪个盆地。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:N 个独立训练模型<br/>+ 训练 checkpoint,展平成 w_i∈R^D"] --> B["可逆非线性流形<br/>AutoEncoder 学 d 维潜空间 M"]
B --> C["loss 标量场 + 拓扑摘要<br/>f:M→R + persistence diagram → merge tree"]
C -->|当分析底座| D["两个下游验证<br/>mode connectivity / re-basin"]
关键设计¶
1. 可逆非线性流形:用自编码器同时拿到表达力和逆映射
这一步直击"非线性表达力"与"可逆能算 loss"不可兼得的核心矛盾。作者把模型集合 \(\{w_i\}_{i=1}^N\) 喂进一个自编码器 \(A=(E,D)\),编码器 \(E:\mathbb{R}^D\to\mathbb{R}^d\) 把高维参数向量映到 \(d\) 维潜表示,解码器 \(D:\mathbb{R}^d\to\mathbb{R}^D\) 再重建回原空间;编码器是三层逐渐变窄的隐层(宽度 128、64、16),后接维度 \(d<16\) 的潜层。训练目标就是均方重建损失
之所以选 AE 而不是 PCA:PCA 逆映射现成但只能线性表达,装不下多个独立解诱导的非线性结构;而 Kernel-PCA / UMAP 虽非线性,逆变换却只是近似且不稳定,实测重建误差高、画出的潜空间没有可读的盆地几何(见实验 Table 1)。AE 的解码器 \(D\) 提供了一个学到的、误差极小的逆映射,于是潜空间里任意一点都能解码回权重、评估真实 loss——这正是"既看得见又算得出"的前提。另外,不同于前人把 AE 潜空间锁死在二维,本文允许 \(d\) 灵活取 2/3/4 乃至更高(主结果取 \(d=2\) 只为和已有方法对齐比较),从而能分析超出二维投影的高维非线性结构。
2. loss 标量场 + merge tree 拓扑摘要:把连续景观浓缩成可读的层级树
光有连续流形还不够直观——盆地有几个、谁和谁通过鞍点相连,肉眼在散点图上数不清。作者在流形 \(M\) 上定义标量函数 \(f:M\to\mathbb{R}\),给每个潜空间点赋上"其解码模型的 loss 值",然后用 merge tree(具体是 join tree) 描述这个标量场的拓扑:它追踪子水平集 \(M_a=\{x\in M\mid f(x)\le a\}\) 的连通分量随阈值 \(a\) 升高如何"出现"和"合并"——新分量在局部极小处诞生、在鞍点处合并,最终长成一棵树 \(T_J\),根节点对应全局最大、叶节点代表各自独立的盆地/局部极小、内部节点是连接相邻盆地的鞍点。为避免树被大量低显著度的噪声特征淹没,先算 persistence diagram 挑出最显著的拓扑特征再做简化(实现上借助 ParaView 的 Topology Toolkit TTK 完成去噪与特征抽取)。这一步把"一张连续的彩色景观图"翻译成"七个叶子分别对应七个模型变体"的层级结构,让盆地数量与连通关系一目了然。
3. 当分析底座:投影 mode connectivity 与 re-basin 来验证景观的几何忠实度
前两步给出的是工具,这一步用两个已被理论刻画的现象来检验"这张景观图是不是真的忠实于原始 loss 几何"。其一是 mode connectivity:Garipov 等指出两个最优解常能被一条 loss 几乎不变的低损曲线连起来;作者按其算法在七个 ResNet56 变体间两两算出低损曲线,把曲线上的中间点投影到学到的二维景观上,看它们是否贴着可视化里的低损通路走。其二是置换对称 / re-basin:独立训练的模型考虑层间置换不变性后可被线性连通;作者用 DEEP-ALIGN 算出对齐置换矩阵、把一个模型 re-basin 到另一个的盆地,再投影到景观里,看 re-basin 后的网络是否真的落进了配对模型所在的同一盆地。这两个应用本身不提出新算法,而是把景观当"显微镜"去复现并可视化已知理论——既验证工具的几何忠实度,也反过来给 re-basin / mode connectivity 这类方法提供了前所未有的定性观察手段。
损失函数 / 训练策略¶
唯一的训练目标就是上面的重建损失 \(\mathcal{L}_{rec}\)(参数向量的 MSE),没有额外正则。merge tree 侧不涉及训练,是对已学好流形的后处理(persistence + 简化 + TTK 抽取临界点)。
实验关键数据¶
主实验¶
评测数据是七个 ResNet56 变体(A–G,通过改 batch size / 学习率 / weight decay 等生成)在 CIFAR-10 上训练,外加每条轨迹每 10 个 epoch 的 checkpoint。第一项硬指标是重建误差(衡量逆映射可靠性),AE 把 Kernel-PCA、UMAP 甩开几个数量级:
| 降维方法 | 重建损失(ResNet56,约 857 万参数,CIFAR-10) |
|---|---|
| Kernel-PCA | 0.004270 |
| UMAP | 0.501484 |
| AutoEncoder(本文) | 0.000007 |
定性上(Figure 3),UMAP 和 Kernel-PCA 虽能给出连续潜空间,却看不出盆地几何;AE 学到的流形把不同变体的盆地清晰分开,且与聚类方法(MDS、Isomap)结论一致——变体 D 都被单独甩在景观一角。对 AE 流形做 merge tree 得到恰好七个叶节点,分别对应七个变体,完整捕捉了主要极小值与鞍点。
下游验证实验¶
mode connectivity 投影(Table 2):把 mode connectivity 算法生成的真实低损曲线,与投影到学到二维景观上对应曲线的 loss 做逐点对比,两者 loss 范围高度吻合、中位绝对误差 \(<0.01\):
| 模型对 | MC 曲线 loss 范围 | 景观投影 loss 范围 | MAE |
|---|---|---|---|
| G–A | 2.308–2.335 | 2.304–2.331 | 0.007 |
| G–B | 2.305–2.352 | 2.317–2.353 | 0.016 |
| G–C | 2.304–2.322 | 2.310–2.326 | 0.011 |
| G–D | 2.308–2.322 | 2.305–2.335 | 0.011 |
| G–E | 2.306–2.322 | 2.305–2.323 | 0.006 |
| G–F | 2.305–2.358 | 2.307–2.358 | 0.014 |
作为对照,Kernel-PCA 分不开盆地、投影曲线毫无结构可言;UMAP 能分开盆地但内部几何被破坏,曲线在盆地里乱抖;只有 AE 给出平滑、可解释、贴合已知连通性的轨迹。
re-basin 可视化:用 DEEP-ALIGN 在 MNIST-MLP 上取 32 对独立训练模型、共 64 个 checkpoint 建联合景观;对每对算对齐置换并作用到其中一个模型,re-basin 后的网络在景观里始终落进配对模型的同一盆地,与理论预测一致。UMAP 因聚类能力也能把 re-basin 模型聚到一起,但其 loss 值范围极大(逆变换不稳、重建误差高所致);Kernel-PCA 直接画不出有意义的景观。进一步把同一置换施加到整条训练轨迹的每个 epoch,变换后的轨迹会平滑地演化向对齐模型,说明对齐关系在训练全程大体稳定——AE 流形比其他方法更清晰地呈现了这一行为。
关键发现¶
- 可逆性是分水岭:AE 重建损失(7e-6)比 Kernel-PCA / UMAP 低 3–5 个数量级,这直接决定了"潜空间点能否算出可信 loss",也是 UMAP 那种 loss 范围动辄上万的失真根源。
- merge tree 叶子数 = 变体数(7):拓扑摘要的临界点结构与真实模型集合自洽,说明流形没有把盆地揉乱或多造盆地。
- 景观对已知理论的双重复现:mode connectivity 的 MAE \(<0.01\)、re-basin 模型落入同盆,两项独立证据共同支撑"学到的流形忠实于原始 loss 几何"。
亮点与洞察¶
- 用 AE 的解码器当"逆映射"是点睛之笔:可视化领域长期被"非线性强但不可逆"卡住,作者把这个工程化的 AE 重建能力直接当成评估 loss 的逆变换,一举绕开 Kernel-PCA/UMAP 近似逆的不稳定——这是个可迁移的思路(任何需要"降维后还要回到原空间算目标值"的场景都能借鉴)。
- 把 loss 当潜空间上的标量场 + merge tree,等于把"看散点猜盆地"变成"读一棵树数盆地",定量化了原本只能定性的全局结构;且 merge tree 支持高于二维的分析,突破了前人 AE 景观锁死二维的限制。
- 最"啊哈"的是:这套工具不证明新定理,却给 mode connectivity、re-basin 这些只有标量度量的理论第一次提供了连续几何画面,把抽象结论"画"了出来。
局限与展望¶
- 潜维度受采样诅咒限制:作者承认 \(d\) 越大、采样需求指数增长,主结果只能停在 \(d=2\),3D 仅放在附录,真正的高维全局结构仍难分析。
- 缺乏全局最优路径的客观评判:原文坦言"没有有效办法验证网格里的路径是否真是最低损路径",mode connectivity 的吻合只是视觉/范围层面的旁证,⚠️ 严格的最优性证明缺位。
- AE 需对一批模型重训:流形是针对给定模型集合学出来的,换一批模型或换架构(论文只在 ResNet56 / MNIST-MLP 上验证)需重新训练 AE,跨架构/大模型的可扩展性未知。
- 改进思路:引入显式保持 loss 距离的正则、或用更可控的归一化流替代 AE 以获得更稳的高维逆映射。
相关工作与启发¶
- vs 局部可视化(Goodfellow 线性插值 / filter-wise 归一化 / Hessian 方向):它们只刻画单个解邻域的曲率,本文做的是跨多个独立解的全局视图,能看到盆地间连通——这是从"局部切片"到"全局地图"的跃迁。
- vs 度量法(CKA / mode connectivity / LossLens):度量法只给数字或图结构、不产生连续几何,也无法在参数空间里合成新点;本文给出连续可逆流形,能解码任意潜点算 loss,从而揭示盆地几何与低能路径等度量法看不到的细节。
- vs 非线性降维(Kernel-PCA / UMAP / t-SNE / Isomap):这些方法要么逆变换不可靠(Kernel-PCA、UMAP 重建误差高),要么根本没有逆映射(t-SNE),实测画不出有意义的全局盆地几何;本文以 AE 的低误差解码器兼得表达力与可逆性。
- vs Elhamod & Karpatne 的 AE 景观:本文沿用其 AE 降维思路,但解除了"二维潜空间"的限制并叠加 merge tree 拓扑摘要,把单纯的嵌入升级为可做拓扑分析的全局工具。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个能同时容纳多盆地、又可逆评估 loss 的全局景观可视化,切入点(AE 解码器当逆映射)干净有效。
- 实验充分度: ⭐⭐⭐ 重建误差 + 两个理论现象复现颇有说服力,但模型只覆盖 ResNet56/MNIST-MLP 两个小设置、主结果停在二维。
- 写作质量: ⭐⭐⭐⭐ 动机链条(局部→全局、表达力↔可逆的矛盾)讲得清楚,merge tree 与应用衔接自然。
- 价值: ⭐⭐⭐⭐ 给 model merging / 联邦学习 / 超参选择等几何感知决策提供了可视化底座,工具属性强。