Symmetric Space Learning for Combinatorial Generalization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=e8t9F4vX9N
代码: 未提供
领域: 自监督学习 / 表示学习 / 组合泛化
关键词: [组合泛化, 对称空间, Lie 代数, 测地对称, Flow Matching]

一句话总结¶

这篇论文提出 CartanFM，把潜表示空间约束成对称空间，并用 Cartan 分解与测地对称一致性把已观测组合上的对称性外推到未观测组合，在 dSprites、3D Shapes、MPI3D 等组合泛化基准上显著优于 VAE 与已有对称学习方法。

研究背景与动机¶

领域现状：组合泛化（Combinatorial Generalization, CG）关心模型能否从见过的语义因子组合推广到没有见过的新组合。例如训练集中可能出现过某种形状、颜色、位置，但没有出现过它们的某个特定组合；理想的表示学习模型应该理解这些因子本身，而不是只记住训练集里的联合分布。

现有痛点：过去一条重要路线是用对称性或群作用来建模语义变化。直觉上，位置平移、旋转、尺度变化等都可以看成在保持对象身份的同时改变某个因素，因此学习这些变换有助于组合泛化。但论文指出，现有对称学习方法通常只从观测样本中学习群作用；当训练数据只覆盖语义流形的一部分时，学到的变换也容易被限制在观测区域内，不能自然到达未观测区域。

核心矛盾：问题不在于群论无法表达全局对称，而在于模型只看到了局部数据。若把训练集上的变换直接当成完整空间的变换，模型缺少一个原则性机制来说明“同样的对称性应该如何延伸到未见过的组合”。作者把这个缺口命名为 symmetry generalization：从 \(X_{obs}\) 中学到的对称群 \(G_{obs}\)，未必存在某个 \(g \in G_{obs}\) 和 \(x_{obs} \in X_{obs}\) 能够生成 \(x_{new} \in X \setminus X_{obs}\)。

本文目标：论文希望构造一种表示空间，使模型不仅能在观测区域内学到局部变换，还能借助几何结构把这些变换外推到未观测区域。更具体地说，作者需要同时解决两个子问题：第一，真实数据背后的对称群和稳定子群未知，不能预先指定；第二，只靠观测数据学到的结构需要有额外约束，才能对未观测组合保持一致。

切入角度：作者选择对称空间（symmetric space）作为潜空间的几何先验。对称空间是一类特殊的齐性空间，既有足够强的全局几何结构，又有一个可操作的局部性质：任意点附近的测地线都可以通过该点做“反射”。在以原点为基准的切空间里，这种测地对称可以简化为 \(P \mapsto -P\)，这让“生成未见样本并要求编码一致”变成一个可训练的自监督信号。

核心 idea：用可学习 Lie 代数的 Cartan 分解给潜空间施加对称空间结构，再用测地对称一致性把观测样本的表示取负并回编码，从而强迫模型学到能跨出训练区域的对称性。

方法详解¶

整体框架¶

本文的方法名为 CartanFM，它把表示学习、对称空间几何和 Flow Matching 生成模型接在一起。输入样本先经过 Lie Algebra Encoder，得到 Lie 代数子空间 \(\mathfrak{p}\) 中的切向量 \(P\)；这个 \(P\) 一方面作为条件控制 Conditional Flow Matching 的生成过程，另一方面参与 Cartan Loss 和 Geodesic Symmetry Consistency Loss，分别约束局部代数结构与未见区域的一致性。

从训练角度看，CartanFM 有两条互补路径。主路径用 \(P\) 条件化向量场，让模型能重构或生成数据；几何结构路径则把可学习基矩阵组织成符合 Cartan 分解的 \(\mathfrak{k} \oplus \mathfrak{p}\)，并利用 \(-P\) 近似对称空间中的测地反射，制造一个自监督循环来检查编码器是否把“反射后的样本”映射回相反的切向量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入样本 x"] --> B["Lie Algebra Encoder<br/>输出系数"]
    B --> C["Cartan 对称空间约束<br/>学习 k 与 p"]
    C --> D["切向量 P 条件化<br/>Flow Matching"]
    D --> E["重构 / 生成样本"]
    C --> F["测地对称一致性<br/>P 取负再回编码"]
    F --> G["外推到未观测组合"]

关键设计¶

1. 对称泛化：把组合泛化的失败定位到“学到的对称性不能出训练区域”

论文最重要的概念性贡献，是把已有对称学习方法的短板从“表示不够解耦”进一步拆成“对称性本身没有泛化”。如果训练数据只覆盖完整语义空间 \(X\) 的子集 \(X_{obs}\)，模型从这个子集里学到的 \(G_{obs}\) 只保证能解释观测样本之间的变换；对一个未见组合 \(x_{new}\)，并没有理由相信存在 \(g \cdot x_{obs} = x_{new}\)。这个表述让问题从经验性的 benchmark 失败，变成了一个清晰的结构缺口：模型需要一种在观测区域之外仍然有定义的几何操作。

对称空间正好给这个缺口提供了可训练的抓手。齐性空间的直觉是“任意点之间可以由群作用连接”，但真实任务里全局群作用未知，直接学习完整 \(G\) 太难。作者退一步使用对称空间的测地反射性质：只要潜空间被塑造成某个 \(G/K\)，以原点为中心的测地对称在切空间中就是简单的取负。这样，模型不用显式知道完整群作用，也能通过 \(P\) 与 \(-P\) 的关系训练一种跨区域的外推约束。

2. Cartan Loss：用可学习 Lie 代数基底把潜空间塑造成对称空间

为了让潜表示真的具有对称空间的代数结构，作者不预设具体的 Lie 群，而是学习两组基矩阵：\(\{K_i\}\) 表示子代数 \(\mathfrak{k}\) 的基，\(\{P_j\}\) 表示切空间方向 \(\mathfrak{p}\) 的基。编码器输出系数 \(c_k\) 与 \(c_p\)，再线性组合成 \(K = \sum_i c_{k,i}K_i\) 和 \(P = \sum_j c_{p,j}P_j\)。其中 \(P \in \mathfrak{p}\) 直接作为 Flow Matching 的条件，\(\mathfrak{k}\) 和 \(\mathfrak{p}\) 的基底则由 Cartan Loss 约束。

对称空间对应的 Cartan 分解要求 \(\mathfrak{g}=\mathfrak{k}\oplus\mathfrak{p}\)，并满足三类 Lie bracket 关系：\([\mathfrak{k},\mathfrak{k}]\subseteq\mathfrak{k}\)、\([\mathfrak{k},\mathfrak{p}]\subseteq\mathfrak{p}\)、\([\mathfrak{p},\mathfrak{p}]\subseteq\mathfrak{k}\)。论文把这些关系转成基底级别的投影误差或正交约束：若 \([K_i,K_j]\) 本应落在 \(\mathfrak{k}\)，它就不该投到 \(\mathfrak{p}\)；若 \([K_i,P_j]\) 本应落在 \(\mathfrak{p}\)，它就不该投到 \(\mathfrak{k}\)；若 \([P_i,P_j]\) 本应落在 \(\mathfrak{k}\)，它就不该投到 \(\mathfrak{p}\)。这相当于让网络自己发现一套局部代数坐标，而不是要求研究者提前告诉它数据的群结构。

3. 测地对称一致性：用 \(P \mapsto -P\) 构造面向未见组合的自监督循环

仅有 Cartan Loss 还不够，因为它主要根据观测样本学习局部结构，仍可能只在训练区域内成立。GSC Loss 的作用是把对称空间的测地反射变成训练信号：先把观测样本 \(x_{obs}\) 编码成 \(P\)，再用 \(-P\) 生成一个候选样本，最后把候选样本重新编码，并要求得到的表示接近 \(-P\)。理想情况下，这个候选样本落在原样本关于原点的“对称位置”，它很可能对应训练集中没有出现过的因子组合。

完整地用 Flow Matching 解 ODE 生成候选样本会很贵，所以实现中作者使用一步近似：从原始数据 \(x_0\) 出发，沿着以 \(-P\) 为条件的向量场走一步，得到 \(x_0 + (1-\sigma_{min})\cdot v(x_0,t=0,-P;\theta)\)，再用编码器检查它是否回到 \(-P\)。对应损失可以写成 \(L_{GSC}=\mathbb{E}\|Encoder(x_0+(1-\sigma_{min})v(x_0,0,-P;\theta))+P\|^2\)。这个设计的妙处在于，它不是简单做数据增强，而是把“反射后应该编码为相反切向量”写进目标函数，从而把几何对称性外推到训练集之外。

4. Flow Matching 条件生成：让 Lie 代数表示真正能解码成样本

论文没有把 Cartan 结构放在普通 VAE 上就结束，而是把 \(P\) 接入 Conditional Flow Matching。Flow Matching 学的是从噪声分布到数据分布的概率流，向量场 \(v(x,t,P)\) 被 \(P\) 条件化；采样时通过 ODE 解出数据，训练时用标准 \(L_{CFM}\) 学习向量场。这个选择和论文目标是匹配的：Cartan 结构给出切空间中的几何方向，Flow Matching 则提供一个可微、连续、条件化的生成动力系统，使这些方向能对应到数据空间的变化。

球面实验里的消融也说明了这个选择不是装饰。只把 Cartan module 接在 VAE 上，Chamfer distance 反而很差；而 Cartan + Flow Matching 已经能显著改善未见区域重构，再加 GSC 后进一步达到最好。这说明论文的结构不是“任意生成模型 + 一个几何正则项”，而是需要一个能把切向量条件稳定转成样本流的生成骨架。

一个完整示例¶

可以用 dSprites 的 R2R 设置来理解 CartanFM 的训练过程。假设训练集中见过心形、方形、椭圆，也见过不同位置，但刻意排除了“心形出现在右半区域”这一组合。普通 VAE 可能只学到训练分布的平均外观，生成右半区域样本时变成模糊块；已有对称方法如果只从观测区域学习变换，也可能不知道如何把心形移动到缺失区域。

CartanFM 会先把一个观测样本编码成切向量 \(P\)，例如“心形在左侧”的某个表示。Cartan Loss 让这一类表示所在的 \(\mathfrak{p}\) 与隐藏的稳定方向 \(\mathfrak{k}\) 满足对称空间的 bracket 关系；GSC 再取 \(-P\)，让 Flow Matching 产生一个反射候选，并要求候选被重新编码回 \(-P\)。如果这个反射方向正好跨过训练区域边界，模型就会在没有直接监督的情况下学到“心形可以出现在右侧”这类未观测组合的表示约束。

这个例子也解释了为什么论文强调 symmetry generalization，而不只是 reconstruction。模型并不是只要重构训练样本好看就行；它需要在训练时不断面对由 \(-P\) 诱导出来的候选区域，并让编码器与生成器在这些区域上自洽。最终评价时，未见组合的 MSE 和可视化质量才会同步改善。

损失函数 / 训练策略¶

完整目标由生成损失、VAE 风格正则和两个几何损失组成：\(L=L_{CFM}+\beta L_{KL}+\lambda_{Cartan}L_{Cartan}+\lambda_{GSC}L_{GSC}+\epsilon L_{basis}\)。其中 \(L_{basis}=\sum_i 1/\|K_i\|_1 + \sum_j 1/\|P_j\|_1\) 用来防止可学习基底塌缩到零，否则 Cartan Loss 可能通过退化解被虚假满足。

实验中，基准组合泛化任务的模型训练 100 个 epoch，优化器为 Adam，学习率 \(5\times 10^{-4}\)；附录给出的 CartanFM 超参包括 \(\lambda_{Cartan}=1.0\)、\(\lambda_{GSC}=1.0\)、\(\epsilon=0.001\)、\(\beta=0.01\)。在图像任务中，Flow Matching 的生成模块采用简化 UNet，并用 AdaGN 将 Lie 代数条件注入各个块；解码时使用 Euler ODE solver。球面点云分析则使用 PointNet 风格模块，学习率为 \(10^{-4}\)，并设置 \(\lambda_{Cartan}=0.1\)。

实验关键数据¶

主实验¶

论文先在一个 3D 球面点云任务上验证几何主张：训练数据只覆盖 270 度弧，测试数据来自完全未观测的 90 度弧。结果显示，普通 VAE 和 Cartan VAE 都无法可靠重构未见球面区域，而带 Cartan 的 Flow Matching 已经明显有效；加入 GSC 后 Chamfer distance 最低。

任务 / 数据集	指标	本文	之前最好或关键基线	提升
球面未见 90 度弧重构	Chamfer distance ↓	Cartan + FM + GSC: 0.0061	Cartan + FM: 0.0068	约 10.3% 相对降低
球面未见 90 度弧重构	Chamfer distance ↓	Cartan + FM + GSC: 0.0061	Vanilla VAE: 0.0601	约 89.9% 相对降低
球面未见 90 度弧重构	Chamfer distance ↓	Cartan + FM + GSC: 0.0061	Cartan + VAE: 0.5763	大幅降低，说明仅加 Cartan 到 VAE 不够

在标准组合泛化基准上，论文使用 dSprites、3D Shapes 和 MPI3D，分别考察 R2E 与 R2R 两类 split，每类三个 case。下表摘出最能说明问题的结果：CartanFM 在 MPI3D 上几乎所有 case 都有数量级优势，在 dSprites 的 R2R 上也明显优于 MAGANet 和 CLGVAE。

数据集 / 设置	指标	CartanFM	强基线	备注
dSprites R2E Case2	MSE ↓	1.10	MAGANet 10.63	对称基线中本文最低
dSprites R2R Case1	MSE ↓	7.02	MAGANet 115.46	R2R 难例上差距很大
3D Shapes R2E Case1	MSE ↓	5.20	CLGVAE 15.54 / MAGANet 16.79	更复杂因子组合仍有效
3D Shapes R2R Case3	MSE ↓	6.68	VAE 13.65 / MAGANet 18.87	未见范围组合上最优
MPI3D R2E Case3	MSE ↓	0.51	MAGANet 6.56 / VAE 6.51	复杂真实感数据上优势突出
MPI3D R2R Case2	MSE ↓	0.76	MAGANet 7.71 / VAE 6.91	大幅优于显式对称基线

消融实验¶

消融集中分析 \(L_{Cartan}\) 与 \(L_{GSC}\) 的贡献。总体趋势是，两者单独加入通常能改善表现，但最稳定的是二者联合；尤其在 R2R 这类需要跨范围外推的设置中，GSC 的作用更明显。

数据集 / Case	配置	关键指标	说明
dSprites R2R Case1	无 \(L_{Cartan}\)、无 \(L_{GSC}\)	29.06	Flow Matching backbone 自身难以稳定外推
dSprites R2R Case1	仅 \(L_{GSC}\)	13.11	测地对称一致性显著改善未见区域
dSprites R2R Case1	\(L_{Cartan}\) + \(L_{GSC}\)	7.02	完整结构最好
3D Shapes R2E Case1	无两项损失	9.70	基础模型能学部分重构，但泛化有限
3D Shapes R2E Case1	仅 \(L_{Cartan}\)	6.00	代数结构本身有帮助
3D Shapes R2E Case1	\(L_{Cartan}\) + \(L_{GSC}\)	5.20	两个几何约束叠加后最低
3D Shapes R2R Case3	无两项损失	8.97	未见范围仍有错误
3D Shapes R2R Case3	完整模型	6.68	完整模型改善最明显

关键发现¶

球面实验是全文最干净的机制验证：Cartan + VAE 的失败说明“学代数结构”本身不是充分条件，必须配合能使用切向量条件的生成过程；Cartan + FM 的成功说明 Flow Matching 与 Lie algebra 条件更契合。
GSC 对 R2R 更关键，因为 R2R 的测试组合通常跨出训练范围，而不是只重组已见元素。通过 \(P \mapsto -P\) 训练反射一致性，正好针对这种越界外推。
CLGVAE 与 MAGANet 虽然显式利用对称或群结构，但在多个 case 上不稳定，尤其 dSprites R2R 与 MPI3D 上误差很高，支持了论文对“只从观测样本学习群作用不等于能泛化对称性”的批评。
定性图像也与数值一致：VAE 系列常生成模糊或错形状的结果，MAGANet 在部分条件下能保持局部因素，但 CartanFM 更能同时保持形状、颜色、背景等多因素组合。

亮点与洞察¶

把“对称学习失败”拆成 symmetry generalization 是一个很好的问题重述。它解释了为什么一些方法即使能学到训练集内的变换，也仍然在未观测组合上失败，因为它们没有说明变换如何延伸到完整数据流形。
Cartan 分解选得很巧。对称空间有深厚理论，但论文没有停留在抽象定义，而是把 \([\mathfrak{k},\mathfrak{k}]\)、\([\mathfrak{k},\mathfrak{p}]\)、\([\mathfrak{p},\mathfrak{p}]\) 的闭包关系变成可学习基矩阵之间的正则项，给神经网络一个具体的可优化入口。
GSC 的设计很有迁移价值。很多表示学习方法也有“局部结构学到了，但出分布不会用”的问题；用某种几何 involution 或可逆操作生成候选，再要求回编码一致，可能能迁移到姿态、属性编辑、物理状态预测等任务。
论文没有把几何先验当成纯装饰，而是用球面重构实验做了可视化验证。这个实验虽然简单，但能直观看出模型是否真的能生成未观测流形区域，比只报 benchmark MSE 更有说服力。

局限与展望¶

方法依赖较强的几何假设：潜在语义流形需要近似符合对称空间结构，且以原点为中心的取负操作要能对应有意义的语义反射。对高度离散、非对称或多模态拓扑复杂的数据，这个假设未必成立。
GSC 使用一步 Flow Matching 近似来降低计算成本，但这也可能带来偏差。若一步向量场不能很好近似完整解码轨迹，候选样本可能不是真正的测地对称点，训练信号会变得噪声更大。
实验主要集中在视觉因子组合与合成/半合成 benchmark。论文题目中的组合泛化概念更广，未来还需要在语言组合、程序合成、机器人状态组合等任务上验证这套对称空间学习是否同样有效。
计算成本不低。附录报告每次运行大约需要 6000MiB 显存和约 30 小时，且不同数据集与 split 可能变化；如果要扩展到高分辨率图像或更大模型，需要更高效的训练与采样策略。
当前论文更多展示经验有效性，理论上还可以进一步说明：在什么条件下 Cartan Loss 与 GSC 足以保证对称泛化，何时会出现退化基底或错误反射。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把组合泛化中的对称学习瓶颈形式化为 symmetry generalization，并用对称空间与 Cartan 分解给出较少见的几何解法。
实验充分度: ⭐⭐⭐⭐☆ 有机制验证、标准基准、消融和可视化，但任务仍以视觉组合泛化为主，跨模态或更真实场景验证不足。
写作质量: ⭐⭐⭐⭐☆ 方法线索清楚，几何定义与实现对应较完整；不过理论背景较密，读者需要一定 Lie 群和微分几何基础。
价值: ⭐⭐⭐⭐⭐ 对表示学习、组合泛化和几何深度学习都有启发，尤其适合推动“学到的变换如何出训练区域”这一问题继续细化。