Polaris: Coupled Orbital Polar Embeddings for Hierarchical Concept Learning¶
会议: ICML 2026
arXiv: 2605.00265
代码: 无
领域: 表示学习 / 层次概念学习 / 分类法扩展 / 球面嵌入
关键词: 极坐标嵌入, 单位超球面, vMF 分布, Stein 变分梯度, taxonomy expansion
一句话总结¶
Polaris 把概念表示拆成"方向(语义)+ 轨道势能(层级)"两个解耦信号,全部学到单位超球面上:用切空间投影 + 指数映射保证流形封闭,用各向异性球面 SVGD 防止赤道聚集,用 vMF KL 散度实现不对称的"父类应比子类更高熵"约束,在 taxonomy expansion 任务上把 top-K 召回提升最多 19 点、mean rank 降低 60%。
研究背景与动机¶
领域现状:taxonomy expansion(把新概念挂到已有树/DAG 的正确父节点下)是知识图谱、推荐、商品分类、医学本体的核心问题。主流做法有三类:(1) 欧氏嵌入 + 对称相似度(TransE、TaxoExpan);(2) 双曲嵌入利用指数体积增长缓解树状拥挤(Poincaré、HyperExpan);(3) cone/box 之类的容器嵌入显式编码"子节点被父节点包含"(ConE、Box、Gumbel Box)。
现有痛点:欧氏方法用对称距离表达不了天然不对称的父子关系;双曲方法对优化和数值精度敏感;容器方法虽然表达了 partial order,但在描述噪声、非树(DAG)结构下需要联合优化"语义相似度"和"层级位置",二者纠缠经常把小语义误差放大成大放置误差。极坐标嵌入(用方向编码语义、用半径或角度编码层级)能解耦这两个信号,但以往的极坐标方法都需要 ad-hoc 稳定 trick:模运算 wrap 角度、按扇区切分专用损失、sigmoid rescale 角度——这些都破坏流形连续性,在弱监督下高维角度漂移严重。
核心矛盾:要表达"语义方向独立于层级位置"必须用极坐标几何,但极坐标的常规参数化(直接学 \((\theta,\psi)\) 然后 mod \(2\pi\))等于把球面隐式建模成零曲率的平展圆柱,与真正常曲率球面拓扑不一致,optimization 不稳。
本文目标:(1) 在单位超球面上做流形一致的极坐标学习,不需要 wrap / mod / sigmoid 这类 hack;(2) 解耦语义方向与层级位置;(3) 在弱监督/噪声语义下仍能稳定学到 partial-order 结构;(4) 用结构先验高效缩小检索空间。
切入角度:作者观察到——既然球面是常曲率流形,就别用奇异的角度参数化,直接在笛卡儿坐标下学单位范数向量(用切空间投影 + 指数映射上去),用内积当角度 surrogate;把层级信号"分离"到一个由现有 hierarchy 派生的轨道势能上,而不是塞进同一个角度坐标里。
核心 idea:在 \(\mathbb{S}^{d-1}\) 上学方向编码语义,用一个从已知 hierarchy 派生的 orbital potential 单独编码"深度",并用 vMF 分布 + 不对称 KL 把"父类更广、子类更窄"显式建到损失里。
方法详解¶
整体框架¶
输入:一个种子 taxonomy(树/DAG/多模态)+ 一批新概念(文本或图像)的 PLM/CLIP 特征 \(\mathbf{e}\in\mathbb{R}^{d_\text{plm}}\)。输出:每个概念的单位向量 \(\mathbf{z}\in\mathbb{S}^{d-1}\) + vMF 参数 \((\boldsymbol\mu,\kappa)\)。Pipeline 分四部分:(1) 流形一致编码 把 \(\mathbf{e}\) 先投到北极切空间得 \(\mathbf{v}\),再用指数映射 \(\mathbf{z}_0=\cos(\|\mathbf{v}\|)\mathbf{p}_N+\sin(\|\mathbf{v}\|)\mathbf{v}/\|\mathbf{v}\|\) 升到球面,后接"球面线性层"(行 \(\ell_2\) 归一 + 去 bias + 输出再投影)。(2) 几何学习 用 Welsch M-estimator 包裹测地角 \(\theta_{ij}=\arccos\langle\mathbf{z}_i,\mathbf{z}_j\rangle\) 做 triplet 损失。(3) 全局正则 用 anisotropic 球面 SVGD 把 embedding 推离赤道、推向两极,防止高维 concentration-of-measure 导致的赤道聚集。(4) 概率学习 把每个概念建成 vMF(\(\boldsymbol\mu_i\), \(\kappa_i\)),用不对称 KL 强制 \(\kappa_p<\kappa_c\),即父类分布更广。(5) 推理 用 hierarchy 派生的 orbital potential 动态 cosine 阈值先按层级粗筛候选父节点,再按角度精排。
关键设计¶
-
流形一致的球面编码(切空间投影 + 指数映射 + 球面线性层):
- 功能:把 PLM 给的欧氏特征严格送上 \(\mathbb{S}^{d-1}\),而且后续所有线性变换都"封闭在流形上"。
- 核心思路:先在北极 \(\mathbf{p}_N\) 的切空间投影 \(\mathbf{v}=\mathbf{e}-\langle\mathbf{e},\mathbf{p}_N\rangle\mathbf{p}_N\);再用指数映射 \(\mathbf{z}_0=\exp_{\mathbf{p}_N}(\mathbf{v})=\cos(\|\mathbf{v}\|)\mathbf{p}_N+\sin(\|\mathbf{v}\|)\mathbf{v}/\|\mathbf{v}\|\) 沿测地线升到球面。所有线性层做三件事:(a) 行 \(\mathbf{w}_i\) 在初始化和每步 Riemannian 梯度更新后强制 \(\|\mathbf{w}_i\|_2=1\);(b) 去掉 bias(避免原点平移破坏球面对称);(c) 输出再投影 \(\mathbf{y}=\mathbf{W}\mathbf{x}/\|\mathbf{W}\mathbf{x}\|_2\)。
- 设计动机:用 \(\theta\leftarrow\theta\bmod 2\pi\) 这种 hack 显式建模角度,等价于把球面当圆柱(零曲率),梯度在 wrap 边界不连续;切空间 + exp 是 Riemannian 几何的标准做法,连续可微且严格保 norm。Theorem 2.2 证明 Welsch 损失对 \(\mathsf{SO}(d)\) 旋转不变——损失只依赖相对几何,不挑特定坐标轴,这是几何一致性的直接好处。
-
Welsch 测地三元组 + 各向异性球面 SVGD 正则:
- 功能:(a) 在噪声语义下稳定学局部父子关系;(b) 防止高维下 embedding 全挤到赤道。
- 核心思路:测地角 \(\theta_{ij}=\arccos\langle\mathbf{z}_i,\mathbf{z}_j\rangle\) 直接由内积算(旋转不变)。用有界的 Welsch M-estimator \(\mathcal{W}(\theta)=1-\exp(-\theta^2/(2c^2))\) 限制 outlier 影响,triplet 损失 \(\mathcal{L}_\text{geom}=\max(0,\gamma+\mathcal{W}(\theta_{cp})-\mathcal{W}(\theta_{cn}))\) 把子节点向父节点拉、向负样本推。SVGD 把每个 embedding 当粒子,速度场 \(\phi(\mathbf{z})=\mathbb{E}_{\mathbf{z}'}[k(\mathbf{z}',\mathbf{z})\nabla\log p(\mathbf{z}')+\nabla k(\mathbf{z}',\mathbf{z})]\),核取 vMF \(k(\mathbf{z}',\mathbf{z})=\exp(\kappa\mathbf{z}'^\top\mathbf{z})\)。target score 拆成两个:(a) 结构项 \(\nabla\log p_\text{struct}=[0,\dots,0,z_d/(1-z_d^2)]^\top\) 把粒子从赤道(\(z_d\approx 0\))推向极点;(b) 对齐项 \(\nabla\log p_\text{align}=\kappa_\text{align}\boldsymbol\mu\) 让 embedding 留在自身 anchor 的吸引域。最后把 \(\phi(\mathbf{z})\) 投影到 \(T_\mathbf{z}\mathbb{S}^{d-1}\) 保证更新合法。
- 设计动机:定理 2.3 给出 \(\sigma\{|\langle\mathbf{z},\mathbf{u}\rangle|\geq\epsilon\}\leq 2\exp(-d\epsilon^2/2)\)——高维下随机单位向量会指数级集中到赤道;旋转不变的几何损失对此没有梯度信号,因此需要 SVGD 主动注入"反赤道"力,否则 embedding 全堆在 \(z_d\approx 0\),深度信号被压缩。
-
vMF 不对称 KL + Orbital 检索:
- 功能:(a) 用分布而不是点表达"概念语义体积",让父类比子类更"广";(b) 推理时按层级先粗筛再精排,提速且更准。
- 核心思路:每个节点的 vMF 参数从点 embedding 派生——\(\boldsymbol\mu_i=f_\text{sphere}(\mathbf{z}_i;\Theta_\mu)\),\(\kappa_i=\text{Softplus}(\mathbf{w}_\kappa^\top\mathbf{z}_i+b_\kappa)\)。父子的 vMF KL 近似为 \(D_\text{KL}(\text{vMF}_c\|\text{vMF}_p)=\log C_d(\kappa_c)-\log C_d(\kappa_p)-\mathcal{A}_d(\kappa_c)(\kappa_c-\kappa_p\boldsymbol\mu_c^\top\boldsymbol\mu_p)\),其中 \(\mathcal{A}_d(\kappa)=I_{d/2}(\kappa)/I_{d/2-1}(\kappa)\) 是修正 Bessel 函数比。这个目标本质要求 \(\kappa_p<\kappa_c\)(父类熵更高)和 \(\boldsymbol\mu_p\) 与 \(\boldsymbol\mu_c\) 同向。概率 triplet 损失 \(\mathcal{L}_\text{vMF}=\max(0,\gamma_\text{prob}+D_\text{KL}(c\|p)-D_\text{KL}(c\|n))\)。推理用 hierarchy 派生的 orbital potential 给每层一个动态 cosine 阈值,先按"轨道"粗筛候选父节点,再按角度精排。优化用 Riemannian Adam:欧氏梯度先投到 \(T_{\mathbf{z}_t}\mathcal{M}\),动量按平行移动到新切空间,最后用 \(\mathbf{z}_{t+1}=\exp_{\mathbf{z}_t}(-\eta\hat{\mathbf{m}}_t/\sqrt{\hat{\mathbf{v}}_t})\) 更新。
- 设计动机:单点距离无法区分"狗"和"哺乳动物"——后者语义体积更大;vMF 把体积当成 \(1/\kappa\) 的代理,KL 的不对称结构 \(\kappa_c-\kappa_p\boldsymbol\mu_c^\top\boldsymbol\mu_p\) 同时把方向和"宽度"约束在一个目标里。orbital retrieval 把推理代价从全集 \(\arg\max\) 降到层级 gating 后的小候选集合,对大规模 taxonomy 很重要。
损失函数 / 训练策略¶
总损失 \(\mathcal{L}=\mathcal{L}_\text{geom}+\lambda_\text{SVGD}\mathcal{L}_\text{SVGD}+\lambda_\text{vMF}\mathcal{L}_\text{vMF}\),三项各管一头:local 父子学习、global 全球面覆盖、不对称概率约束。优化用 Riemannian Adam;hyper-sphere 上的参数走球面更新,辅助 head 上的欧氏参数走标准 Adam。
实验关键数据¶
主实验¶
在 single-parent 树(Science / WordNet / Environment)上对比 14 个 baseline。报告 R@1、R@5、Wu&P、MR(越低越好)、MRR,五个 seed 取均值。摘要明确写 "consistent improvements of up to ~19 points in top-K retrieval and up to ~60% reduction in mean rank"。
| 数据集 | 指标 | 最佳 baseline (STEAM) | Polaris 量级 | 提升 |
|---|---|---|---|---|
| Science | R@1 / R@5 / MR↓ | 34.8 / 59.7 / 31.7 | ~44 / ~70 / ~13 | top-K +~9-10 点,MR -~60% |
| WordNet | R@1 / R@5 / MR↓ | 24.9 / 54.5 / 61.1 | ~31 / ~60 / ~25 | top-K +~6 点 |
| Environment | R@1 / R@5 / MR↓ | 34.7 / 51.1 / 28.7 | ~39 / ~55 / ~15 | top-K +~4 点 |
multi-parent DAG 与 multimodal hierarchy 也都给出一致提升(论文文字描述:9 / 6 / 4 点)。
消融实验¶
| 配置 | 关键变化 | 说明 |
|---|---|---|
| Full Polaris | 球面编码 + Welsch geom + SVGD + vMF + orbital retrieval | 完整模型 |
| w/o SVGD | 去掉各向异性球面 SVGD | 高维下 embedding 漂向赤道,深度信号丢失 |
| w/o vMF | 把概率三元组换成点 triplet | 父子的"宽度差"消失,不对称性退化 |
| w/o orbital retrieval | 推理改全集 \(\arg\max\) | 速度大幅下降,精度也掉因为无层级先验 |
| Welsch → 平方距离 | 不用 M-estimator | 噪声 outlier 影响放大,弱监督场景明显劣化 |
| 极坐标 wrap baseline | 显式 \((\theta,\psi)\) + mod \(2\pi\) | 优化不稳定(论文 Appendix I 详细分析) |
关键发现¶
- SVGD 把"反赤道"做对了:定理 2.3 解释了高维球面随机向量在赤道周围 exponentially 集中,光靠旋转不变的角度损失无法对抗这一点;anisotropic SVGD 的极点偏置 score 是把"潜空间深度结构"塞回去的必要 trick。
- vMF KL 的不对称是 partial order 的"软糖":Cone 之类的硬约束容易塌陷,vMF 把 partial order 软化成"父类熵高",在噪声下更鲁棒,同时还能给每个概念赋一个置信半径 \(1/\kappa\) 的代理。
- orbital retrieval 真的能减检索空间:用 hierarchy 派生的势能 gate 候选父节点比纯角度排序又快又准,对几十万节点的 taxonomy 工程价值大。
- 流形一致编码 vs. 角度 hack:把角度强行 mod 等价于把球面当圆柱建模,破坏曲率假设;ablation 证明 wrap-based 极坐标在弱监督下出现 optimization 振荡。
亮点与洞察¶
- "解耦语义方向与层级位置"这个口号被几何严格地兑现了:方向走 \(\mathbf{z}\in\mathbb{S}^{d-1}\)、层级走 orbital potential,两条信号在结构上独立。相比 cone/box 把二者塞进同一个容器再硬调权重,这种分离让每个信号都能"按自己的几何"学。
- 把 Stein 变分梯度搬到球面流形当正则:这是少见但很合理的应用——SVGD 本来就是为了让粒子集匹配一个目标分布;这里目标分布就是"非赤道集中的均匀+对齐分布",从而对抗了高维 concentration-of-measure。这一招可以迁移到任何"在球面上学嵌入又不想全挤到一处"的场景(对比学习、检索、ArcFace 风格的人脸表示)。
- vMF KL 的"非对称性 = partial order":把 \(\kappa\) 当语义体积代理,强制 \(\kappa_p<\kappa_c\),是用分布建模 partial order 的简洁方案。对医学本体、商品分类这种"父类天然更模糊"的领域特别贴合。
- 可迁移 trick:(1) 球面线性层(行归一 + 去 bias + 输出再投影)对任何"想让所有特征都在单位球面上"的 retrieval/对比学习场景都适用;(2) "用一个 rotation-invariant 损失 + 一个 anchor 偏置 score"的组合可以用来对抗任何同类的均匀化困境。
局限与展望¶
- 依赖一个已有 hierarchy 派生 orbital potential:完全冷启动场景(连骨架都没有)这条路走不通;可以考虑用 LLM 先生成粗略 hierarchy 再迭代。
- vMF 的 Bessel 比 \(\mathcal{A}_d(\kappa)\) 在高维 + 大 \(\kappa\) 下数值上不稳:论文用近似公式处理,但对极尖锐分布仍可能有数值问题。
- 超球面假设统一了所有概念语义体积:现实中不同子领域可能要不同曲率;可以扩展到 mixed-curvature(球面 × 双曲)表示。
- 多模态 hierarchy 实验偏少:只在一个 multimodal benchmark 上做了;面对真正大规模图文 taxonomy 时还需要验证。
- 代码似乎未公开:复现细节(特别是 SVGD 的核温度、orbital potential 的具体设定)依赖 appendix,留待社区检验。
相关工作与启发¶
- vs Poincaré / HyperExpan:双曲嵌入靠指数体积增长缓解 tree crowding;Polaris 把"深度"显式放到 orbital potential 而非靠几何隐式编码,避免了双曲空间数值困难。
- vs ConE / Box / Gumbel Box:容器嵌入用 partial-order 硬约束(child must lie in parent cone/box);Polaris 用 vMF 不对称 KL 把这一约束软化成"父类分布更广",对噪声更鲁棒,从实验上看在所有 single-parent 基准上都赢。
- vs HAKE / 极坐标方法:HAKE 用模长当 hierarchy depth,但和角度耦合;Polaris 严格把模长固定到 1,深度信息全部走 orbital potential,避免了"模长 / 角度"的耦合优化问题。
- vs TaxoExpan / STEAM:这俩是欧氏 GNN baseline,最强的 STEAM 在 Science 上 R@1 = 34.8、MR = 31.7,Polaris 大幅领先;差距来自"球面几何 + 概率非对称"的组合。
- 启发:把 "geometry-consistent encoder + flow-based regularizer + asymmetric probabilistic loss" 这三件套搬到 entity linking、医学诊断本体、shop catalog 都是自然的方向;尤其医学影像的 ontology(如 SNOMED CT)天然层级深,vMF 的"父类更广"约束非常贴合。
评分¶
- 新颖性: ⭐⭐⭐⭐ 极坐标球面嵌入 + SVGD 反赤道 + vMF 不对称 KL 的组合是新的;单看每个零件以往都有,但合起来解决"角度优化不稳 + 高维赤道集中 + partial order 软化"这三个老问题确实漂亮。
- 实验充分度: ⭐⭐⭐⭐ 三类 hierarchy(树 / DAG / 多模态)+ 14 个 baseline + 五 seed,ablation 把 SVGD / vMF / orbital 三件套都单独验证;唯一缺憾是大规模工业 taxonomy 上的 case study。
- 写作质量: ⭐⭐⭐⭐ 几何动机讲得清楚(特别是切空间 + 指数映射 vs. mod hack 的对比),定理 2.2-2.4 把"为什么需要 SVGD"上升到理论;公式偏多需要读者耐心,但 self-contained。
- 价值: ⭐⭐⭐⭐ 对 taxonomy expansion 社区是一次方法论级的整理:把"分布表达 + 流形一致 + 全局正则"做成可复用模板,并且 orbital retrieval 给出工程落地的提速方案。