跳转至

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

会议: ICML 2026
arXiv: 2605.26121
代码: 待确认
领域: LLM预训练 / 数据混合
关键词: 数据混合、超球聚类、von Mises-Fisher、MM算法、平衡正则

一句话总结

GEM 把 LLM 预训练数据划分问题重写成超球面上的 vMF 混合 + 平衡正则的变分目标,用可证明单调上升的 MM 算法求解,再通过 Teacher-Student 蒸馏到 FastText 上线,在 1.1B 模型上叠加 DoReMi/Perf/RegMix 三种 mixing 框架平均提升约 1.2%。

研究背景与动机

领域现状:LLM 预训练效果越来越取决于"数据怎么配比",DoReMi、RegMix、Aioli、SampleMix 等动态混合方法已经形成主流,前提都是先把语料分成若干"语义桶"再去学桶之间的权重。

现有痛点:现有的"分桶"方案分两类,各有硬伤。一类是 WebOrganizer/TnT-LLM 这种基于人工 taxonomy 的方法:用大模型把网页贴标签,标签体系是人写的,存在 ontological misalignment(人类分类和模型真正学到的语义粒度对不上),而且每次更新语料都要重新标,成本不可持续。另一类是 K-Means/HDBSCAN 这类无监督方法:可以无限扩展,但是基于欧氏几何,跟现代文本 embedding(BGE、RoBERTa 等用 cosine 相似度训出来的)天然不匹配,再叠加 anisotropy/cone effect(embedding 集中在窄锥里),就会出现 cluster collapse —— 几个大桶吞掉所有长尾语义,多样性塌缩。

核心矛盾:embedding 实际住在高维超球面 \(\mathcal{S}^{d-1}\) 上、信号在方向(cosine)里,但聚类目标却建在欧氏空间里;同时标准 EM 学出来的 mixture 权重 \(\alpha_k\) 会出现"富者愈富"的反馈,进一步把质量推向几个主导簇。

本文目标:(i) 把语义划分建在超球面的方向统计上、与 cosine 相似度天然兼容;(ii) 显式抑制簇质量塌缩、得到"平衡且语义清晰"的分桶;(iii) 还能在 trillion-token 语料上低成本部署。

切入角度:用 vMF(von Mises-Fisher)混合做 directional 生成模型 —— 其充分统计量正好是 \(\mu_k^\top x\) 即 cosine 相似度;再把"塌缩"问题剥离出来:不动生成先验 \(\alpha_k\),而是直接在经验软质量 \(\boldsymbol{\pi}(\Gamma)\) 上加一个二次平衡正则 \(-\tfrac{\lambda}{2}\lVert\boldsymbol{\pi}-\mathbf{u}\rVert_2^2\),把生成先验和经验质量解耦。

核心 idea:在超球面上做"熵正则 ELBO + 经验质量平衡"的联合变分优化,并用 MM (Minorize-Maximize) 推一个对所有样本可分解、可证明单调上升的 E 步,从而稳定地解出方向均衡的语义桶。

方法详解

整体框架

GEM 分成两阶段流水线。Teacher 阶段:在采样得到的 seed 语料 \(\mathcal{X}_{seed}\) 上跑 vMF 混合 + 平衡正则的变分聚类,MM 迭代地更新 Riemannian 参数 \((\mu_k, \kappa_k)\) 和软分配 \(\gamma_{ik}\),得到 \(K\) 个方向簇;再用 Geometric Influence Score (GIS) 在每个簇里挑代表性样本,喂给 LLM 生成可读的 taxonomy 标签。Student 阶段:用 GIS 选出高置信、按簇平衡的 pseudo-label 集,蒸馏一个轻量 FastText 线性分类器,做到对全量语料线性时间打标签;产出的"分桶"就可以直接喂给 DoReMi/Perf/RegMix 等任意 mixing 算法。

关键设计

  1. 超球面 vMF 混合 + 经验质量平衡正则

    • 功能:用与 cosine 相似度对齐的生成模型描述 embedding,同时显式抑制 cluster collapse。
    • 核心思路:每个簇 \(k\) 是一个 vMF 分量 \(f_{\text{vMF}}(x\mid\mu_k,\kappa_k)=C_d(\kappa_k)\exp(\kappa_k\mu_k^\top x)\),混合先验固定 \(\alpha_k\equiv 1/K\) 防止 EM 的"富者愈富"反馈;优化目标是熵正则 ELBO 再加一个针对经验软质量 \(\pi_k(\Gamma)=\tfrac{1}{N}\sum_i\gamma_{ik}\) 的二次惩罚 \(-\tfrac{\lambda}{2}\lVert\boldsymbol{\pi}(\Gamma)-\mathbf{u}\rVert_2^2\),其中 \(\mathbf{u}=\tfrac{1}{K}\mathbf{1}\)
    • 设计动机:vMF 的充分统计量就是方向内积,把"几何空间"和"embedding 空间"对齐;把平衡作用施加在经验质量上(而不是生成先验上),既不破坏生成模型的可解释性,又能在 anisotropic embedding 下把长尾簇撑起来,得到方向均衡的语义划分。
  2. 可证明单调上升的 MM 推断

    • 功能:把"全样本耦合"的正则项拆成对每个样本可分解的局部更新,得到稳定收敛的 E/M 步。
    • 核心思路:正则项 \(R(\boldsymbol{\pi})\)\(\lambda\)-smooth 的凹二次函数,因此有全局二次 minorizer \(R(\boldsymbol{\pi})\geq R(\boldsymbol{\pi}^{(t)})+\langle\nabla R(\boldsymbol{\pi}^{(t)}),\boldsymbol{\pi}-\boldsymbol{\pi}^{(t)}\rangle-\tfrac{\lambda}{2}\lVert\boldsymbol{\pi}-\boldsymbol{\pi}^{(t)}\rVert_2^2\)。E 步代入这个下界得到代理目标 \(\widetilde{\mathcal{F}}_t(\Gamma)\),对每个 \(\gamma_i\) 凹可分解,用几步 mirror ascent 解出新分配;M 步是 vMF 的闭式更新——\(r_k=\sum_i\gamma_{ik}x_i\)\(\mu_k=r_k/\lVert r_k\rVert_2\)\(\kappa_k\)\(\bar R_k=\lVert r_k\rVert_2/\sum_i\gamma_{ik}\) 经高维近似 \(\kappa_k\approx(\bar R_k d-\bar R_k^3)/(1-\bar R_k^2)\) 估出。
    • 设计动机:直接最大化原目标因为 \(\boldsymbol{\pi}(\Gamma)\) 把所有样本耦合在一起、难以分布式优化;MM 代理给出的"每步都比上一步好"保证 \(\mathcal{F}(\Theta^{(t)},\Gamma^{(t+1)})\geq\mathcal{F}(\Theta^{(t)},\Gamma^{(t)})\) 让整个流程在大规模数据上仍稳定收敛,无需依赖经验性 early stop。
  3. GIS 选样 + Teacher-Student 蒸馏到 FastText

    • 功能:把超球几何带来的"昂贵 EM"压成 trillion-token 语料上可负担的线性推断。
    • 核心思路:用 Geometric Influence Score 在每个簇里选高置信、按簇均衡的代表样本作为 pseudo-label 集,喂给 FastText 这类线性分类器做 student;最后用 GIS 选出来的少量代表样本再用 LLM 写一段语义描述,自动产出可读 taxonomy(见 Figure 3 的树状图)。
    • 设计动机:业界处理 web-scale 语料对延迟非常敏感(fastText 已是 CCNet/Dolma 的默认选择),直接跑 vMF EM 不现实;蒸馏把"几何 fidelity"以参数形式固化到一个线性分类器里,把 mixing pipeline 的 categorization 这一步降到线性时间,同时保留 GEM 几何带来的平衡性。

损失函数 / 训练策略

变分目标如 Eq.(3):\(\max_{\Theta,\Gamma}\sum_i\sum_k\gamma_{ik}\log(\alpha_k f_{ik}(\Theta))+\sum_i H(\gamma_i)-\tfrac{\lambda}{2}\lVert\boldsymbol{\pi}(\Gamma)-\mathbf{u}\rVert_2^2\)。主实验设 \(K=24\)\(\lambda=5000\)(按 vMF 学到的 \(\kappa\approx 900\) 量级对齐 logit 尺度)。Backbone 用 1.1B LLaMA 风格 Transformer,固定 25B token 预训练预算;数据从 CommonCrawl 经 RefinedWeb 风格清洗得到。

实验关键数据

主实验

三种 mixing 框架下,把"分桶"模块换成 GEM,9 个 OLMES 子任务按 Science QA / Commonsense / Logic & Linguistics 三维汇总(节选自 Table 1):

Mixing 框架 分桶方法 Science QA Commonsense Logic & Ling. Average
DoReMi Spherical K-Means 34.62 38.97 54.72 42.77
DoReMi WebOrganizer (Format) 34.44 38.73 55.19 42.79
DoReMi GEM 34.79 39.96 57.11 43.95
Perf WebOrganizer (Format) 35.06 39.73 57.97 44.25
Perf GEM 35.96 40.43 57.98 44.79
RegMix WebOrganizer (Format) 34.12 33.94 54.26 40.77
RegMix GEM 34.07 35.30 54.97 41.45

DoReMi 下相对最强 baseline WebOrganizer 在 Commonsense / Logic 上分别 +1.23 / +1.76 pt;Perf 下 Science QA +0.90 pt;RegMix 下 Commonsense +1.36 pt。整体 Average 提升约 0.7–1.2 pt。

消融实验

对"几何 + 平衡"两个维度做消融(来自 Figure 6 与 GEM 主轴的描述):

配置 Average 说明
K-Means(欧氏 + 硬分配) 38.5 完全欧氏,cluster collapse 最严重
Spherical K-Means(球面 + 硬分配) 把度量换到 cosine,缓解 anisotropy
Vanilla vMF(球面软分配,无平衡正则) ↑↑ 用 Riemannian 生成模型,但仍易塌缩到大簇
GEM (full) 最高 加上经验质量平衡正则才真正打开长尾

另对簇数 \(K\in\{12,16,24,32,36,48\}\)(Figure 5):Average 在 \(K=36\) 达到峰值 41.21%,之后到 \(K=48\) 略降,反映"过度碎片化"开始引入噪声。

关键发现

  • "球面几何"和"平衡正则"两个组件呈现单调累加的提升曲线(Euclidean → Spherical → vMF → GEM),且只有同时具备两者才能真正打开长尾簇,说明 cluster collapse 并不能只靠换度量解决。
  • 用 RegMix 做"taxonomy 可预测性"探针(Figure 4,10 个 split 上的 Spearman \(\rho\) 分布),GEM 的中位数明显更高且 IQR 更窄,意味着混合权重小幅扰动带来的 loss 变化更"线性"、更可预测——这是任何 mixing 算法能高效搜索的前置条件。
  • \(\lambda=5000\) 的取法直接对齐 vMF logit 尺度(\(\kappa\approx 900\)),说明平衡正则与生成模型不是松散叠加,而是在数量级上必须匹配,否则要么"压不住塌缩"要么"把所有簇压成均匀噪声"。

亮点与洞察

  • "解耦先验和质量"是个 transferable 的小 trick:很多 EM/EM-like 算法都有"富者愈富"反馈,本文把 \(\alpha_k\) 固定成均匀、把平衡作用搬到经验软质量 \(\boldsymbol{\pi}(\Gamma)\) 上的做法,本质上是把"建模分布"和"经验分布"分离,可以借鉴到任何带 mixture 的表示学习里(如 MoE 路由的负载均衡、retrieval 里 chunk 类别分布)。
  • 把"分桶质量"操作化成"mixing 可预测性"很巧妙:传统聚类评估只有 NMI/Silhouette 等几何指标,但本文用 RegMix Spearman \(\rho\) 直接衡量"分桶是否给 mixing 算法提供了平滑的优化坐标系",这是与下游任务对齐的指标,比纯几何指标更靠近"data curation"问题本身。
  • MM 而不是 EM:对带正则的 ELBO 想保持"E 步可分解 + 单调上升",作者用 \(\lambda\)-smooth 凹函数的全局二次 minorizer,把一个全局耦合项拆成可对每个 \(\gamma_i\) 独立解的代理;这套套路在任何"似然 + 全局正则"的概率模型里都可以复用。

局限与展望

  • 主实验只在 1.1B 模型、25B token 预算上做,是否在 7B+ 模型、更长训练下仍保留 1.2% 量级的提升没有验证;mixing 收益常常会随 model/data scale 收窄。
  • "几何"的好坏完全依赖 text encoder(论文用 BGE/RoBERTa 类的 cosine-trained encoder);如果换到非各向同性更强的 encoder 或 instruction-tuned 模型,超球假设的强度未知。
  • 平衡正则的目标是均匀分布 \(\mathbf{u}=\tfrac{1}{K}\mathbf{1}\),这隐含"语义类应该等权重",但真实世界里有些主题本身就该稀有;当先验有强结构(如代码 vs. 散文比例已知)时,固定均匀目标可能反而损害效果,未来可以让 \(\mathbf{u}\) 由下游 reward 自适应。
  • 蒸馏到 FastText 的 student 是线性模型,对真正 fine-grained 的多义/混合主题可能丢失;可考虑用 hyperbolic 或 product-of-spheres 的轻量 student 在不破坏延迟约束下提升表达力。

相关工作与启发

  • vs WebOrganizer / TnT-LLM:他们用 LLM 给文档贴人写的 taxonomy 标签,可读性强但有 ontological misalignment 且重打标贵;GEM 从 embedding 几何里"长出来"标签再让 LLM 起名字,标签和模型真正感知的语义粒度对齐。
  • vs Spherical K-Means / Vanilla vMFMM:同样在超球上聚类,但都没有显式抑制 cluster collapse;GEM 用经验质量平衡正则补上了这一步,使长尾语义不被吞掉。
  • vs DoReMi / RegMix / Aioli / SampleMix:这些方法假设"分桶"已经给定、只学权重,相当于把 GEM 解决的是它们的"输入端"问题;论文把 GEM 当作即插即用的 categorization 层叠加在三者之上,给出了"先把桶分好再混"比"在差桶上拼命调权"更有效的证据。

评分

  • 新颖性: ⭐⭐⭐⭐ "vMF 混合 + 经验质量平衡正则 + MM 推断"组合是清晰且少有人触碰的方向。
  • 实验充分度: ⭐⭐⭐⭐ 三大 mixing 框架 × 9 个 benchmark,加 \(K\)/\(\lambda\)/seed 大小敏感性分析;但只到 1.1B 模型。
  • 写作质量: ⭐⭐⭐⭐ Figure 1/2 把动机和 pipeline 讲得很清楚,推导有 Lemma/Proposition 支撑且收尾干净。
  • 价值: ⭐⭐⭐⭐ 给整个 data mixing 社区把"先分桶再混"的前置问题做了一个可证明、可上线的解法,可直接接入主流 mixing 框架。