跳转至

💬 LLM / NLP

🧪 ICML2026 · 4 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (50) · 📷 CVPR2026 (9) · 🔬 ICLR2026 (35) · 🤖 AAAI2026 (32) · 🧠 NeurIPS2025 (49) · 📹 ICCV2025 (6)

🔥 高频主题: LLM ×2

A Geometric Relation of the Error Introduced by Sampling a Language Model's Output Distribution to its Internal State

本文从微分几何视角刻画 GPT 风格 LLM 在高熵分布上采样所引入的信息丧失,构造 \(\mathfrak{so}(n)\) 值 1-形式与平行输运算子,并在国际象棋探针实验中证明这种几何旋转与模型学到的世界向量高度同向。

Escaping Mode Collapse in LLM Generation via Geometric Regulation

本文从动力系统视角把 LLM 长文本生成中的「模式崩溃」(重复、循环、单调)重新解释为隐藏状态轨迹在表示空间里的「几何坍缩」,并提出 RMR — 在 Transformer value cache 上做轻量低秩阻尼来抑制最具持续性的自我强化方向,从而在极低熵的解码区间(0.8 nats/step)依然保持稳定高质量生成。

Top-W: Geometry-Aware Decoding with Wasserstein-Regularized Truncation and Mass Penalties for LLMs

Top-W 把 next-token 截断写成"考虑 token embedding 几何的 Wasserstein-熵-质量"三项最小化问题,理论证明最优解要么是单 token、要么是按 \(f(i)+\lambda\log p_i\) 排序的前缀,工程实现只是 \(O(n\log n)\) 的扫描;在 GSM8K、GPQA、AlpacaEval、MT-Bench 上 15 个 (T, model) 组合多数胜出,高温下 GSM8K 比 Top-H 最多再提 33.7%。

Rethinking LLM Ensembling from the Perspective of Mixture Models

本文证明对 \(n\) 个 LLM 做 token 级集成时无需每步都跑所有模型——按权重随机抽一个模型采下一个 token,输出分布与"先平均后采样"严格等价,从而把 \(n\) 倍前向变回 1 倍前向,并配合"懒同步 KV 缓存"实现 1.78×–2.68× 的实际加速。