ICML2026 预训练论文解读论文笔记 LLM Agent 布局/合成扩散模型少样本学习

📚 预训练¶

🧪 ICML2026 · 27 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (5) · 🔬 ICLR2026 (79) · 💬 ACL2026 (12) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (51) · 📹 ICCV2025 (9)

🔥 高频主题： LLM ×6

AC-ODM: Actor–Critic Online Data Mixing for Sample-Efficient LLM Pretraining: AC-ODM 把"预训练数据域权重怎么动态调"建模成一个强化学习的连续控制问题，用 DDPG 的 Actor-Critic 在训练过程中实时感知模型状态、输出各域采样权重，并用"域间梯度对齐度"当奖励——理论上证明这等价于最大化梯度的建设性干涉（有效下降步长），在 Pythia-1B 上比强基线少用约 66% 步数就达到最优困惑度，MMLU 相对提升 27.5%、HumanEval pass@1 翻到 2.23 倍，而每步墙钟仅增 0.4%、显存仅增 2%。
Annotations Mitigate Post-Training Mode Collapse: 作者发现 SFT 把模型对齐到一个低熵语义先验上、导致"指令模型越大越无聊"的反向 scaling，于是提出"标注锚定训练"——预训练阶段给文档配语义 tag、SFT 阶段对 tag 部分 mask loss，让推理时先采样语义再生成响应，从而在保持指令跟随能力的同时把语义多样性差距缩小 85%。
Beyond Structural Symmetries: Linear Mode Connectivity via Neuron Identifiability: 本文提出"有效函数类"和"神经元可辨识性"的理论框架，揭示打破结构对称性并不等于打破有效对称性——即使参数空间的置换对称已被消除，数据依赖的近似对称仍可能使神经元互换代价极低，并据此给出无需对齐即可实现线性模式连通性（LMC）的充分条件。
Constrained Bayesian Experimental Design via Online Planning: 本文提出 COPEx：通过"离线预训练 amortized 后验网络 + 设计策略 + 在线多步 lookahead 场景树"的半摊销方案，让贝叶斯实验设计在测试时能动态适应预算 / 成本 / 转移约束，在受约束的 location finding、CES、cost-aware AL 三类任务上 EIG / RMSE 一致超过 VPCE、ALINE、RL-BOED 等基线。
Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning: 本文系统研究 SFT 中数据难度的作用，发现并不存在"普适最优难度"，而是存在一个随数据规模增大而向更难方向漂移的最优难度，并用"in-distribution 泛化 gap"与"extrapolation gap"两个 gap 的 trade-off 给出 PAC-Bayes 解释。
Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings: 作者指出主流位置编码 RoPE 把"内容(what)"和"位置(where)"耦合进了同一个相位里，从而在需要"按位置找内容 / 按内容定位置"的任务上表现糟糕；他们提出 PoPE，用 softplus 把幅度(管 what)和纯位置相位(管 where)拆开，仅是 RoPE 的小改动，却在诊断任务、音乐/基因组/语言建模上一致更优，并且零微调就能外推到 10 倍训练长度，超过专门做外推的 YaRN。
Different Layers, Different Manifolds: Module-Wise Weight-Space Geometry in Transformer Optimization: 这篇 workshop 论文在 GPT-2 small 预训练中系统比较了「按模块分配流形约束」的几种方案，发现把强谱约束（Stiefel）放在注意力层、把弱约束（DGram）放在 MLP 层效果最好，而只要给注意力层用 DGram 训练就会发散——并给出了「奇异值膨胀 → logit 膨胀 → softmax 饱和 → 梯度退化」这条失稳机制解释。
Dropout Universality: Scaling Laws and Optimal Scheduling at the Edge-of-Chaos: 作者把 dropout 看作平均场信号传播理论中破坏 \(c^*=1\) 完美对齐不动点的"外场" \(h\)，推出 Landau 方程、两参数标度坍塌以及 smooth/kinked 激活的两个不同普适类，并由此得到一个"零开销"的实用结论——前置 dropout（front-loaded schedule）在同等预算下比常数 dropout 在 MLP 和 ViT 上把测试损失降低 18–35%。
Explaining Data Mixing Scaling Laws: 这篇论文给"多领域数据配比缩放定律"补上了一直缺失的理论解释：把单领域缩放定律的两套经典理论（量化模型、投影线性回归模型）扩展到多领域，提出"共享头部、不相交尾部"的分布假设，识别出支配各领域 loss 的两个机制——容量竞争（有限模型容量被各领域的专用技能争夺，把所有领域 loss 全局耦合）和数据量噪声（越难学的领域 loss 降得越慢，使最优配比向难学领域倾斜），由此得到的模型不仅拟合误差更低、用的参数更少，还能跨尺度外推、用小模型拟合的参数预测大模型上的最优配比。
FlexRank: Nested Low-Rank Knowledge Decomposition for Adaptive Model Deployment: FlexRank 把预训练大模型的每个线性层做 activation-aware 低秩分解（DataSVD），用动态规划在 \(O(L\cdot K)\) 时间内挑出一组严格嵌套的子模型对应不同算力预算，再用知识蒸馏联合训练这套共享权重，最后通过 Gauge-Aligned Reparametrization 把秩节省真正翻译成 FLOPs 节省——一次训练即可在 LLM 与 ViT 上得到逼近真实帕累托前沿的"一族"可部署模型。
Focus and Dilution: The Multi-stage Learning Process of Attention: 本文在单层 Transformer 学习马尔可夫数据的简化场景下，通过围绕一系列临界点做分阶段线性化的梯度流分析，揭示并严格刻画了注意力训练中反复出现的「聚焦—稀释」循环，并在 WikiText 与 TinyStories 上观察到一致的现象。
If open source is to win, it must go public: 这是一篇 ICML 2026 立场论文（position paper），论点是：当前形态的"开源 AI"无法像 Linux/PyTorch 那样真正民主化 AI 访问与提供公共产品，必须嵌入到"公共 AI（Public AI）"——由政府/国家实验室/大学/非营利机构提供的算力、推理、后训练、数据基础设施——之中，开源才能赢。
Incremental BPE Tokenization: 本文提出首个具有严格 \(\mathcal{O}(\log^2 t)\) 单字节最坏复杂度的增量 BPE 分词算法，通过 Aho–Corasick 自动机定位搜索空间、Centroid Decomposition 上的二分搜索定位"最后一个 token"，作为 drop-in replacement 相对 Hugging Face tokenizers 最高 \(\sim 3\times\) 加速，并在病态输入上消除了 tiktoken 的 \(\mathcal{O}(n^2)\) 退化。
InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition: 作者提出 InfoLaw：把"预训练"重新定义为"按桶累积信息"的过程，每桶信息量等于"质量密度 \(f_d\) × 唯一 token 数 \(M_d\) × \(\log K\)"再乘上一个随重复次数 \(R_d\) 指数衰减的因子，最终把验证损失写成 \(L = \alpha\cdot\text{info}^{-\beta}\)，能在 252M-1.2B 拟合后外推到 7B / 425B token，平均误差 0.15%、最大 0.96%，并直接用来搜索最优数据配方。
Inverse Depth Scaling From Most Layers Being Similar: 本文通过对 LLM 隐藏态动力学的测量 + teacher-student toy model 的对照实验，证明 LLM 的 loss 与深度近似成反比（\(\alpha_\ell \approx 1\)），并将其归因于"绝大多数层在做功能相似的小步更新、通过 ensemble averaging 抵消误差"这一非高效但鲁棒的使用模式。
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier: MOOSE-Star 把"训练一个能直接生成科学假设的 LLM"这个原本要在 \(\mathcal{O}(N^k)\) 组合空间里搜索的问题拆成"灵感检索 + 假设合成"两个序列子任务，再叠上层级树检索 + bounded composition + motivation 规划，把最优复杂度从指数级压到 \(\mathcal{O}(\log N)\)，并放出 108,717 篇带分解标注的 TOMATO-Star 数据集。
Names Don't Matter: Symbol-Invariant Transformer for Open-Vocabulary Learning: 作者把 Transformer 改成"对每个可互换符号开一条共享权重的并行嵌入流 + 跨流聚合注意力"的结构，从架构层面保证对变量重命名（alpha 等价）的输出完全不变，并且允许测试期向词表里塞训练时没见过的新符号，在命题逻辑与 LTL 见证生成任务上超过同类基线甚至 GPT-5.2。
On the Expressive Power of Permutation-Equivariant Weight-Space Networks: 本文为操作在 MLP 权重上的置换等变 weight-space 网络（DWS / NFN / GMN / NG-GNN 等）建立了首个系统的表达力理论，证明这些架构在表达力上几乎完全等价，并在"general position"假设下对四种逼近场景（函数空间泛函/算子、置换不变泛函、置换等变算子）给出了普适性刻画；由理论得出的简单修改 OCE（输出端 ensemble 多个 MLP）在 INR 编辑基准上相对 SOTA 提升 34%。
On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length: 本文用一套精心控制"推理难度恒定、只变 horizon 长度"的 Sudoku/Rush Hour 任务，系统证明任务 horizon 本身就是 LLM agent RL 训练崩溃的独立根因，并提出 macro action 与 subgoal decomposition 两种 horizon-reduction 机制——它们不仅稳住训练，还让模型在更长 horizon 上实现强 zero-shot 泛化（horizon generalization）。
POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation: POET-X 把训练稳定但又慢又费显存的 POET（正交等价变换、谱保持优化器）做了一整套系统级提速降存：通过输入中心化重构、置换内核加速、块对角批并行、半存储 CNP 与 Triton 融合，相比原版 POET 实现 3× 显存下降、8× 速度提升，让单张 H100 就能预训练 8B~13B 的 LLM，而 AdamW 在同等设置下直接 OOM。
Predicting Large Model Test Losses with a Noisy Quadratic System: 本文提出 Noisy Quadratic System (NQS)——一个把 LLM 测试损失建模为 \(L(N, B, K)\)（模型大小 / 批大小 / 更新步数）的 mechanistic 损失模型，首次在 scaling law 中显式建模 batch size，并在 Pythia + OWT2 上把外推预测能力从 Chinchilla 的 ~20× 算力提升到 ~4000× 算力。
Scaling Depth Capacity via Zero/One-Layer Model Expansion: 本文提出"零层/一层渐进式训练"——先训一个几乎没有 Transformer 层的极浅模型，再在训练后期（≈80% iterations）一次性把深度扩展到目标层数，配合 WSD 学习率和 muP 超参传递，可在 GPT2/LLAMA3/DeepSeekV3 上节省约 80% 计算（≈5× 加速）且最终 loss 几乎不掉。
SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs: SPARe 在数据并行维度把同一份数据 shard 跨组 cyclically 堆叠 \(r\) 层，并在节点失败后用 Hopcroft-Karp + min-cost max-flow 自适应重排"all-reduce stack 数"，使得在 600k GPU 的 restart-dominant 场景下，只需 \(2\sim 3\times\) 计算开销就能达到与 \(r\times\) 传统副本同等的可用性，把 time-to-train 相比 Rep+CKPT 进一步降 \(40\sim 50\%\)。
The Devil is in the Condition Numbers: Why is GLU Better than non-GLU Structure?: 在 NTK 视角下证明 GLU 把两层网络的核矩阵改写成"原 NTK 与数据 Gram 阵的 Hadamard 积"，从而显著压缩条件数、加速收敛，同时实证显示 GLU 并不改善泛化间隔，其全部红利都来自更好的优化。
Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher: 本文把"弱到强泛化（Weak-to-Strong Generalization）"重新框架成一个数据选择问题，提出"信任函数（Trust Function）"用一个轻量 MLP 读取教师模型最后一层隐藏状态、预测弱标签是否可靠，然后只挑高信任样本去训练强学生，从而在多任务上实现近无损甚至超越 ground-truth 的监督效果，并可迭代成"弱到强链"放大收益。
Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from k-Parity: 本文用 \(k\)-parity 这一可解析任务把 Masked Diffusion Language Model（MDLM）的训练目标解构成"信号项 + 噪声项"，从理论上证明噪声项扮演隐式正则器抑制 grokking、避开记忆陷阱，并据此提出 Signal-Rich Mask Sampling——把训练时的掩码率 \(t\) 从均匀 \(\mathcal{U}[0,1]\) 收紧到中段窗口，在 50M 模型上显著降 perplexity、在 8B 模型上预训练提升 8.8%、SFT 提升 5.8%。
XTransfer: Modality-Agnostic Few-Shot Model Transfer for Human Sensing at the Edge: XTransfer 面向边缘设备上的人体感知任务，用少量目标传感器数据把来自图像、文本、音频或传感器等任意模态的预训练模型迁移过来，通过 layer-wise model repairing 和 resource-constrained layer recombining 缓解跨模态特征错位，同时提升少样本精度与边缘部署效率。