💬 LLM 其他¶

🧪 ICML2026 · 39 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (3) · 🔬 ICLR2026 (55) · 💬 ACL2026 (61) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (54) · 📹 ICCV2025 (6)

🔥 高频主题： LLM ×13 · 扩散模型 ×3 · 对抗鲁棒 ×2

A Geometric Relation of the Error Introduced by Sampling a Language Model's Output Distribution to its Internal State: 本文从微分几何视角刻画 GPT 风格 LLM 在高熵分布上采样所引入的信息丧失，构造 \(\mathfrak{so}(n)\) 值 1-形式与平行输运算子，并在国际象棋探针实验中证明这种几何旋转与模型学到的世界向量高度同向。
ANCHOR: Abductive Network Construction with Hierarchical Orchestration for Reliable Probability Inference in Large Language Models: ANCHOR 用"自底向上溯因 + 层级聚类" 构造稠密因子空间，对下游条件做粗到细检索得到稀疏相关因子集，再联合 Naïve Bayes 与一个 LLM 现场构造的潜变量因果贝叶斯网络做后验聚合，在 LLM 高风险决策场景中显著减少 "unknown" 预测并提升概率校准。
Automated Formal Proofs of Combinatorial Identities via Wilf–Zeilberger Guidance and LLMs: WZ-LLM 把经典的 Wilf–Zeilberger 符号证明流程编译成 Lean 4 中可执行的证明骨架（递推 + 边界条件 + 侧条件），交给专门用 SFT + expert-iteration + DAPO 训练出的 WZ-Prover 逐项 discharge，在 100 个经典组合恒等式上把 pass@32 从 Goedel-Prover-V2 的 9% 提升到 34%。
Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision: 本文提出 Compute as Teacher（CaT）：把 GRPO 已经在采样的 G 条 rollouts 通过冻结锚模型"合成"出一个伪参考答案，再在非可验证领域用模型自己从该伪参考衍生的二元 rubric 给每条 rollout 打分作为 RL 奖励，从而在没有任何人工标注的情况下把推理算力直接变成监督信号，在 HealthBench 上相对基线最高提升 30%，并以 9× 更低的测试时算力匹配甚至超过 inference-time aggregation。
Creative Collision: Directorial Persona Steering and Competition in Large Language Models: 把两个语义对立的"导演人格"引导向量（Spielberg 乐观救赎 vs Scorsese 阴暗道德模糊）同时注入大模型残差流，系统刻画两个方向相互竞争时的道德基调、连贯度与几何变化，发现了"方向支配"、"连贯度低谷"和"第 28 层道德枢纽"三个反直觉现象。
Deep Networks Learn to Parse Uniform-Depth Context-Free Languages from Local Statistics: 作者提出一个可控歧义的"变树 RHM"概率上下文无关文法，并证明只用 root-to-pair / root-to-triple 这两个低阶矩 + 逐层聚类，就能恢复语法规则、进行 CYK 式解析，对应样本复杂度 \(P^\star \asymp v\, m_3\, m_2^{L-1} (p_2^2/2)^{1-L}\)，CNN 与 Transformer 实验完全符合该幂律。
Differential Syntactic and Semantic Encoding in LLMs: 通过对共享句法结构或共享含义的句子做隐层表示平均得到"句法质心"和"语义质心"，作者证明 DeepSeek-V3 等大模型的句子向量中相当一部分句法/语义信息是被线性叠加编码的，并且这两类信息在层间分布和正交消融上都呈现明显的可分离性——支持"句法相对自治"的语言学假说。
Emergence of Hierarchical Emotion Organization in Large Language Models: 论文用一个只靠 LLM 输出 logits、无需任何标注的建树算法，从模型对情绪词的下一词分布里"挖"出层级化情绪树，发现这种树随模型规模增大越来越接近人类心理学的情绪轮（emotion wheel），并进一步证明 LLM 在不同人口学 persona 下复现了与真人一致的系统性情绪识别偏见。
Express Your Doubts: Probabilistic World Modeling Should Not Be Based on Token logprobs: 这是一篇 position paper，主张：用 LLM 的 token softmax 概率（logprob）当成"世界事件概率"是理论上错的——因为 distribution estimation、response prediction 和 target distribution estimation 是三个不同任务，对应不同 ideal 输出分布；获取世界概率的正确做法是二阶预测——让 LLM 在输出里显式写出它对事件的概率（数值或语言修饰词），而不是去算"它说 X 的概率"。
How Many Different Outputs Can a Transformer Generate?: 本文从"有限精度 + 有界嵌入支撑"两个最基本的架构事实出发，证明任意 transformer 只能生成有限条"可达序列"，给出可达序列长度随 prompt 长度线性增长、超过阈值后比例以 \(1/|V|^n\) 指数衰减的紧上界，并用 cramming 与 copying 实验在 Pythia/Qwen/Llama/Gemma 上验证理论斜率与实测仅差 5–10 倍。
"I've Seen How This Goes"：用渐进条件惊奇度刻画 LLM 与人类写作的多样性: 本文提出 \(D_{Ca_n}=C\cdot a_n\) 这一无需 embedding、无需参考语料、无需人工标签的多样性度量：用一个基座模型 \(\theta\) 在单次前向里读完所有响应，把"最后一条响应在已见过 \(n-1\) 条之后还剩多少 per-byte 条件惊奇"乘上"响应整体的可读性"，在 McDiv 人评基准上逼近 SentBERT，并在 OLMo-2-7B 的 base→SFT→DPO→RLVR 上单调下降，准确捕捉后训练带来的模式坍缩。
Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models: 这篇论文系统揭示了掩码扩散语言模型（MDLM）两个被忽视的缺陷——和自回归模型一样存在强局部性偏置、以及"为并行生成而追加的掩码 token 会像干扰物一样拖垮上下文理解"，并提出一个掩码无关（mask-agnostic）微调损失，强制模型预测对掩码数量保持不变，从而显著恢复鲁棒性。
Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation: 作者把异步流水线并行训练 LLM 时延迟梯度导致收敛崩塌的"罪魁祸首"归结为 Adam 的基底失配（Hessian 特征基与坐标轴不对齐），并提出在 Hessian 特征基下做基底旋转再走 Adam 更新，3B 模型上比最强异步基线少 81.7% 迭代就能达到同样 loss。
YAQA: 端到端 KL 最小化的 LLM 自适应权重量化: YAQA 把 LLM 权重量化的代理目标从「逐层激活误差」换成「端到端模型输出 KL 散度」，用 Kronecker 分解的 Hessian 草图给出第一个端到端误差界，相对 GPTQ/LDLQ 把 KL 再降约 30%，甚至比量化感知训练（QAT）更准，且推理速度不变。
Multi-Agent Teams Hold Experts Back: 自组织 LLM 团队为什么留不住「专家」: 本文借组织心理学的「强协同」标准（团队 ≥ 最强个体）系统评估自组织异质 LLM 团队，发现即便明确告知谁是专家，团队在前沿 ML 基准上仍比专家差 6.3%–41.1%，根因不是认不出专家，而是不肯让专家说了算——LLM 倾向「中间立场式整合」而非「认知让渡」，团队规模越大稀释越严重，而这套共识机制反过来让团队对对抗性成员异常稳健。
On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation: 通过对毒性检测的大规模实验（9 模型 × 5 数据集），论文发现 LLM 标注性能主要由定义对齐而非文本记忆决定；模型内化的先验使得绝大多数零样本错误对提示词纠正"有韧性"——即使明确提供定义和示例，三分之二的错误仍无法被修正（救援率仅 34.8%），且置信度无法用于检测定义错误。
Optimizing Diversity and Quality through Base-Aligned Model Collaboration: 作者提出 BACO，一种推理时 token 级路由框架：让"未对齐的 base 模型"和"对齐后的 instruct 模型"在同一次解码里逐 token 切换，用 logit 不确定度与内容词信号决定该信谁，从而在不再训练、不多次采样的前提下同时拿到 base 的多样性与 aligned 的质量，best router 相对最强 baseline 取得 21.3% 的多样性-质量联合提升。
Position: Adversarial ML for LLMs Is Not Making Any Progress: 这是一篇立场论文，作者认为对抗机器学习在 LLM 时代研究的问题相比传统分类器场景"更难定义、更难求解、更难评测"，过去十年在 \(\ell_p\) 鲁棒等"玩具问题"上就进展缓慢，如今全面转向 LLM 后很可能再耗一个十年仍无法产出可度量、可复现的安全保证。
Position: Hippocampal Explicit Memory Is the Cornerstone for AGI: 这是一篇立场文（position paper），作者用神经科学证据论证：LLM 的底层学习机制本质上对应人脑的「隐式记忆」（基底神经节的习惯/程序性学习），而通往 AGI 所必需的高阶认知——长程规划、元认知、符号推理——依赖海马体的「显式记忆」，无法靠纯统计式隐式学习涌现出来，因此给 LLM 补上一套显式记忆系统是迈向 AGI 的基石，并进一步给出人工显式记忆系统需满足的 8 条计算要求。
Position: The ML Community Must Build an AI-Augmented Peer-Review Ecosystem: 这是一篇立场论文，主张机器学习社区应当紧急建设一个"AI 增强"的同行评审生态——把 LLM 当作作者、评审人、领域主席（AC）三类角色的协作助手而非替代者，并指出真正的近期瓶颈不是更强的模型，而是缺少能记录"评分为何改变、哪句 rebuttal 化解了哪条质疑"的结构化过程数据。
Position: The Turing-Completeness of Autoregressive Transformers Relies Heavily on Context Management: 作者指出"Transformer 是图灵完备"这一流行说法在大多数已有证明里其实悄悄换成了"一族不同的 Transformer 共同能模拟图灵机"，并形式化了贴近真实部署的固定系统 \((T,D,C)\)，证明同一个固定 Transformer 在不同上下文管理策略下计算能力可以从仅识别正则语言一路跃迁到图灵完备，从而把研究重点从模型本身扭转到 context manager 上。
Preregistration for Experiments with AI Agents: 这是一篇立场论文，主张把社会科学用来对抗"可复现性危机"的预注册（preregistration）实践，扩展到"把 LLM/AI agent 当实验被试"的行为实验上——它系统编目了 AI agent 实验特有的"研究者自由度"，并给出一套为这类实验量身定制的预注册模板。
Rare Event Analysis of Large Language Models: 本文把统计物理里成熟的稀有事件分析（REA）方法搬到 LLM 上，用「指数倾斜分布 + Transition Path Sampling + MBAR」三件套，在 TinyStories 上以可承受的算力估出比直接采样小好几个数量级的稀有完成概率，并通过 EDA 找出便宜的运行时代理（连续 token 重复数）来预筛高 ARI 异常输出。
Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models: 本文从"有效推理轨迹是学习分布上的稳定吸引子"这一几何视角出发，提出 BMC（Bidirectional Manifold Consistency）这一无监督、训练自由的度量：通过对扩散语言模型（dLLM）生成结果做一次"前向重新掩码 + 后向少步重构"，用重构稳定性来打分；BMC 同时支撑错误诊断、推理时拒绝采样和 RL 稠密奖励三大任务，在四个推理基准上系统超越置信度、Self-Consistency、Self-Evaluation 等基线。
Resting Neurons, Active Insights: Robustify Activation Sparsity for Large Language Models: 本文把激活稀疏导致 LLM 掉点的本质归因为"表示漂移"，并仿照生物自发放电向每层注入一个输入无关、训练后可吸收进 bias 的小向量（SPON），以接近零推理开销显著缩小稀疏模型与稠密模型的差距。
Rethinking LLM Ensembling from the Perspective of Mixture Models: 本文证明对 \(n\) 个 LLM 做 token 级集成时无需每步都跑所有模型——按权重随机抽一个模型采下一个 token，输出分布与"先平均后采样"严格等价，从而把 \(n\) 倍前向变回 1 倍前向，并配合"懒同步 KV 缓存"实现 1.78×–2.68× 的实际加速。
SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling: SAC-Opt 把 LLM 生成的优化求解器代码再"反向翻译"回结构化语义锚点（约束与目标），与原始问题描述的锚点逐条比对，只重写不一致的那条约束/目标并迭代到全部对齐，在 7 个公开数据集上平均提升 7.7%、ComplexLP 上提升 21.9%。
Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions: 本文把 LLM 推理调度中"预测单一输出长度"的点估计换成 log-t 分布拟合，并用一个加上 CVaR 尾部惩罚的期望（Tail Inflated Expectation, TIE）替代 SJF 中的输出长度作为优先级，在 LMSYS-Chat-1M 上把在线每 token 延迟相比最强 baseline LTR 再降 \(2.31\times\)，离线 SDG 吞吐量提升 \(1.42\times\)。
SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel: SLAY 把受物理"逆平方相互作用"启发的 Yat-kernel 通过 (1) 球面归一化 (2) Bernstein 定理的 Laplace 积分表示 (3) Gauss-Laguerre 求积 (4) 多项式+指数核张量积正随机特征四步连击线性化，得到 \(O(L)\) 时间复杂度且与 softmax 几乎无差异的注意力机制。
SPA-Cache: Singular Proxies for Adaptive Caching in Diffusion Language Models: SPA-Cache 把扩散语言模型 (DLM) 中"哪些 token 需要更新"的判定，从原本在 \(d=4096\) 维 Value 空间做余弦相似度，压缩到 \(r=128\) 的奇异子空间，并按层动态分配更新预算，在不掉精度的前提下让 LLaDA-8B 在 GSM8K 上达到 \(6.4\times\)、在 MBPP 上达到 \(8\times\) 的吞吐提升，叠加并行解码后总加速 \(28\times\)。
SphericalDreamer: Generating Navigable Immersive 3D Worlds with Panorama Fusion: SphericalDreamer 通过把多张文本生成的分层深度全景图各自抬升为 3D"球体"建筑块、再用谐波融合把相邻球体之间缺失的过渡区域生成并拼接起来，得到首个同时具备 360°×180° 全方向沉浸感和长距离可导航能力的户外 3D 世界。
Stop Automating Peer Review Without Rigorous Evaluation: 这是一篇立场论文：作者通过对 ICLR 2026 真实评审和 60 篇模拟评审的实证测量，发现当前 LLM 审稿存在 hivemind（高度趋同）+ paper laundering（零样本改写就能涨 0.45 分）两大失效，因此论证「在没有严格评估之前，不应让 LLM 直接生成审稿意见」，并呼吁建立一门"审稿自动化的科学"。
T\(^2\)PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning: T\(^2\)PO 把多轮 agentic RL 的训练崩溃归因为"hesitation（犹豫）"——token 层过思考、turn 层重复无效——并用一个融合 entropy+confidence 的自校准不确定性信号 \(M_t\) 同时驱动 token-level Thinking Intervention（动态截断 think 段）和 turn-level Dynamical Sampling（重采样无效 turn），在 WebShop / ALFWorld / Search QA 上稳定超越 PPO/GRPO/GiGPO。
The Cylindrical Representation Hypothesis for Language Model Steering: 本文提出 Cylindrical Representation Hypothesis（CRH），在保留"概念线性"的前提下放弃 LRH 的正交性，证明概念向量的叠加会自然诱导出"轴 + 法平面 + 敏感扇区"的圆柱几何，从而首次几何化地解释了 activation steering 为什么在样本层面不可预测但在群体层面可观测。
Token-Efficient Change Detection in LLM APIs: 作者证明在低温采样下，"两个 token logit 几乎打平"的特殊输入（Border Inputs）对参数微扰极度敏感——理论上 SNR 在 \(T\to 0\) 时发散，于是只观测输出 token（严格黑盒）就能用极少请求做 LLM API 变更检测；提出的 B3IT 在 TinyChange benchmark 上以 1/30 的成本匹敌灰盒 logprob 方法，并在 93 个商用端点上 23 天连续监控发现 8 次真实模型替换。
结构化广义线性 token mixing：用 SND + Kronecker 在复杂度与表达力之间换挡: 论文提出统一的"直接输入混合 \(\mathbf{A}\) + 输出递归混合 \(\mathbf{B}\)"框架 \(Y = (I - B)^{-1} A X\) 涵盖 attention/SSM/linear recurrence/高阶递归，证明 sparsity pattern of \(A, B\) 直接控制 \(\mathcal{O}(n^{\log n})\) 到 \(\mathcal{O}(n^2)\) 的复杂度梯度，提出 \(f(k) = 2^k\) 和 \(f(k) = k^2+1\) 两种 translation-invariant 模式给出 \(\mathcal{O}(n \log n)\) 和 \(\mathcal{O}(n \sqrt{n})\) 的新选择，且 cache 可缩到 \(\mathcal{O}(\log n)\) 或 \(\mathcal{O}(\sqrt{n})\)。
In-Context Routing (ICR): 一次训练、处处可用的 attention-level 隐式 ICL: ICR 不在 residual stream 注入 shift vector，而是从多域 ICL 中用 PCA 抽出 Principal ICL Directions (PIDs) 作为 attention logits 的 low-rank 修正方向，配 query-conditioned router 自适应调制；一次训练后能在 12 个 in/out-of-domain 任务上零样本推理，无任务特定检索/再训练，在 OOD 上不像 vector-based 方法那样退化。
Universal Reasoner: 冻结 LLM 的可组合即插即用推理器: 提出通用推理器（UniR）——通过训练独立的轻量推理模块来捕获奖励导向的推理行为，在推理时通过逻辑叠加与冻结 LLM 组合，实现无需微调冻结模型、跨模型大小转移和多任务可组合的推理增强。
Why Are Linear RNNs More Parallelizable?: 这篇论文用电路复杂度严格解释了为什么 Linear RNN 比传统非线性 RNN 更容易像 Transformer 一样并行：LRNN 可落在近似 log-depth 的算术电路类中，而非线性 RNN 能表达更难并行的 logspace / polynomial-time 完全问题，二者形成表达力与并行性的基本权衡。