📂 其他¶

🧪 ICML2026 · 70 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (105) · 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121) · 📹 ICCV2025 (33)

🔥 高频主题： 布局/合成 ×2 · Agent ×2 · 对齐/RLHF ×2

A Hypertoroidal Covering for Perfect Color Equivariance: 这篇论文用双覆盖把 HSL 中本来是区间值的饱和度和亮度提升到圆群上，构造 \(\mathbb{T}^3\)CEN，使网络对 hue、saturation、luminance shift 都能实现精确颜色等变，并在颜色偏移和医学图像等任务上提升鲁棒性。
Adaptive Multi-Round Allocation with Stochastic Arrivals: 本文形式化网络招募为预算约束的顺序控制问题，证明单轮最优分配是贪心的；通过人口水平代理值函数将多轮规划降维到 \(O(b^5\log b)\) 复杂度，并给出在模型误差下分解为前沿/人口/逼近三类误差的鲁棒性保证。
AI Cap-and-Trade: Efficiency Incentives for Accessibility and Sustainability: 作者借鉴碳排放 cap-and-trade，提出针对 AI 推理 FLOP 的配额-交易市场（AI Allowance），用 KKT 条件证明其能在合理参数下严格减少各公司 FLOP 使用，从而同时缓解大模型时代的能耗与小公司被挤出市场两大问题。
AMDP: Asynchronous Multi-Directional Pipeline Parallelism for Large-Scale Models Training: AMDP 用多方向异步流水线、一步参数错配上界、梯度累积和 ZeRO 状态分片，在保持近同步收敛的同时提升大模型流水线并行训练吞吐，在 8 GPU GPT/BERT 实验中相对最强异步基线最高提升约 17%。
Amortized Simulation-Based Inference in Generalized Bayes via Neural Posterior Estimation: 这篇论文把 generalized Bayes 中的 power posterior 家族直接摊销到一个同时以观测 \(x\) 和温度 \(\beta\) 为条件的 neural posterior estimator 上，使不同观测和不同 \(\beta\) 下的后验采样可通过一次前向传播完成，而不再需要每次运行 MCMC。
AutoNumerics-Zero: Automated Discovery of State-of-the-Art Mathematical Functions: 提出 AutoNumerics-Zero，一种零先验知识的进化符号回归方法，从空程序出发自动发现逼近超越函数（如指数、余弦）的算术程序，在有限精度目标下以更少的运算次数超越了数百年来数学家设计的经典逼近方法。
Beyond Model Readiness: Institutional Readiness for AI Deployment in Public Systems: 针对公共部门AI系统"技术上可行但部署上失败"的普遍现象，提出机构对齐就绪度 (Institutional Alignment Readiness, IAR) 五维评估框架，从制度兼容性、数据生态成熟度、人工监督能力、财政可持续性和法规对齐五个维度评估接收机构是否具备负责任部署AI系统的条件。
Bullet Trains: Parallelizing Training of Temporally Precise Spiking Neural Networks: 提出基于并行关联扫描（parallel associative scan）的脉冲神经网络并行训练方法，在保持精确硬重置动力学的同时实现最高 44 倍加速，并用可微分数值根求解器实现机器精度的脉冲时间计算。
Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features: TabCascade 把表格行拆成"低分辨率（类别 + 数值的离散化版本）"与"高分辨率（连续数值）"两段级联：先用 CDTD 学低分辨率联合分布，再用 flow matching 在低分辨率引导下生成数值细节，并通过数据相关耦合 + 可学非线性时间表收紧 transport cost；天然支持缺失值、零膨胀等"混合型特征"的生成，在 12 个数据集上 detection score 比 SOTA 提升 51.9%。
Complexity as Advantage: A Regret-Based Perspective on Emergent Structure: 本文提出 Complexity-as-Advantage (CAA)：把"复杂度"重新定义为一族资源受限观察者在同一过程上的后悔（regret）分散程度，并证明它在 log-loss + Markov 框架下等价于条件互信息原子之和（恰好恢复 excess entropy），在编码视角下等价于过剩描述长度的方差（MDL），从而把 Kolmogorov 复杂度、Bennett 逻辑深度、excess entropy 统一成一个可计算、可经验估计的标量谱。
Comprehensive AI Governance Requires Addressing Non-Model Gains: 本文是一篇立场论文，论证当前以模型为中心的AI治理范式在"非模型增益"（推理增益、系统增益、资产增益）日益重要的背景下效力递减，需要系统治理、实体治理、代理治理和云治理等多层互补方案来填补监管空白。
Connecting Independently Trained Modes via Layer-Wise Connectivity: 提出 Low-Loss Path Finding (LLPF) 算法，通过逐层连通性和方差球约束，可靠地在独立训练的神经网络模型之间构建低损失路径，支持 MobileNet、EfficientNet、CCT 等现代架构，且结果高度可复现。
Continual Learning of Domain-Invariant Representations: 作者首次把"域不变表示学习（DIRL）"显式注入到持续学习里：以 replay buffer 为载体做 multi-domain 不变性计算 + 域条件对齐，提出 ⋆-CL-{VREX, Fishr, CORAL, MMD, ANDMask} 五个方法，在六个跨视觉/医学/制造/生态的数据集上把目标域准确率推到 SOTA。
Coupled Training with Privileged Information and Unlabeled Data: 针对"训练时能用、部署时拿不到"的特权特征 \(W\)，作者提出一种部署模型 \(f\) 与富视图模型 \(g\) 联合训练的框架，通过显式约束 \(g\) 在标注数据上的拟合误差来自适应控制特权信息的影响强度，从而在 \(W\) 信号弱或带噪时避免传统两阶段伪标签法的负迁移现象。
CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities: 本文构建了 CyberGym-E2E——首个覆盖"漏洞发现 → PoC 生成 → 补丁生成 → 功能回归测试"全生命周期的大规模真实世界 AI Agent 安全基准（920 个漏洞 × 139 个开源项目），并通过 agent 辅助 + 专家终审的四步流水线把人工成本压到最低；评测显示前沿模型在 patch-only 任务上能到 80%+，但在端到端任务上 S3 成功率最高仅 65.9%（GPT-5.4），漏洞发现而非补丁生成是真正的瓶颈。
Decision Tree Learning on Product Spaces: 本文把 Blanc et al. (ITCS'20) 对"top-down greedy 决策树启发式"的理论保证从均匀分布推广到任意乘积分布，给出 \(\exp(\Delta_\mathrm{opt} D_\mathrm{opt}\log(e/\epsilon))\) 大小上界（满二叉树情形严格优于 ITCS'20），且完全免参数——不需要预知最优树大小或深度即可运行。
Decoupled Conformal Optimisation: Efficient Prediction Sets via Independent Tuning and Calibration: 本文提出 DCO-Warmstart——一种 "训练–调参–校准" 三分式的贝叶斯保形优化范式：把效率搜索放在独立的 tuning split 上、把保形分位数留给一份未被触碰的 calibration split，从而在任意大小（甚至无穷）的候选结构类上无需置信参数 \(\delta\) 也能拿到标准的有限样本边际覆盖保证，且实证上预测集尺寸通常小于 CRC/BQ 等耦合校准方法。
DISCO: Mitigating Bias in Deep Learning with Conditional Distance Correlation: 用反因果图把混淆/对撞/中介三类偏差统一成一个条件独立准则 \(\hat{Y} \perp \mathbf{B} \mid Y\)，再设计 \(O(n^2)\) 显存的单步可微估计器 sDISCO，作为正则项把条件距离相关惩罚塞进任何梯度训练的网络，从而缓解多种偏差且能扩展到多偏差场景。
DisjunctiveNet: Neural Symbolic Learning via Differentiable Convexified Optimization Layers: 把"输入相关的 if-then 逻辑规则"写成多面体并的析取约束，通过基本步序列把 CNF 凸化成 DNF 的凸包，得到一个可微的 LP 投影层，神经网络输出经过这层后能在训练和推理时都精确满足原始 MILP 级别约束。
Envy-Free Allocation of Indivisible Goods via Noisy Queries: 本文首次给"用噪声查询估值来寻找无嫉妒分配"这个新问题立了样本复杂度的尺：在两个智能体、加性高斯噪声、\(m\) 件物品、最优负嫉妒缺口 \(\Delta\) 的设定下，证明所需查询次数的紧界为 \(\widetilde{\Theta}(m^{2.5}/\Delta^2)\)（当 \(\Delta\gg m^{1/4}\)），上界由非自适应查询 + 单物品阈值多项式时间算法实现，下界对自适应查询和任意计算时间都成立。
Position: Evaluation of ML Resource Utilization Requires Model Life Cycle Assessment: 这是一篇立场（Position）论文，主张评估 ML 模型的资源消耗与环境影响不能再只盯"单次训练"或"单次推理"的边际成本，而应借鉴工业生态学成熟的生命周期评估（LCA），把硬件制造的嵌入式成本到训练/推理的运营成本在整条研发-部署生命周期上聚合归因，并给出了一套 LCA-for-ML 的四阶段方法、成本归因公式与 OLMo2 案例。
FOVI：面向深度视觉模型的生物启发式中心凹接口: 受人类视网膜—V1 通路启发,作者用"皮层放大函数 + 局部各向同性采样"构造出一种像素分布不均、但在传感器流形上密度均匀的中心凹输入接口 FOVI,并通过新颖的 kNN 卷积 + 核映射技术使其同时兼容 CNN 与 ViT,只用约 1/16 的像素就让 DINOv3-ViT 接近全分辨率基线的 ImageNet 精度。
Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity: 这篇论文从理论上刻画了带位置编码的 Transformer 注意力的「函数等价」对称群——证明正弦位置编码保持原始注意力的对称结构、而 RoPE 把对称群大幅压缩从而提升表达力，并据此设计了一个适配两种位置编码的两阶段权重匹配算法，系统验证了不同设置下的线性模式连通性（LMC）。
GOTabPFN: From Feature Ordering to Compact Tokenization for Tabular Foundation Models on High-Dimensional Data: 针对"特征远多于样本"（HDLSS）的高维表格任务，本文不动 TabPFN 主干，而是先用图引导的特征排序（GO-LR）把相关特征排到相邻位置，再用神经启发的子单元压缩（NSC）把相邻特征段池化成少量 meta-feature，从而把成千上万维表格塞进 TabPFN 能吃的特征预算里，在 8 个基因/图像类 HDLSS 数据集上取得平均排名第一。
Guaranteed Optimal Compositional Explanations for Neurons: 组合解释通常用束搜索找"和神经元激活对齐最好的逻辑公式"，但束搜索没有最优性保证；本文提出 IoU 的精确分解 (dIoU) + 一个 admissible 启发式 + 一个 best-first 最优算法，在与束搜索相当的运行时间内首次保证给出全局最优解，并据此揭示过去文献中 10–40% 的解释其实是次优的。
HASTE: Hardware-Aware Dynamic Sparse Training for Large Output Spaces: 针对百万级标签的极端多标签分类，HASTE 把"每个标签独立采样 fan-in"改成"按语义分组共享 fan-in"，再配合一个吃掉高频标签的小 dense head，使得稀疏训练在 GPU 上真正跑出对应 FLOPs 的墙钟收益，前向最多 \(4.4\times\)、反向最多 \(25\times\) 于现有稀疏基线，同时把与 dense 的精度差距收窄到几乎打平。
How the Optimizer Shapes Learned Solutions in Equivariant Neural Networks: 本文系统比较 Muon 与 Adam 在等变/几何网络（EGNN、DGCNN、PointNet、GotenNet、GINE）上的训练效果，发现 Muon 在 3D 点云任务上稳定优于 Adam，且收敛到的解在 Hessian 曲率、损失景观局部光滑度、权重/表征谱秩三个维度上都呈现显著不同的结构性差异——把"优化器选择"重新定位为等变网络训练里被严重忽视的一个 inductive bias。
Identifiable Equivariant Networks are Layerwise Equivariant: 本文在一个架构无关的抽象框架下证明：只要参数满足"弱可辨识性"，端到端 \(G\)-等变的深度网络一定存在等价参数化，使得每一层都对某个潜在群作用等变；这从理论上解释了"端到端等变会自动塌缩为逐层等变"这一长期被实验观察到的现象。
Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation: GLIDE 把 PPI（prediction-powered inference）家族的最新估计器（PPI++、Stratified PPI、PTD、ASI）与采样器（uniform、stratified、active、cost-optimal）统一封装成 scipy 风格的均值估计库，专门解决"贵的人类标注 + 便宜但有偏的 LLM-as-judge"的混合评测问题，并配套蒙特卡洛验证与一颗决策树，让 GenAI / Agentic 系统的可信评估真的能上工业化。
Inference of Online Newton Methods with Nesterov's Accelerated Sketching: 本文给在线 Newton 法装上 Nesterov 加速的 sketch-and-project 求解器，把每步成本压到 \(O(d^2)\)，并第一次刻画了"数据随机 + 求解器随机"双重不确定性下末迭代的渐近正态性，再配上一个无需矩阵求逆、可流式更新的协方差估计器，让带加速 sketching 的在线 Newton 真正可用于统计推断。
iWorld-Bench: A Benchmark for Interactive World Models with a Unified Action Generation Framework: iWorld-Bench 是首个专门为"交互式世界模型"设计的统一评测基准，提出一套能把文本 / one-hot / 相机内外参三种动作输入折算到同一指令空间的 Action Generation Framework，并基于 330K 视频精挑 4.9K 任务、9 项指标，对 14 个主流模型做了全维度对比。
Knowing Isn't Understanding: Re-Grounding Generative Proactivity with Epistemic and Behavioral Insight: 这是一篇 ICML2026 Position 论文，主张生成式智能体的"主动性"不能只看是否更早、更自主、更持续地行动，而必须由两条联合约束规制——认识论合法性（agent 是否真的"理解"了情境）与行为承诺度（介入是否可逆、是否被迫升级），并把幻觉、对齐失败、不安全自治重新解释成"知道 / 行动"之间的错耦合（mis-coupling）。
Learning Permutation-Invariant Macroscopic Dynamics: 本文针对粒子系统这类天然无序的微观状态，提出"重构密度而非重构粒子"的自编码器框架——用 DeepSet 编码器得到置换不变的闭包变量 \(\hat{\bm{z}}\)，再用条件归一化流把以观测点为中心的高斯混合密度作为重构目标，从而绕开点云匹配，并和宏观可观测量一起被一个 SDE/ODE 学到。
Less Data, Faster Training: Repeating Smaller Datasets Speeds Up Learning via Sampling Biases: 本文系统刻画并解释了"小数据多重复反而比大数据更快收敛"的 small-vs-large gap 现象：作者证明该加速既不能由 CSQ-SQ 差距、梯度方差减少、输入分布偏置三种已有理论解释，又通过 2-sparse parity 上的 2-layer 二次激活 MLP 给出闭式步数界 \(T = O((Nd)^{1/4} \log(d/\varepsilon))\)，并通过随机标签、初始化缩放、层间学习率等一系列干预实验验证：真正驱动加速的是"小数据集天然存在的 \(O(N^{-1/2})\) 采样偏差通过加快第二层范数增长来加速第一层特征学习"。
Local and Mixing-Based Algorithms for Gaussian Graphical Model Selection from Glauber Dynamics: 作者首次研究"从单条 Gaussian Glauber 动力学轨迹"中学习高斯图模型结构的问题，提出两种互补算法：LET-GL（基于 i,i,j,i 窗口的局部边检测、完美并行）和 BTR-GL（在 Dobrushin 条件下用 burn-in/thinning 把轨迹"解相关"成近似 i.i.d. 样本再喂给现成 i.i.d. 学习器），并给出有限样本恢复保证 + 信息论下界 + 一个独立有用的随机扫描高斯 Gibbs sampler 的 TV mixing 上界。
MalTree: Tracing Malware Evolution from Embeddings at Scale: MalTree 把生物信息学里的系统发育树技术（UPGMA、Neighbor-Joining）搬到恶意软件分析上：从内存转储里抽取静态+动态+图像三路嵌入，转成距离矩阵后大规模重建恶意软件家族的"演化树"，并首次用 VirusTotal 时间戳做时序验证（87% 时序一致性），在 10 万+ 样本、538 个家族上证明嵌入距离能近似真实演化序，把恶意软件分析从"逐样本分类"推向"谱系感知的演化建模"。
Mapping Human Anti-collusion Mechanisms to Multi-agent AI Systems: 这是一篇 position / taxonomy 论文：把人类社会几百年积累的反合谋经验（制裁、宽大与举报、监控审计、市场设计、治理）按生命周期分成五类，再逐条映射到多智能体 AI 系统的可实现干预（reward penalty、whistleblower agent、telemetry-first overseer、interaction protocol 设计、shutdown 机制等），同时指出 AI 场景独有的归因、身份流动、合作-合谋边界、对抗适应等开放挑战。
Markov Chain Monte Carlo without Evaluating the Target: An Auxiliary Variable Approach: 作者把 exchange、PoissonMH、TunaMH 三类"不算目标分布也能采样"的 MCMC 统一成一个用辅助变量的元算法，并在 proposal 与接受率两处同时引入辅助随机性，从而设计出小批量数据下仍保持精确平稳分布的梯度型 MCMC（Poisson–Barker、Poisson–MALA、Tuna–SGLD），实证显著超过 PoissonMH/TunaMH/SGLD 等基线。
Metadata Predictability Is Not Evidence Dependence: An Intervention-Based Audit for Weak-Label Benchmarks: 作者指出「输出能被元数据预测」≠「输出依赖证据」，提出双统计量审计协议：用 MPDS 测元数据可预测性、用证据洗牌 ΔEvi 测证据敏感性，再加 stronger-reader 校准层和输入消融，构成一个 4 步可复用的弱标签 benchmark 体检方案。
MetaDNS: Enhancing Exploration in Discrete Neural Samplers via Well-Tempered Metadynamics: 把分子动力学里的「well-tempered metadynamics」搬进离散神经采样器，用一个沿低维 collective variable 累积的历史相关偏置势 \(V_t(s)\) 推平已访问的能谷，强迫 MDNS 类模型跨越能垒、覆盖多模态 Boltzmann 分布，并用重要性重加权保留无偏估计。
Multi-Level Strategic Classification: Incentivizing Improvement Through Promotion and Relegation Dynamics: 本文把传统单次"策略性分类"扩展成一个由多级三元分类器（通过/弃判/不通过 = 晋升/留级/降级）构成的序贯机制，证明仅靠折现因子 \(\beta\)、技能保留率 \(\gamma\) 与"高位增益"\(\delta\) 这三种跨期效应，就能把不可激励区域从 \(c^+>c^-\) 缩小到 \((1-\beta\gamma)c^+>c^-\)；进一步给出 \(\mu_l = \delta(l-1)/(1-\gamma)\) 的稳态阈值序列，证明在温和条件下可激励诚实努力把属性推到任意高水平。
nD-RoPE: A Generalized RoPE for n-Dimensional Position Embedding: 把 RoPE 从「逐轴拆分」改成「把位置和频率都当成完整的 n 维向量、用一次内积旋转 \(e^{j\boldsymbol{\omega}^\top\mathbf{x}}\) 编码」，并用正则单纯形波矢保证各向同性，从而在图像、视频、点云上都拿到一致的精度提升和更强的分辨率/密度外推。
Networked Information Aggregation for Binary Classification: 把 Kearns-Roth-Ryu 2026 的"在 DAG 上让线性回归 agent 顺序传 prediction 列即可逼近全局最优"结论推广到二分类：每个 agent 只看到部分特征列、顺序地把自己的 logit 转发给下游，能在 \(M\)-coverage 条件下用 \(O(M/\sqrt{D})\) 超额 BCE loss 达到全局逻辑回归最优；同时构造硬实例证明 \(\Omega(k/D)\) 下界，把网络深度刻画成信息聚合的根本瓶颈。
New Bounds for Kernel Sums via Fast Spherical Embeddings: 通过把 Bartal-Recht-Schulman 2011 的"随机 Nash 装置"球面嵌入定理用迭代 Fastfood 变换做成快速版（time \(\widetilde{O}(d + \Lambda^2 + \varepsilon^{-2})\)），再把它作为 Gaussian KDE 的预处理把直径压到 \(\widetilde{O}(1/\sqrt{\varepsilon})\)，得到新的 Gaussian KDE 查询时间界 \(\widetilde{O}(d + \varepsilon \Delta_\sigma^2 + 1/\varepsilon^3)\)，在小 \(\varepsilon\) 中等直径的体制下优于 RFF / FJLT+RFF / Fastfood。
NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search: 用一个 asinh 链接的 GLM surrogate 把多智能体 MCTS 的 joint-action 空间 \(d^n\) 压成 low-dim 非线性 bandit，再用"一阶差分量 + 二阶 mixed difference"作为 NonUCT 提议规则，只在每个节点维护小候选集 \(\mathcal{C}(s)\)，证明 \(\widetilde{O}(T^{3/4})\) 的局部 regret（与 \(d^n\) 无关），在 MatGame/SMAC/SMACv2 上 sample efficiency 和最终性能都好过 MAZero 等强 baseline。
On Revisiting Entropy for Identifying Mislabeled Images: 作者发现"错标样本的预测熵在整个训练中持续偏高"这一现象不足以区分错标样本和困难干净样本，于是把熵乘上一个"预测是否对齐给定标签"的符号位得到 signed entropy，并沿训练 epoch 累积成 SEI 统计量，在 ISIC/DeepDRiD/PANDA/CheXpert 等多个医学数据集和 CIFAR-100N 上以纯插拔方式刷新错标检测 SOTA（最高领先 11%+）。
On the Coordination of Value-Maximizing Bidders: 本文形式化研究了在线广告中多个 value-maximizing 自动出价者的"协调"问题，提出"只让联盟中价值最高的成员出价、其余出 0"的简单协调机制，并证明对一大类自动出价算法而言，该机制能同时降低每个联盟成员的 RoS 违反量、并把联盟总价值推到所有协调机制的渐近最优。
On the Epistemic Uncertainty of Overparametrized Neural Networks: 本文指出过参数化神经网络的"认知不确定性"不会随数据增大而消失：因为参数不可识别（permutation + 神经元分裂），即便函数完全识别，参数空间后验仍然在分裂流形上保留连续不确定度，作者以单隐层 ReLU 网为例给出精确后验描述（Dirichlet on simplex）并实证验证。
Optimal Regularization for Performative Learning: 在高维岭回归框架下首次系统刻画了"模型部署反过来推动数据分布漂移"（performativity）场景中最优正则强度的标度律：最优 \(\lambda\) 与表演性强度 \(\bar b\) 成正比，并且在过参数化区域里恰当的正则甚至能利用表演效应反向降低风险。
Over-Alignment vs Over-Fitting: The Role of Feature Learning Strength in Generalization: 首次在标准分类任务里实证发现"特征学习强度（FLS）存在最优值"——既不是越大越好也不是越小越好——并用两层 ReLU 网络在 logistic loss 下的有限时间梯度流分析，把过大 FLS 引起的过拟合与过小 FLS 引起的"过对齐"分解为可量化的两个对立项，从而严格刻画最优 FLS 的存在性。
ParalESN: Enabling Parallel Information Processing in Reservoir Computing: 将 LRU 风格的复数对角线性递推注入到 Echo State Network 的"未训练储备池"中，让传统 RC 的序列时间可并行化、维度可扩展到 10 万级，同时严格保持 Echo State Property 与衰退记忆滤波器的普适逼近性质。
Polaris: Coupled Orbital Polar Embeddings for Hierarchical Concept Learning: Polaris 把概念表示拆成"方向（语义）+ 轨道势能（层级）"两个解耦信号，全部学到单位超球面上：用切空间投影 + 指数映射保证流形封闭，用各向异性球面 SVGD 防止赤道聚集，用 vMF KL 散度实现不对称的"父类应比子类更高熵"约束，在 taxonomy expansion 任务上把 top-K 召回提升最多 19 点、mean rank 降低 60%。
Position: Age Estimation Models Do Not Process Biometric Data: 本文是一篇 position paper，用 14 个模型 × 3 个人脸验证基准的实证证据论证：人脸年龄估计模型在身份判别能力上比监管阈值低两个数量级，因此不应被自动归类为 GDPR / BIPA / EU AI Act 意义上的"生物特征数据处理"。
Possibilistic Predictive Uncertainty for Deep Learning: 本文用 possibility theory 替代 Bayes 概率框架，提出 DAPPr——把参数空间的 possibilistic 后验通过 supremum 投影到预测空间，再用可学习的 Dirichlet possibility function 拟合，最终得到一个仅 10 行代码、可直接替换交叉熵、且在 OOD 检测上超越 EDL 家族的认知不确定性建模方法。
Private and Stable Test-Time Adaptation with Differential Privacy: 本文首次指出测试时自适应 (TTA) 会让模型参数泄露测试数据隐私，并把 Tent / EATA / SAR / DeYO / COME 五种主流 TTA 方法系统改造为带 per-sample 梯度裁剪 + 高斯噪声的 DP 版本，在 ImageNet-C 上既给出可证明的 \((\epsilon,\delta)\)-DP 保证，又意外发现"裁剪本身"就能让 TTA 精度提升 \(0.1\%\)–\(4.1\%\)。
Rectified LpJEPA: Joint-Embedding Predictive Architectures with Sparse and Maximum-Entropy Representations: 作者把 LeJEPA 的"投影后向各向同性高斯对齐"推广为"投影后向 Rectified Generalized Gaussian (RGG) 分布对齐"，通过整流 + 截断广义高斯获得显式可控的期望 \(\ell_0\) 稀疏度，在 ImageNet-100 上 ResNet 编码器线性探针达到 \(85.08\%\) 同时把 \(\ell_0\) 稀疏度维持在 \(\sim 73\%\)，明显优于 LeJEPA 的全密集表示。
Return-to-Go is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning: 本文针对条件序列模型（如 Decision Transformer）中 return-to-go (RTG) 对齐不足的问题，提出 Q-align DT 框架——通过 RTG-to-behavior 对齐损失（强制 RTG 单调对应 Q 值变化）+ Q 函数的 RTG 扰动训练（共训练形成正反馈循环），在 D4RL 上达到 SOTA 性能且对齐误差大幅下降（HalfCheetah-medium 上 68.9 vs QCS 102.3）。
Riemannian Networks over Full-Rank Correlation Matrices: 本文把 MLR、FC、Conv 三种基础层系统地推广到满秩相关矩阵流形 \(\mathrm{Cor}^+(n)\) 上的五种黎曼几何（ECM、LECM、OLM、LSM、PHCM），并为 OLM 与 LSM 推导出精确的反传，构造的 CorNet 在 Radar、HDM05、FPHA、NTU120 上一致超过同体量的 SPDNet / Grassmann 网络。
Sequential Group Composition: A Window into the Mechanics of Deep Learning: 作者把"对一段群元素求累积乘积"这个统一任务作为显微镜，用群上 Fourier 分析 + AGF 框架证明两层网络会按 Fourier 能量从大到小逐个学习不可约表示（irrep），并刻画两层、RNN、深层 MLP 三种架构在序列长度 \(k\) 上分别需要 \(2^k\) 宽度、\(k\) 步、\(\log k\) 层的表达力鸿沟。
Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers: 针对 ViT 因注意力排列等变而缺乏空间先验、在小模型与小数据场景下吃亏的问题，本文用空间填充曲线（Snake/Zig-zag/Peano/Hilbert 等）构造一组衰减掩码并平均后乘进注意力矩阵，仅增加不到 0.0015% 参数、约 0.64% FLOPs，就在 VTAB-1K 微调上把空间敏感任务最高提升 8.7%。
Structure-Induced Information for Rerooting Levin Tree Search: 在 \(\sqrt{\mathrm{lts}}\) 框架中，作者提出三种"rerooter"——全局 Leiden 聚类、局部启发式 cost-to-go、二者加性混合——把搜索努力自动按状态空间结构和目标距离分配给隐式子任务，避免了 HIPS-\(\varepsilon\) / SGPS 那种昂贵的显式子目标生成模型，在 BoulderDash、CraftWorld 等复杂域上的在线训练样本效率和测试展开数都达到 SOTA。
TabMGP: Martingale Posterior with TabPFN: 把 TabPFN 这种预训练表格 Transformer 直接当作鞅后验（MGP）的预测规则，通过 in-context 前向滚动采样得到任意损失函数下参数 \(\theta\) 的可信集，避免了手工设计先验/似然和拷贝拉超参，且在 30 个真实/合成场景下覆盖率与可信集面积同时优于手工 MGP 与经典贝叶斯。
TabSwift: An Efficient Tabular Foundation Model with Row-Wise Attention: 作者证明了 TabPFN 那套"只做行注意力"的极简骨干并没有过时——只要补上门控注意力稳定训练、加一小撮可学习的 register token 聚合全局信息，再配一个逐样本的自适应早退头，就能在精度上追平 TabPFN v2 / TabICL 这些更重的列感知模型，同时推理快得多。
Target-Agnostic Calibration under Distribution Shift with Frequency-Aware Gradient Rectification: FGR 用 DCT 低通滤波去掉训练图像里的高频虚假捷径来在 OOD 上校准更准，再把「校准要变好」与「ID 不能塌」之间的梯度冲突用一次几何投影按硬约束方式解决，无需调权重就同时压住 OOD 的 ECE 和保住 ID 表现。
TEMPORA: Characterising the Time-Contingent Utility of Online Test-Time Adaptation: TEMPORA 把 TTA 评测从「无时延上限的离线精度」改写为「时延受限下的可服务效用」，用离散 / 连续 / 摊销三类时间约束 + 可分解的效用指标，在 ImageNet-C × ResNet-50 上跑 750+ 次实验证明：离线榜首方法在 87.9% 的时延场景下输掉冠军，且越接近真实部署越不预测。
Test-Time Training with KV Binding Is Secretly Linear Attention: 本文用四个「记忆悖论」反例 + 一套严格的展开定理，证明带 KV-binding 内循环的 TTT（如 LaCT、ViTTT）即便用多层 MLP + 动量也只是「学到的线性注意力算子」，并据此把它简化、并行化为标准线性注意力，吞吐提升 4× 而性能几乎不掉。
Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate: 本文提出 ReWA：把待优化变量重参数化为 \(\boldsymbol{x}=\boldsymbol{y}^{K}\)、对 \(\boldsymbol{y}\) 加权重衰减、并使用一种坐标级自适应步长 \(\eta_t \boldsymbol{y}^{M}/(\boldsymbol{y}^{K-1}+\epsilon)\)，把不可优化的 \(\ell_p\;(0<p<1)\) 稀疏正则等价转化为一个梯度有界、不易陷入零鞍点的可训练目标，并在 CIFAR-10 / ImageNet 上用 ResNet 验证了相对 \(\ell_1\) 的稀疏性提升。
Torus Graphs for Large-Scale Neural Phase Analysis: 作者把 Torus Graph (TG)——定义在 \(d\)-环面 \(\mathbb{T}^d\) 上的指数族相位图模型——用随机化分数匹配把每步推断复杂度从 \(\mathcal{O}(d^6)\) 砍到 \(\mathcal{O}(d^2)\)，由此首次支持上千个相位变量，并据此搭出 TG-HMM 与自回归 TG 两套动态/有向扩展，应用到小鼠 LFP 数据上揭示了清醒-NREM 之间的频率特异性相位重组。
通过分布式鲁棒逐节点回归的变量聚类: 利用分布式鲁棒优化框架将逐节点回归的参数调优问题转化为带谱范数正则化的凸优化问题——实现无参数聚类方法，在模拟、人脸和金融数据上显著超越 Lasso 稀疏聚类。
Vision Transformer 微调中的非光滑分量优势: 通过定义"可塑性"度量，本文证明 ViT 中的非光滑分量（注意力和前馈层）具有更高可塑性——在微调时能提供更大梯度范数，实现更好且稳定的迁移学习性能。