NeurIPS2025 其他论文解读论文笔记对抗鲁棒对齐/RLHF 布局/合成扩散模型推理

📂 其他¶

🧠 NeurIPS2025 · 121 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (105) · 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 📹 ICCV2025 (33)

🔥 高频主题： 对抗鲁棒 ×5 · 对齐/RLHF ×3 · 布局/合成 ×2 · 扩散模型 ×2 · 推理 ×2

A Differentiable Model of Supply-Chain Shocks: 用 JAX 实现可微分的供应链 Agent-Based Model（~1000 家企业），通过 GPU 并行化 + 自动微分实现比传统 ABC 快 3 个数量级的贝叶斯参数校准，为全球供应链网络的冲击传播建模铺平道路。
A Sustainable AI Economy Needs Data Deals That Work for Generators: 提出"经济数据处理不等式"概念——ML价值链中数据从原始形态到模型权重再到合成输出，每一步都精炼了技术信号但系统性剥夺了数据生成者的经济权益；通过分析73个公开数据交易案例实证这一现象，诊断三个结构性缺陷（溯源缺失、议价权不对称、定价非动态），并提出EDVEX框架作为解决方案蓝图。
A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation: 本文从纯优化角度严格证明了 grokking 现象的成因：带小 weight decay 的梯度流在 \(\lambda\to 0\) 极限下呈现两阶段动力学——先快速收敛到训练损失的临界流形 \(\mathcal{M}\)，再在 \(t\approx 1/\lambda\) 时沿流形做黎曼梯度流以最小化 \(\ell_2\) 范数，从而延迟实现泛化。
A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values: 提出统一框架将 KernelSHAP、LeverageSHAP 等 Shapley 值估计器纳入随机草图（sketching）视角，首次为 KernelSHAP 提供非渐近理论保证，并通过算法改进（Poisson 近似等）将方法扩展到 CIFAR-10 等高维数据集。
Active Measurement: Efficient Estimation at Scale: 提出 Active Measurement 框架，将 AI 模型预测作为重要性采样提议分布，通过迭代的人类标注与模型更新实现科学总量测量的无偏估计，搭配新颖的组合权重方案和条件方差估计器构建可靠的置信区间。
Addressing Mark Imbalance in Integration-free Neural Marked Temporal Point Processes: 本文首次揭示标记时间点过程(MTPP)中标记分布不平衡对预测性能的严重影响，提出先预测标记再预测时间的策略，设计阈值方法调节稀有标记的预测概率，并开发无积分近似的IFNMTPP模型高效支持标记概率估计和时间采样。
Adjoint Schrödinger Bridge Sampler: 提出 Adjoint Schrödinger Bridge Sampler (ASBS)，通过将 Schrödinger Bridge 问题重新解释为随机最优控制问题，消除了先前扩散采样器的 memoryless 条件限制，支持任意源分布（如高斯、谐波先验），使用可扩展的 matching 目标无需重要性权重估计，在多粒子能量函数和分子构象生成上全面超越先前方法。
Adjusted Count Quantification Learning on Graphs: 将经典的 Adjusted Classify & Count (ACC) 量化方法扩展到图结构数据，提出结构重要性采样（SIS）和邻域感知ACC两种技术，分别解决图量化中的结构协变量偏移和非同质性边问题。
Aggregation Hides OOD Generalization Failures from Spurious Correlations: 揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line（ID 与 OOD 准确率正相关），但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集（最高达 75%），这些子集上 ID 越高 OOD 反而越低（Pearson R 低至 -0.92），证明虚假相关的危害被聚合评估系统性隐藏。
Alias-Free ViT: Fractional Shift Invariance via Linear Attention: 提出Alias-Free Vision Transformer（AFT），结合抗混叠信号处理技术和shift-equivariant线性交叉协方差注意力，首次使ViT在分数像素（亚像素）平移下保持接近完美的一致性（~99%），同时在ImageNet分类准确率上几乎无损。
Asymmetric Duos: Sidekicks Improve Uncertainty: Asymmetric Duos（AD）将一个大模型与一个小"sidekick"配对——通过温度加权的 logit 平均融合两者预测，在仅增加 10-20% FLOPs 的条件下达到接近 5× 深度集成的不确定性估计质量，RN50 AD（5% FLOPs 额外开销）在 AUROC/AURC/SAC@98 上接近 m=5 深度集成（400% 额外 FLOPs）。
Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport: 提出 Bispectral Optimal Transport (BOT)，将离散最优传输中的代价矩阵从原始像素距离替换为 bispectrum（群 Fourier 不变量）距离，使得传输计划在保持信号结构的同时精确消除群作用（如旋转）带来的变异，在旋转变换的 MNIST 等数据集上将类别保持准确率从 33% 提升至 84%。
Brain-Like Processing Pathways Form in Models With Heterogeneous Experts: 在异构 Mixture-of-Experts 模型中，异构专家并不会自动形成处理通路；本文提出三个受大脑启发的归纳偏置（路由代价、任务表现缩放、专家 Dropout），使模型形成类似大脑"皮层-皮层下"动态通路的 Mixture-of-Pathways 架构。
Contextual Dynamic Pricing with Heterogeneous Buyers: 首次系统研究买家类型异质（\(K_\star\) 种未知类型）的上下文动态定价问题，提出基于乐观后验采样 (OPS) 的算法实现 \(\tilde{O}(K_\star\sqrt{dT})\) 遗憾界（对 \(d\) 和 \(T\) 最优），并在非上下文情形通过方差感知自适应离散化算法 ZoomV 实现 \(\tilde{O}(\sqrt{K_\star T})\) 最优遗憾。
Continuous Thought Machines: 提出 Continuous Thought Machine (CTM)，通过私有参数化的 Neuron-Level Models (NLMs) 产生神经元级时间动力学，并以神经同步矩阵作为核心潜在表征，在迷宫求解、ImageNet 分类、奇偶校验等任务上展现复杂推理、自适应计算和可解释注意力行为。
Coreset for Robust Geometric Median: Eliminating Size Dependency on Outliers: 首次消除鲁棒几何中位数 coreset 大小对异常值数 \(m\) 的依赖：在 \(n \geq 4m\) 条件下，\(d=1\) 时实现最优 coreset 大小 \(\tilde{\Theta}(\varepsilon^{-1/2} + \frac{m}{n}\varepsilon^{-1})\)，高维时实现 \(\tilde{O}(\varepsilon^{-2}\min\{\varepsilon^{-2}, d\})\)，核心技术是新颖的非逐分量误差分析。
Coresets for Clustering Under Stochastic Noise: 首次系统研究噪声数据下 \((k,z)\)-聚类 coreset 构造问题，提出新的代理误差度量 \(\mathsf{Err}_\alpha\) 替代传统 \(\mathsf{Err}\)，在温和数据假设下实现 coreset 大小缩减 \(\text{poly}(k)\) 倍、质量保证收紧 \(\text{poly}(k)\) 倍，并设计噪声感知的 cluster-wise 采样算法。
Deep Continuous-Time State-Space Models for Marked Event Sequences: S2P2 将线性 Hawkes 过程与深度状态空间模型结合，通过堆叠多层隐式线性 Hawkes (LLH) 层 + 非线性激活构建高表达力的连续时间 MTPP 模型，利用并行扫描实现线性复杂度和亚线性时间，在 8 个真实数据集上平均提升 33% 预测似然。
Deep Learning for Continuous-Time Stochastic Control with Jumps: 提出两种基于模型的深度学习算法（GPI-PINN 和 GPI-CBU）来求解含跳跃的有限时域连续时间随机控制问题，通过迭代训练策略网络和价值网络，避免了状态动力学的离散化和模拟，在高维场景中表现出色。
Deep Legendre Transform: DLT 利用凸共轭的隐式 Fenchel 表示 \(f^*(\nabla f(x)) = \langle x, \nabla f(x) \rangle - f(x)\) 将凸共轭计算转化为标准回归问题，避免求解 max/min-max 优化，且能提供后验误差估计，结合 KAN 还可获得精确解析解。
Dense Associative Memory with Epanechnikov Energy: 提出基于 Epanechnikov 核的 log-sum-ReLU（LSR）能量函数替代传统的 log-sum-exp（LSE），在 Dense Associative Memory 中首次实现了"精确记忆所有模式 + 同时涌现新的创造性局部极小"的共存，且保持指数级记忆容量。
Depth-Bounds for Neural Networks via the Braid Arrangement: 本文证明了在 \(\mathcal{B}_d^0\)-conforming 约束下，ReLU 网络精确表示 \(\max\{0, x_1, \ldots, x_d\}\) 需要 \(\Omega(\log \log d)\) 层——这是首个不限制权重的非常数深度下界；同时证明 rank-(3,2) maxout 网络可以计算 7 个数的最大值，说明标准上界不紧。
Depth-Supervised Fusion Network for Seamless-Free Image Stitching: DSFN 提出深度一致性约束的无缝图像拼接方法：通过深度感知的两阶段变换估计解决大视差对齐，软缝合区域扩散实现自然融合，结合重参数化策略提升效率，在 UDIS-D 和 IVSD 数据集上全面超越 SOTA。
Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning: 提出一种基于方向性非交换幺半群算子的代数框架，为多维组合嵌入提供统一数学基础，将 SSM 递归、Transformer 自注意力和 RoPE 位置编码统一为特例。
Distributionally Robust Feature Selection: 本文提出一种模型无关的分布鲁棒特征选择方法，通过向协变量注入可控高斯噪声实现离散选择的连续松弛，并优化 Bayes 最优预测器的条件方差，使选出的特征子集能在多个子群体上同时训练出高质量下游模型。
DPA: A One-Stop Metric to Measure Bias Amplification in Classification Datasets: 本文提出 Directional Predictability Amplification (DPA)，一种基于可预测性的偏差放大度量指标，是唯一同时满足方向性、适用于平衡/非平衡数据集、能正确识别正负偏差放大的一站式指标，通过测量模型偏差与数据集偏差的相对变化来量化偏差放大程度。
egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks: 提出egoEMOTION——首个结合第一人称视觉（Meta Project Aria眼镜）与生理信号的情感与人格识别数据集，涵盖43名被试、50+小时录制、16种任务，发现第一人称视觉信号（尤其眼动特征）在真实场景情感预测中优于传统生理信号。
Emergency Response Measures for Catastrophic AI Risk: 本文系统分析了前沿安全政策（FSPs）如何嵌入中国四阶段应急响应框架（预防-预警-响应-恢复）的前两个阶段，通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险，并与欧盟AI法案、加州SB53等国际实践进行了对比。
Equivariance by Contrast: Identifiable Equivariant Embeddings from Unlabeled Finite Group Actions: 提出 Equivariance by Contrast (EbC)，一种仅用编码器的方法，从观测对 \((\mathbf{y}, g \cdot \mathbf{y})\) 中联合学习等变嵌入空间和隐式群表示，使有限群作用在潜空间中对应可逆线性映射，并提供可辨识性理论保证。
Estimation of Stochastic Optimal Transport Maps: 提出适用于随机OT映射的传输误差指标 \(\mathcal{E}_p\)（由优化间隙与可行性间隙组成），在无需Brenier映射存在或唯一性的最小假设下，构造了计算高效的rounding估计器达到近最优收敛率 \(\tilde{O}(n^{-1/(d+2p)})\)，并推广至Hölder连续核与对抗污染场景，建立了首个通用OT映射估计理论。
Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions: Google DeepMind训练了三种生成式神经网络（自回归Transformer、离散扩散、MaskGit）学习国际象棋谜题分布，通过强化学习优化谜题的唯一性和反直觉性，生成约400万个棋局位置，经奖励函数筛选和美学主题检测后，邀请三位世界级国际象棋专家评审，得到积极但带有建设性批评的反馈。
Evolutionary Learning in Spatial Agent-Based Models for Physical Climate Risk Assessment: 提出一种整合地理空间气候灾害数据与进化学习机制的Agent-Based Model（ABM），在包含商品-制造-零售三级供应链的简化经济网络上，通过RCP8.5洪水投影模拟2025-2100年的经济响应，证明了进化自适应机制使企业在气候压力下维持显著更高的生产、资本、流动性和就业水平，同时揭示了传统资产级评估无法捕捉的供应链系统性风险。
Evolutionary Prediction Games: 提出"演化预测博弈"框架，用演化博弈论分析预测算法与用户群体之间的反馈循环，揭示理想学习器导致竞争排斥（强者生存），而实际学习器（有限数据/代理损失/过参数化）反而能促成群体间的稳定共存与互利共生。
Exact Learning of Arithmetic with Differentiable Agents: 提出可微有限状态转换器（DFST），一种图灵完备且端到端可微的模型族，在 2D 符号网格上通过观察专家算术计算的中间步骤（Policy-Trajectory Observations）训练，仅用 20 个样本（最长 3 位数加法）即可完美泛化到 3850 位二进制加法、2450 位十进制加法，未发现任何错误。
Exploiting Task Relationships in Continual Learning via Transferability-Aware Task Embeddings: 提出基于 H-score 可迁移性度量的任务嵌入（H-embedding），并将其嵌入超网络框架，通过在嵌入空间中显式建模任务间关系来指导持续学习中的参数生成，在 rehearsal-free 设定下取得 SOTA 最终准确率。
FACE: Faithful Automatic Concept Extraction: 提出 FACE 框架，在非负矩阵分解 (NMF) 中加入 KL 散度正则项，约束概念重建后的激活值保持与原始模型预测一致，从而提取真正忠实于模型决策过程的概念解释，在 ImageNet/COCO/CelebA 上全面超越 CRAFT 和 ICE。
Faithful Group Shapley Value: 提出 Faithful Group Shapley Value (FGSV)，唯一满足含"忠实性"在内五条公理的组级数据估值方法，有效防御"空壳公司攻击"（通过拆分子组不当膨胀估值），并设计了 \(O(n \cdot \text{Poly}(\log n))\) 复杂度的高效近似算法。
Fixed-Point RNNs: Interpolating from Diagonal to Dense: 提出 Fixed-Point RNN 框架，将稠密线性 RNN 参数化为对角线性 RNN 的不动点，通过迭代次数在对角（高效）与稠密（表达力强）之间动态插值，首次在状态跟踪（\(A_5\)/\(S_5\)）和拷贝任务上同时取得最优结果。
Fostering the Ecosystem of AI for Social Impact Requires Expanding and Strengthening Evaluation Standards: 本文主张 AI for Social Impact (AISI) 领域的学术生态需要双轨改革：拓宽"影响力"的定义以认可非部署/非方法创新的贡献，同时对已部署系统采用因果推断级别的严格评估标准。
Frequency-Aware Token Reduction for Efficient Vision Transformer: 从频域视角提出 frequency-aware token reduction，将 token 分为高频（HF）和低频（LF）两组，选择性保留 HF token 并将 LF token 聚合为 DC token，在缓解 rank collapse 的同时减少 ViT 的计算量，在 30% token 减少率下多个模型上超越现有 SOTA。
FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees: 提出 FSNet 框架，将可微的可行性求解步骤集成到神经网络中，通过最小化约束违反的无约束优化来保证约束满足，同时支持端到端训练，在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。
Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits: 证明GP-UCB算法在无噪声GP bandit问题中达到近最优遗憾界，包括在SE核和Matérn核（\(d > \nu\)）条件下首次获得常数累积遗憾\(O(1)\)，弥合了GP-UCB理论与实际性能之间的差距。
Generalized Linear Mode Connectivity for Transformers: 提出统一对称性框架（置换、半置换、正交、可逆变换四级层次），首次在 Vision Transformer 和 GPT-2 上实现零/近零 barrier 的线性模式连通性（LMC），并扩展至多模型融合与异构宽度对齐。
Graph Alignment via Birkhoff Relaxation: 首次为 Birkhoff 松弛（QAP 的紧凸松弛）在高斯 Wigner 模型下建立理论保证：当噪声 \(\sigma = o(n^{-1})\) 时松弛解近似真实排列，\(\sigma = \Omega(n^{-0.5})\) 时松弛解远离真实排列，揭示了相变现象。
Hessian-guided Perturbed Wasserstein Gradient Flows for Escaping Saddle Points: 提出扰动Wasserstein梯度流(PWGF)算法，通过基于Hessian构造的高斯过程注入噪声扰动，使概率测度优化能够高效逃离鞍点并达到二阶最优性。
Hybrid-Balance GFlowNet for Solving Vehicle Routing Problems: 提出Hybrid-Balance GFlowNet（HBG）框架，首次在VRP场景中引入详细平衡（DB）并与轨迹平衡（TB）统一集成，配合depot引导推理策略，在CVRP和TSP上显著提升两种现有GFlowNet求解器（AGFN和GFACS）的性能。
Impact of Layer Norm on Memorization and Generalization in Transformers: 系统揭示了LayerNorm在Pre-LN和Post-LN Transformer中的截然不同角色：Pre-LN中LN对学习至关重要，移除会破坏泛化；Post-LN中LN驱动记忆化，移除可抑制记忆化并恢复真实标签。
Improving Decision Trees through the Lens of Parameterized Local Search: 从参数化复杂度的视角分析决策树的局部搜索优化操作，揭示问题的难度来源，并证明特征数与值域大小的组合可实现固定参数可解(FPT)，同时提供了概念验证实现。
Improving Forecasts of Suicide Attempts for Patients with Little Data: 提出 Latent Similarity Gaussian Process (LSGP)，将患者嵌入连续隐空间以捕获异质性，使数据稀少的患者能从相似患者"借用"预测趋势，从而改进基于 EMA 数据的自杀未遂预测。
Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion: 提出HSACC框架通过双层语义空间设计（低层互信息一致性+高层自适应加权融合）和协同优化的隐式缺失视图恢复，在五个基准数据集上显著超越现有不完整多视图聚类方法。
InFlux: A Benchmark for Self-Calibration of Dynamic Intrinsics of Video Cameras: 提出首个包含逐帧动态相机内参真值的真实视频基准 InFlux（386 视频、143K+ 标注帧），通过镜头元数据到内参的查找表（LUT）实现精确标注，并揭示现有内参预测方法在动态内参场景下表现不佳。
Information-Computation Tradeoffs for Noiseless Linear Regression with Oblivious Contamination: 对无噪声线性回归在Oblivious污染模型下，形式化证明任何高效Statistical Query算法都需要 \(\tilde{\Omega}(d^{1/2}/\alpha^2)\) 的VSTAT复杂度，给出了 \(1/\alpha\) 的二次依赖对高效算法具有本质性的计算下界证据。
Johnson-Lindenstrauss Lemma Beyond Euclidean Geometry: 将Johnson-Lindenstrauss引理从欧几里得空间扩展到一般对称空心相异度矩阵，提出伪欧空间JL变换和广义幂距离JL变换两种互补方法，误差与数据偏离欧几何的程度成正比。
Lagrangian neural ODEs: Measuring the existence of a Lagrangian with Helmholtz metrics: 提出 Helmholtz metrics——基于 Helmholtz 条件的可微度量，用于量化给定 ODE 与 Euler-Lagrange 方程的接近程度，并将其作为正则化项加入二阶 Neural ODE 训练中，形成 Lagrangian Neural ODE，在零额外推理开销下引导模型收敛到真正的物理定律。
Learning (Approximately) Equivariant Networks via Constrained Optimization: 提出ACE（Adaptive Constrained Equivariance）框架，将等变神经网络训练建模为约束优化问题，通过对偶方法自动从灵活的非等变模型渐进过渡到等变模型，无需手动调参即可适应完全和部分对称数据。
Learning Dynamics of RNNs in Closed-Loop Environments: 从数学理论上揭示了 RNN 在闭环（agent-环境交互）与开环（监督学习）训练下呈现根本不同的学习动力学，闭环学习遵循三阶段过程，由短期策略改进与长期稳定性之间的竞争驱动。
Learning non-equilibrium diffusions with Schrödinger bridges: from exactly solvable to simulation-free: 将Schrödinger桥问题从布朗运动参考过程推广到多变量Ornstein-Uhlenbeck（mvOU）参考过程，推导高斯情形精确解，并提出无模拟的mvOU-OTFM算法处理一般分布。
Learning to Condition: A Neural Heuristic for Scalable MPE Inference: 提出 Learning to Condition (L2C)，通过训练注意力网络从求解器搜索轨迹中学习变量-值对的"最优性"与"简化性"双重评分，用于指导概率图模型中 MPE 推理的条件化决策，在高树宽模型上大幅缩减搜索空间且维持或提升解质量。
Look-Ahead Reasoning on Learning Platforms: 在学习平台的用户-算法交互中形式化 level-\(k\) 前瞻推理，证明个体自私的高阶推理只加速收敛但不改变均衡（无长期收益），而集体协调的收益由学习者-用户效用函数的对齐程度决定，提供了刻画协调收益上界的理论框架。
Manipulating Feature Visualizations with Gradient Slingshots: 提出 Gradient Slingshots（梯度弹弓）方法，通过在模型的分布外输入区域"雕刻"出导向任意目标图像的二次激活景观，使特征可视化（Feature Visualization）的梯度优化过程收敛到预设的虚假图像，同时保持模型架构、分类精度和内部特征表示基本不变，暴露了 FV 作为模型审计工具的严重脆弱性。
MaxSup: Overcoming Representation Collapse in Label Smoothing: 通过解析 Label Smoothing (LS) 的损失函数，发现其包含一个在错误分类时放大错误的"误差放大项"，导致类内特征坍缩；提出 Max Suppression (MaxSup) 方法，将惩罚目标从 ground-truth logit 转移至 top-1 logit，消除误差放大效应同时保留有益正则化。
Merlin L48 Spectrogram Dataset: 本文提出了 L48 数据集——一个基于真实鸟类录音的细粒度频谱图多标签分类基准，天然具备单正标签多标签 (SPML) 设置，揭示了现有 SPML 方法在真实场景下的严重不足，并提出了基于录音内一致性的正则化方案来提升性能。
Meta-learning three-factor plasticity rules for structured credit assignment with sparse feedback: 本文提出一种元学习框架，通过外层梯度优化自动发现局部的新赫布式突触可塑性规则，使循环神经网络仅利用稀疏延迟奖励信号就能完成结构化的信用分配，为理解生物神经网络的学习机制提供了新视角。
MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation: MetaFind 是一个场景感知的三模态（文本+图像+点云）3D 资产检索框架，通过引入 SE(3) 等变的空间-语义图神经网络 (ESSGNN) 编码场景布局信息，实现了在元宇宙场景生成中风格一致、空间合理的迭代式资产检索。
Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications: 本文提出 AI-LAWS（AI 驱动致命性自主武器系统）的行为导向定义与监管框架，通过两条技术准则识别需特别监管的军事 AI 系统，并提出五项具体政策建议，呼吁 AI 研究者深度参与军事 AI 治理的全生命周期。
Model Context Protocol for Vision Systems: Audit, Security, and Protocol Extensions: 首个对MCP在视觉系统中部署的协议级审计研究，分析91个公开MCP服务器发现78%存在schema不一致、89%缺乏运行时验证，并提出语义schema、可视化记忆、运行时验证器等协议扩展方案。
Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge: 提出 Unbalanced Mean Field Schrödinger Bridge (UMFSB) 框架和 CytoBridge 深度学习算法，从稀疏时间快照数据中同时建模细胞的非平衡随机动力学和细胞间交互。
Modeling Neural Activity with Conditionally Linear Dynamical Systems: 提出条件线性动力系统（CLDS），通过高斯过程先验让线性动力系统参数随观测到的实验协变量非线性变化，在保留线性模型可解释性和高效推断的同时建模神经回路的非线性动态。
MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering: 提出 MutualVPR 互学习框架，通过特征驱动的自适应 K-means 聚类动态分配场景类别标签，解决分类式 VPR 方法中由视角变化和遮挡导致的监督不一致问题。
Neural Collapse in Cumulative Link Models for Ordinal Regression: An Analysis with Unconstrained Feature Model: 将Neural Collapse (NC)理论扩展到基于累积链接模型(CLM)的序数回归(OR)任务中，在无约束特征模型(UFM)框架下证明了Ordinal Neural Collapse (ONC)的三个标志性质：类内均值坍缩(ONC1)、特征坍缩到一维子空间(ONC2)、以及潜变量按类别顺序排列(ONC3)，并在零正则极限下揭示了潜变量与阈值之间的简洁几何关系。
Normalization in Attention Dynamics: 将不同归一化方案（Post-LN、Pre-LN、Mix-LN、Peri-LN、nGPT、sqrt-scaling）统一建模为球面上交互粒子系统的速度调节机制，从理论上揭示了各方案对 token 聚类动力学和表示坍缩的不同影响，识别 Peri-LN 为理想选择。
Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure: 提出Obliviator——一种基于RKHS中HSIC最小化的后处理概念擦除方法，通过两步迭代优化逐步变形特征空间，首次实现对非线性对抗者的完全防护，同时量化了非线性防护的效用-擦除代价（utility-erasure trade-off），在多个PLM和数据集上显著优于现有方法。
On a Geometry of Interbrain Networks: 本文是一篇观点论文（opinion piece），提出将离散图曲率（Forman-Ricci 和 Ollivier-Ricci 曲率）引入超扫描（hyperscanning）研究中的脑间网络分析，利用曲率分布的熵来检测网络相变，并通过曲率值推断脑间信息路由策略，突破传统相关性指标的描述性局限。
On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling: 揭示在标准参数化(SP)下，cross-entropy 损失函数使得"不稳定"区间实际分为灾难性不稳定和受控发散两个子区间：在受控发散区间（学习率 \(\eta_n = \Theta(n^{-1/2})\)）logits 发散但梯度和激活保持稳定，从而首次为 SP 提供了一个实用的、具有特征学习能力的无穷宽极限。
On Topological Descriptors for Graph Products: 系统研究在图的（box）积上施加各种滤过时拓扑描述子（欧拉特征 EC 和持续同调 PH）的表达能力，证明 PH 图积描述子严格强于对单图的计算，而 EC 不具备此性质，并给出高效 PH 计算算法。
On Universality Classes of Equivariant Networks: 本文证明等变神经网络的分离能力（区分对称等价输入的能力）不足以完全刻画其表达能力——具有相同分离能力的模型可能拥有不同的逼近能力，并给出了浅层不变网络通用性类的完整刻画及失败的充分条件。
Optimized Learned Count-Min Sketch: 提出 OptLCMS，通过将分数空间分区并用 KKT 条件解析求解 CMS 参数、动态规划优化阈值，大幅加速构建过程，同时提供不可容忍误差概率的理论保证。
Out-of-distribution Generalisation is Hard: Evidence from ARC-like Tasks: 通过构建具有明确OOD度量的ARC类任务，证明标准神经网络(MLP/CNN/Transformer)无法实现组合OOD泛化，即使设计具有正确归纳偏置的架构达到近乎完美的OOD性能，也可能学到错误的组合特征。
Overfitting in Adaptive Robust Optimization: 揭示自适应鲁棒优化（ARO）中策略脆弱性与机器学习过拟合的类比关系：自适应策略在不确定性集内表现优异但集外易失效，提出约束特定的不确定性集大小作为"正则化"手段来平衡鲁棒性和自适应性。
Plasticity as the Mirror of Empowerment: 本文提出广义有向信息（GDI）作为度量智能体可塑性（plasticity）的信息论工具，揭示可塑性是赋权（empowerment）的"镜像"——两者使用相同度量、仅方向相反，并证明了两者之间存在严格的张力约束（tension bound）。
Position: There Is No Free Bayesian Uncertainty Quantification: 本文从频率学派视角质疑贝叶斯不确定性量化（UQ）的有效性，将贝叶斯更新重新解释为模型集成的优化问题，并提出基于PAC框架的校准算法以构建具有频率学派保证的预测区间。
Private Evolution Converges: 为Private Evolution（PE）合成数据生成算法提供了首个不依赖不现实假设的收敛性理论保证，证明在正确的超参数设置下PE输出的 \((ε,δ)\)-DP 合成数据集的1-Wasserstein距离为 \(\tilde{O}(d(nε)^{-1/d})\)。
Put CASH on Bandits: A Max K-Armed Problem for Automated Machine Learning: 针对 AutoML 中的联合算法选择和超参数优化（CASH）问题，通过数据驱动分析揭示了 HPO 奖励分布的有界左偏特性，提出了专门适配该特性的极端 Bandit 算法 MaxUCB，在理论和实验上均优于现有方法。
Radar: Benchmarking Language Models on Imperfect Tabular Data: 提出 Radar 基准，通过对真实表格数据注入五类数据工件（缺失值、错误值、异常值、格式不一致、逻辑不一致），系统评估语言模型在不完美表格数据上的数据感知推理能力，揭示即使是前沿模型在引入数据工件后性能也大幅下降。
RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases: 本文提出 RDB2G-Bench——首个评估关系数据库到图建模方法的基准框架，包含 5 个真实 RDB、12 个预测任务和约 5 万个预计算的图模型-性能对，并对 10 种自动图建模方法进行了系统比较。
Recurrent Self-Attention Dynamics: An Energy-Agnostic Perspective from Jacobians: 本文从动力系统的 Jacobian 分析视角，突破传统能量函数框架的对称性约束，揭示了归一化层在抑制自注意力谱范数和振荡分量方面的关键作用，发现高性能循环自注意力模型的 Lyapunov 指数趋近于零（临界态），并基于此提出谱正则化方法显著提升推理性能。
Regression Trees Know Calculus: 揭示常叶回归树中隐含的梯度信息——通过相邻节点均值差的有限差分类比，高效提取梯度估计，进而将活跃子空间（Active Subspace）和集成梯度（Integrated Gradient）等微分工具引入树模型，拓展了树模型的可解释性和预测改进能力。
Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry: 提出 NCAL-R，利用深度网络训练后期涌现的 Neural Collapse 几何结构，设计类均值对齐扰动（CMAP）和特征波动（FF）两个评分指标来选择样本，使主动学习在标签噪声和分布偏移下更加可靠，在 ImageNet-100 和 CIFAR-100 上一致优于传统 AL 基线。
ResNets Are Deeper Than You Think: 证明残差网络与前馈网络居于不同的函数空间（非简单重参数化），并通过后训练部分线性化实验表明变深度架构（类ResNet）即使在排除可训练性差异后仍优于固定深度架构，暗示残差连接提供了超越优化的归纳偏好。
Rethinking Losses for Diffusion Bridge Samplers: 本文揭示了扩散桥采样器中流行的 Log Variance (LV) 损失存在的理论缺陷——不满足数据处理不等式且梯度与 rKL 不等价——并提出用 log-derivative trick 计算 rKL 梯度（rKL-LD），在多个基准上一致性超越 LV 损失，且训练更加稳定、对超参数不敏感。
Rethinking PCA Through Duality: 通过 Difference-of-Convex (DC) 框架重新审视 PCA,建立了核化和样本外推广能力,揭示了同步迭代是 DCA 的特例,并提出了鲁棒 \(\ell_1\)-PCA 的核化对偶公式。
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks: 系统性地重新审视 RNN 中的双线性状态转移（隐状态与输入的乘法交互），理论证明双线性 RNN 可模拟任意有限状态机，并展示其在去除加性项后形成了一个从对角到全结构的自然表达力层次，揭示了 Mamba 等流行线性 RNN 处于该层次最低端。
RNNs Perform Task Computations by Dynamically Warping Neural Representations: 本文提出一个黎曼几何框架，通过将表示空间度量从 RNN 状态空间拉回（pullback）到输入流形上，证明 RNN 通过动态变形（warping）其对任务变量的表示来执行计算——压缩无关输入、拉伸决策边界附近的空间，且这种变形不是副产物而是计算本身。
Robust Sampling for Active Statistical Inference: 提出基于预算保持路径的鲁棒采样策略，通过在均匀采样和主动采样之间最优插值，确保估计器的方差永远不比两者中任何一个更差，解决了主动统计推断中不确定性估计不准确导致性能恶化的问题。
SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures: 利用 o-minimal 结构的数学工具，证明了使用常见光滑激活函数（sigmoid、tanh、softplus、GELU 等）的全连接网络的梯度流存在二元性：要么收敛到临界点，要么发散到无穷大且损失收敛到渐近临界值。特别地，对多项式目标函数，证明了损失无法精确取零但可任意接近零，从而导致参数必然发散。
Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch: 提出面向现代 Ampere GPU 优化的欧拉特征曲线（ECC）CUDA 内核，相比先前 GPU 实现达到 16-2000x 加速，并引入可微 PyTorch 层通过 DECT 风格的 sigmoid 松弛支持在密集网格图像上的端到端拓扑特征学习。
Scalable Inference of Functional Neural Connectivity at Submillisecond Timescales: 将传统离散时间Poisson GLM推广到连续时间Poisson点过程，通过蒙特卡洛采样和二阶多项式近似两种方法绕过不可解的积分项，配合正交的广义Laguerre基函数，在数百神经元、数千秒记录的数据上实现分钟级训练和亚毫秒级突触连接识别。
Semi-infinite Nonconvex Constrained Min-Max Optimization: 针对带有无穷多非凸约束的非凸 min-max 优化问题，提出 iDB-PD（不精确动态障碍原始-对偶）算法，在 Łojasiewicz 正则条件下建立了首个全局非渐近收敛保证，稳定性 \(\mathcal{O}(\epsilon^{-3})\)、可行性 \(\mathcal{O}(\epsilon^{-6\theta})\)、互补松弛 \(\mathcal{O}(\epsilon^{-3\theta/(1-\theta)})\)。
Semi-Supervised Regression with Heteroscedastic Pseudo-Labels: 提出基于异方差建模的不确定性感知伪标签框架，通过双层优化动态校准每个伪标签的不确定性，避免错误伪标签对回归模型的负面影响，在多个 SSR 基准上取得 SOTA。
Sharpness-Aware Minimization with Z-Score Gradient Filtering: 提出 Z-Score Filtered SAM (ZSAM)，通过对每层梯度进行 Z-Score 统计过滤，仅保留最显著的梯度分量进行扰动上升步骤，从而引导优化器更有效地搜索平坦极小值，在多个数据集和架构上一致提升测试精度。
Sheaf Cohomology of Linear Predictive Coding Networks: 本文将线性预测编码（PC）网络形式化为细胞层（cellular sheaf），证明PC推理等价于层Laplacian下的扩散过程，通过Hodge分解将监督信号拆解为可消除误差（通过推理）和不可约误差（由循环拓扑的上同调刻画），从而精确解释了为什么某些循环权重初始化会导致学习停滞。
Sign-In to the Lottery: Reparameterized Sparse Training from Scratch: 本文发现稀疏网络从头训练(PaI)性能差的根本原因是无法像dense-to-sparse方法那样学习正确的参数符号，为此提出Sign-In重参数化方法（θ=m⊙w），通过引入内部自由度来促进符号翻转，理论证明其能解决一种互补于过参数化的符号翻转情况，实验中显著提升了稀疏从头训练的性能。
SMRS: Advocating a Unified Reporting Standard for Surrogate Models in the Artificial Intelligence Era: 本文针对AI驱动的代理模型（Surrogate Model）领域缺乏标准化报告规范的痛点，提出了一套轻量级、模块化、与模型无关的报告标准SMRS，覆盖数据采集、模型选择、训练方法、评估指标等完整建模流水线的六大维度，通过对17篇已发表论文的案例研究验证了框架的可操作性，旨在提升代理模型的可复现性、可比较性和跨领域迁移能力。
SPACE: SPike-Aware Consistency Enhancement for Test-Time Adaptation in Spiking Neural Networks: 提出SPACE，首个专为脉冲神经网络(SNN)设计的无源单样本测试时自适应(TTA)方法，通过最大化增强样本间脉冲行为特征图的一致性，在多个数据集和架构上实现鲁棒适应。
Stable Matching with Ties: Approximation Ratios and Learning: 研究有并列偏好的双边匹配市场，提出最优稳定份额(OSS)比率概念衡量公平性，证明稳定匹配分布下OSS-ratio为\(\Omega(N)\)但一般匹配分布下可达\(O(\log N)\)（渐近紧），并将离线近似结果扩展到bandit学习场景。
Statistical Inference for Gradient Boosting Regression: 提出统一的梯度提升回归统计推断框架，通过将dropout和并行训练整合到Boulevard正则化中，证明了相应的中心极限定理，从而构建了内置的置信区间、预测区间和变量重要性假设检验，并发现增大dropout率和并行树数量能显著提升信号恢复（最高达2倍和4倍）。
Statistical Inference Under Performativity: 本文首次建立了表演性预测（performative prediction）下完整的端到端统计推断框架，为重复风险最小化算法推导出中心极限定理和数据驱动的协方差估计方法，并将预测驱动推断（PPI）扩展到动态表演性设置以获得更紧的置信区间。
Structure-Aware Spectral Sparsification via Uniform Edge Sampling: 本文证明在具有良好聚类结构的图上（结构比 Υ(k) 足够大），均匀边采样即可保留谱聚类所需的谱子空间结构，无需昂贵的有效电阻预计算——这是首个关于均匀采样保持结构的可证明保证。
Test-Time Adaptation by Causal Trimming: 提出 TACT 方法，通过数据增强 + PCA 识别表征空间中的非因果方向，并在测试时将表征和类原型沿该方向的投影移除，从而减少模型对非因果特征的依赖，显著提升分布偏移下的预测性能。
The Computational Complexity of Counting Linear Regions in ReLU Neural Networks: 系统梳理了ReLU网络"线性区域"的六种非等价定义，证明对所有定义计数线性区域都是#P-hard的（一层隐藏层即如此），并在多层网络中证明了强不可近似结果和多项式空间上界。
The Cost of Robustness: Tighter Bounds on Parameter Complexity for Robust Memorization in ReLU Nets: 研究 ReLU 网络鲁棒记忆（robust memorization）的参数复杂度，即在保证每个训练样本 \(\mu\)-邻域内预测一致的条件下插值任意数据集所需的参数数量，在鲁棒性比率 \(\rho = \mu/\epsilon\) 的全范围 \((0,1)\) 内建立了更紧的上下界。
The Geometry of Cortical Computation: Manifold Disentanglement and Predictive Dynamics in VCNet: 本文提出VCNet——一种模拟灵长类视觉皮层宏观组织的神经网络架构，用几何和动力系统语言重新诠释双流分离（流形解缠）和预测编码（测地线精炼），以0.04MB的极小体积在Spots-10上达到92.1%（比DenseNet蒸馏版高10%），在光场分类上以3.52MB达到74.4%（超MobileNetV2 2.3%）。
The Persistence of Neural Collapse Despite Low-Rank Bias: 本文从理论上证明了深度神经坍缩（DNC）在深层无约束特征模型中由于 L2 正则化引起的低秩偏差而全局次优，同时首次解释了 DNC 在实践中持续出现的原因——其解空间维度随网络宽度增长快于低秩解。
Tight Bounds On the Distortion of Randomized and Deterministic Distributed Voting: 本文研究分布式投票模型中的度量扭曲 (metric distortion) 问题，针对四种代价目标 (\(\text{avg-avg}\), \(\text{avg-max}\), \(\text{max-avg}\), \(\text{max-max}\))，在确定性和随机机制下给出了改进的紧界或近紧界，几乎完整地刻画了这一模型的扭曲特性。
Tight Lower Bounds and Improved Convergence in Performative Prediction: 在 performative prediction 框架下，首次证明了 Repeated Risk Minimization (RRM) 收敛率的紧致性，并提出 Affine Risk Minimizers (ARM) 算法类，通过利用历史训练快照的数据实现更广泛问题类上的收敛。
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels: 提出TrackingWorld，一个从单目视频实现几乎所有像素的稠密3D跟踪的流水线，通过跟踪上采样器将稀疏2D轨迹提升为稠密轨迹、迭代跟踪所有帧中新出现的物体、以及基于优化的框架将2D轨迹提升到世界坐标系3D空间并显式分离相机运动和物体运动。
Training the Untrainable: Introducing Inductive Bias via Representational Alignment: 提出Guidance方法，通过逐层表征对齐（CKA）将一个网络（guide）的架构归纳偏置迁移到另一个原本"不可训练"的网络（target），从而使FCN能做图像分类、RNN逼近Transformer的语言建模性能。
Ultrametric Cluster Hierarchies: I Want 'em All!: 证明了对于任意合理的聚类层次树，都可以快速找到任意中心型聚类目标（如 k-means）的最优解，且这些解本身也是层次化的，从而从一棵树中解锁大量等价有意义的层次结构。
Uncertainty Estimation by Flexible Evidential Deep Learning: 提出 \(\mathcal{F}\)-EDL，通过将 EDL 中的 Dirichlet 分布推广为 Flexible Dirichlet (FD) 分布来建模类别概率分布，从而在保持单次前向传播效率的同时，显著增强不确定性估计在噪声、长尾、分布偏移等复杂场景下的泛化能力。
UniFormer: Unified and Efficient Transformer for Reasoning Across General and Custom Computing: 提出 UniFormer，一种面向 GPU 和 FPGA 跨平台部署的统一高效 Transformer 架构，通过双分支注意力机制（全局线性注意力 + 局部块注意力）实现了高并行性和计算存储融合。
What Does It Take to Build a Performant Selective Classifier?: 首次对选择性分类的性能差距（selective classification gap）进行有限样本分解，将差距归因于五个源头——贝叶斯噪声、逼近误差、排序误差、统计噪声和实现偏差，并证明单调校准方法对缩小差距效果有限。