跳转至

📂 其他

🧠 NeurIPS2025 · 154 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (5) · 📷 CVPR2026 (54) · 🔬 ICLR2026 (76) · 🤖 AAAI2026 (126) · 📹 ICCV2025 (48) · 🧪 ICML2025 (93)

🔥 高频主题: 对抗鲁棒 ×7 · 异常检测 ×3 · 对齐/RLHF ×3 · 人脸/视线 ×2 · 布局/合成 ×2

3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization

提出 3DID 框架,通过学习物理-几何统一的三平面隐空间表示 + 目标梯度引导扩散采样 + 拓扑保持精炼的两阶段策略,从随机噪声开始直接在完整 3D 空间中进行逆向设计,在车辆气动外形优化上,模拟阻力(Sim-Drag)相比最优基线降低 13.6%。

4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

提出4DGT——一种基于4D高斯的Transformer模型,完全在真实世界单目带位姿视频上训练,以前馈方式在几秒内完成动态场景重建,显著优于同类前馈网络,并达到与优化类方法可比的精度。

A Differentiable Model of Supply-Chain Shocks

用 JAX 实现可微分的供应链 Agent-Based Model(~1000 家企业),通过 GPU 并行化 + 自动微分实现比传统 ABC 快 3 个数量级的贝叶斯参数校准,为全球供应链网络的冲击传播建模铺平道路。

A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation

本文将跨域视线估计(CDGE)问题建模为广义标签偏移(GLS)问题,指出现有域不变表示学习方法在标签偏移存在时理论上不充分,提出基于截断高斯分布的连续重要性重加权和概率感知条件算子差异(PCOD)来联合纠正标签偏移和条件偏移,在多个backbone上平均降低误差12%~27%。

A Sustainable AI Economy Needs Data Deals That Work for Generators

提出"经济数据处理不等式"概念——ML价值链中数据从原始形态到模型权重再到合成输出,每一步都精炼了技术信号但系统性剥夺了数据生成者的经济权益;通过分析73个公开数据交易案例实证这一现象,诊断三个结构性缺陷(溯源缺失、议价权不对称、定价非动态),并提出EDVEX框架作为解决方案蓝图。

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation

本文从纯优化角度严格证明了 grokking 现象的成因:带小 weight decay 的梯度流在 \(\lambda\to 0\) 极限下呈现两阶段动力学——先快速收敛到训练损失的临界流形 \(\mathcal{M}\),再在 \(t\approx 1/\lambda\) 时沿流形做黎曼梯度流以最小化 \(\ell_2\) 范数,从而延迟实现泛化。

A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random

在高斯混合模型的聚类框架中,统一解决变量选择(区分信号变量、冗余变量和噪声变量)与MNAR缺失数据建模,通过两阶段策略(LASSO惩罚排序加BIC角色分配)和谱距离自适应惩罚权重实现高维场景下的高效推理,并证明了可辨识性和渐近选择一致性。

Active Measurement: Efficient Estimation at Scale

提出 Active Measurement 框架,将 AI 模型预测作为重要性采样提议分布,通过迭代的人类标注与模型更新实现科学总量测量的无偏估计,搭配新颖的组合权重方案和条件方差估计器构建可靠的置信区间。

AcuRank: 基于不确定性感知的自适应计算列表式重排序

利用贝叶斯TrueSkill模型维护文档相关性的概率分布,在每轮迭代中只对排名不确定的文档进行重排序,实现根据查询难度自适应调配计算量的重排框架,在多个基准上以更少调用次数超越固定计算基线。

Adaptive Data Analysis for Growing Data

本文首次给出了动态增长数据上自适应分析的泛化界,允许分析者根据数据规模自适应调度查询,并通过时变经验精度界和差分隐私机制实现随数据积累越来越紧的泛化保证。

Addressing Mark Imbalance in Integration-free Neural Marked Temporal Point Processes

本文首次揭示标记时间点过程(MTPP)中标记分布不平衡对预测性能的严重影响,提出先预测标记再预测时间的策略,设计阈值方法调节稀有标记的预测概率,并开发无积分近似的IFNMTPP模型高效支持标记概率估计和时间采样。

Adjoint Schrödinger Bridge Sampler

提出 Adjoint Schrödinger Bridge Sampler (ASBS),通过将 Schrödinger Bridge 问题重新解释为随机最优控制问题,消除了先前扩散采样器的 memoryless 条件限制,支持任意源分布(如高斯、谐波先验),使用可扩展的 matching 目标无需重要性权重估计,在多粒子能量函数和分子构象生成上全面超越先前方法。

Adjusted Count Quantification Learning on Graphs

将经典的 Adjusted Classify & Count (ACC) 量化方法扩展到图结构数据,提出结构重要性采样(SIS)和邻域感知ACC两种技术,分别解决图量化中的结构协变量偏移和非同质性边问题。

ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining

首次提出面向工业异常检测的专用表示预训练框架 ADPretrain,通过角度和范数导向的对比损失在大规模异常检测数据集 RealIAD 上学习残差特征表示,替换五种主流嵌入式 AD 方法的原始特征后在五个数据集、五个骨干网络上取得一致性提升。

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

提出Alias-Free Vision Transformer(AFT),结合抗混叠信号处理技术和shift-equivariant线性交叉协方差注意力,首次使ViT在分数像素(亚像素)平移下保持接近完美的一致性(~99%),同时在ImageNet分类准确率上几乎无损。

An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems

本文系统研究了 Neural ODE (NODE) 在含噪合成数据上的外推能力,并探索了将 NODE 作为数据增强工具、与符号回归 (SR) 结合以从有限数据中恢复动力学方程的流水线,结果表明该组合方案能从仅 10% 的仿真数据中恢复三个控制方程中的两个及第三个的良好近似。

EPHAD: An Evidence-Based Post-Hoc Adjustment Framework for Anomaly Detection Under Data Contamination

EPHAD 提出一种测试时后处理框架,通过指数倾斜(exponential tilting)将已被污染数据训练的异常检测模型输出与外部证据(CLIP/LOF等)进行贝叶斯式融合校正,无需接触训练流程,在8个视觉和26个表格AD数据集上一致提升被污染模型的检测性能。

Are Pixel-Wise Metrics Reliable for Sparse-View Computed Tomography Reconstruction?

揭示 PSNR/SSIM 等像素级指标无法反映稀疏视图 CT 重建中解剖结构完整性(相关性仅 0.16-0.30),提出基于自动分割的解剖感知指标(NSD/clDice)和 CARE 框架——在扩散模型训练中加入分割引导损失,大器官结构完整性提升 32%、血管提升 36%。

AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing

提出 AutoSciDACT 管线:先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间,再用 NPLM(New Physics Learning Machine)似然比检验对嵌入空间中的分布偏差进行统计量化,在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。

Brain-Like Processing Pathways Form in Models With Heterogeneous Experts

在异构 Mixture-of-Experts 模型中,异构专家并不会自动形成处理通路;本文提出三个受大脑启发的归纳偏置(路由代价、任务表现缩放、专家 Dropout),使模型形成类似大脑"皮层-皮层下"动态通路的 Mixture-of-Pathways 架构。

Computable Universal Online Learning

在 universal online learning 框架中引入可计算性约束,证明了"数学上可学习"不等于"可用计算机程序实现的可学习",并给出了 agnostic 和 proper 变体下可计算学习的精确刻画。

ConTextTab: 语义感知的表格上下文学习器

ConTextTab 将语义嵌入(列名、分类值的文本编码)融入 table-native ICL 架构,并在大规模真实表格数据(T4, ~2.18M 表)上预训练,在语义丰富的 CARTE 基准上取得新 SOTA,同时在非语义基准上保持与现有方法竞争力。

Contextual Dynamic Pricing with Heterogeneous Buyers

首次系统研究买家类型异质(\(K_\star\) 种未知类型)的上下文动态定价问题,提出基于乐观后验采样 (OPS) 的算法实现 \(\tilde{O}(K_\star\sqrt{dT})\) 遗憾界(对 \(d\)\(T\) 最优),并在非上下文情形通过方差感知自适应离散化算法 ZoomV 实现 \(\tilde{O}(\sqrt{K_\star T})\) 最优遗憾。

Continuous Thought Machines

提出 Continuous Thought Machine (CTM),通过私有参数化的 Neuron-Level Models (NLMs) 产生神经元级时间动力学,并以神经同步矩阵作为核心潜在表征,在迷宫求解、ImageNet 分类、奇偶校验等任务上展现复杂推理、自适应计算和可解释注意力行为。

Coreset for Robust Geometric Median: Eliminating Size Dependency on Outliers

首次消除鲁棒几何中位数 coreset 大小对异常值数 \(m\) 的依赖:在 \(n \geq 4m\) 条件下,\(d=1\) 时实现最优 coreset 大小 \(\tilde{\Theta}(\varepsilon^{-1/2} + \frac{m}{n}\varepsilon^{-1})\),高维时实现 \(\tilde{O}(\varepsilon^{-2}\min\{\varepsilon^{-2}, d\})\),核心技术是新颖的非逐分量误差分析

Coresets for Clustering Under Stochastic Noise

首次系统研究噪声数据下 \((k,z)\)-聚类 coreset 构造问题,提出新的代理误差度量 \(\mathsf{Err}_\alpha\) 替代传统 \(\mathsf{Err}\),在温和数据假设下实现 coreset 大小缩减 \(\text{poly}(k)\) 倍、质量保证收紧 \(\text{poly}(k)\) 倍,并设计噪声感知的 cluster-wise 采样算法。

Deep Continuous-Time State-Space Models for Marked Event Sequences

S2P2 将线性 Hawkes 过程与深度状态空间模型结合,通过堆叠多层隐式线性 Hawkes (LLH) 层 + 非线性激活构建高表达力的连续时间 MTPP 模型,利用并行扫描实现线性复杂度和亚线性时间,在 8 个真实数据集上平均提升 33% 预测似然。

Deep Learning for Continuous-Time Stochastic Control with Jumps

提出两种基于模型的深度学习算法(GPI-PINN 和 GPI-CBU)来求解含跳跃的有限时域连续时间随机控制问题,通过迭代训练策略网络和价值网络,避免了状态动力学的离散化和模拟,在高维场景中表现出色。

Deep Legendre Transform

DLT 利用凸共轭的隐式 Fenchel 表示 \(f^*(\nabla f(x)) = \langle x, \nabla f(x) \rangle - f(x)\) 将凸共轭计算转化为标准回归问题,避免求解 max/min-max 优化,且能提供后验误差估计,结合 KAN 还可获得精确解析解。

Dense Associative Memory with Epanechnikov Energy

提出基于 Epanechnikov 核的 log-sum-ReLU(LSR)能量函数替代传统的 log-sum-exp(LSE),在 Dense Associative Memory 中首次实现了"精确记忆所有模式 + 同时涌现新的创造性局部极小"的共存,且保持指数级记忆容量。

Depth-Bounds for Neural Networks via the Braid Arrangement

本文证明了在 \(\mathcal{B}_d^0\)-conforming 约束下,ReLU 网络精确表示 \(\max\{0, x_1, \ldots, x_d\}\) 需要 \(\Omega(\log \log d)\) 层——这是首个不限制权重的非常数深度下界;同时证明 rank-(3,2) maxout 网络可以计算 7 个数的最大值,说明标准上界不紧。

Depth-Supervised Fusion Network for Seamless-Free Image Stitching

DSFN 提出深度一致性约束的无缝图像拼接方法:通过深度感知的两阶段变换估计解决大视差对齐,软缝合区域扩散实现自然融合,结合重参数化策略提升效率,在 UDIS-D 和 IVSD 数据集上全面超越 SOTA。

Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning

提出一种基于方向性非交换幺半群算子的代数框架,为多维组合嵌入提供统一数学基础,将 SSM 递归、Transformer 自注意力和 RoPE 位置编码统一为特例。

Distributionally Robust Feature Selection

本文提出一种模型无关的分布鲁棒特征选择方法,通过向协变量注入可控高斯噪声实现离散选择的连续松弛,并优化 Bayes 最优预测器的条件方差,使选出的特征子集能在多个子群体上同时训练出高质量下游模型。

Double Descent Meets Out-of-Distribution Detection: Theoretical Insights and Empirical Analysis

本文首次揭示 post-hoc OOD 检测中存在 double descent 现象——OOD 检测性能随模型宽度在插值阈值附近出现谷值后再次上升,通过随机矩阵理论提供理论解释,并提出基于 Neural Collapse 的 NC1 判据来识别最佳模型复杂度区间。

DPA: A One-Stop Metric to Measure Bias Amplification in Classification Datasets

本文提出 Directional Predictability Amplification (DPA),一种基于可预测性的偏差放大度量指标,是唯一同时满足方向性、适用于平衡/非平衡数据集、能正确识别正负偏差放大的一站式指标,通过测量模型偏差与数据集偏差的相对变化来量化偏差放大程度。

Efficient Kernelized Learning in Polyhedral Games Beyond Full-Information: From Colonel Blotto to Congestion Games

提出基于核化(kernelization)的框架,在部分信息反馈设定下为多面体博弈(Colonel Blotto、图拟阵拥堵博弈、网络拥堵博弈)设计了计算高效的无遗憾学习算法,显著改进了学习粗关联均衡(CCE)的运行时复杂度。

Efficient Parametric SVD of Koopman Operator for Stochastic Dynamical Systems

提出基于 low-rank approximation (LoRA) 的目标函数来学习随机动力系统 Koopman 算子的 top-k 奇异函数,完全避免了 VAMPnet/DPNet 中数值不稳定的矩阵分解操作,且梯度天然无偏。

Emergency Response Measures for Catastrophic AI Risk

本文系统分析了前沿安全政策(FSPs)如何嵌入中国四阶段应急响应框架(预防-预警-响应-恢复)的前两个阶段,通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险,并与欧盟AI法案、加州SB53等国际实践进行了对比。

Equivariance by Contrast: Identifiable Equivariant Embeddings from Unlabeled Finite Group Actions

提出 Equivariance by Contrast (EbC),一种仅用编码器的方法,从观测对 \((\mathbf{y}, g \cdot \mathbf{y})\) 中联合学习等变嵌入空间和隐式群表示,使有限群作用在潜空间中对应可逆线性映射,并提供可辨识性理论保证。

Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions

Google DeepMind训练了三种生成式神经网络(自回归Transformer、离散扩散、MaskGit)学习国际象棋谜题分布,通过强化学习优化谜题的唯一性和反直觉性,生成约400万个棋局位置,经奖励函数筛选和美学主题检测后,邀请三位世界级国际象棋专家评审,得到积极但带有建设性批评的反馈。

EvoBrain: Dynamic Multi-Channel EEG Graph Modeling for Time-Evolving Brain Networks

提出 EvoBrain——首次从理论上证明 显式动态图建模 优于隐式静态图、time-then-graph 架构表达力严格优于其他两种动态 GNN 范式(graph-then-time / time-and-graph),并据此设计双流 Mamba + Laplacian PE 增强的 GCN 模型,在 TUSZ 和 CHB-MIT 数据集的癫痫检测与早期预测任务上取得 AUROC 提升 23%、F1 提升 30% 的显著效果,同时训练速度比 SOTA 快 17 倍。

Evolutionary Learning in Spatial Agent-Based Models for Physical Climate Risk Assessment

提出一种整合地理空间气候灾害数据与进化学习机制的Agent-Based Model(ABM),在包含商品-制造-零售三级供应链的简化经济网络上,通过RCP8.5洪水投影模拟2025-2100年的经济响应,证明了进化自适应机制使企业在气候压力下维持显著更高的生产、资本、流动性和就业水平,同时揭示了传统资产级评估无法捕捉的供应链系统性风险。

Evolutionary Prediction Games

提出"演化预测博弈"框架,用演化博弈论分析预测算法与用户群体之间的反馈循环,揭示理想学习器导致竞争排斥(强者生存),而实际学习器(有限数据/代理损失/过参数化)反而能促成群体间的稳定共存与互利共生。

Exact Learning of Arithmetic with Differentiable Agents

提出可微有限状态转换器(DFST),一种图灵完备且端到端可微的模型族,在 2D 符号网格上通过观察专家算术计算的中间步骤(Policy-Trajectory Observations)训练,仅用 20 个样本(最长 3 位数加法)即可完美泛化到 3850 位二进制加法、2450 位十进制加法,未发现任何错误。

FACE: Faithful Automatic Concept Extraction

提出 FACE 框架,在非负矩阵分解 (NMF) 中加入 KL 散度正则项,约束概念重建后的激活值保持与原始模型预测一致,从而提取真正忠实于模型决策过程的概念解释,在 ImageNet/COCO/CelebA 上全面超越 CRAFT 和 ICE。

Faithful Group Shapley Value

提出 Faithful Group Shapley Value (FGSV),唯一满足含"忠实性"在内五条公理的组级数据估值方法,有效防御"空壳公司攻击"(通过拆分子组不当膨胀估值),并设计了 \(O(n \cdot \text{Poly}(\log n))\) 复杂度的高效近似算法。

Finite-Time Analysis of Stochastic Nonconvex Nonsmooth Optimization on the Riemannian Manifolds

提出 Riemannian Online to NonConvex (RO2NC) 算法及其零阶版本 ZO-RO2NC,首次为黎曼流形上完全非光滑非凸随机优化建立了 \(O(\delta^{-1}\epsilon^{-3})\) 的有限时间样本复杂度保证,匹配欧几里德最优结果。

FlashMD: Long-Stride, Universal Prediction of Molecular Dynamics

提出 FlashMD,基于 GNN 直接预测分子动力学轨迹的位置与动量跨步演化,实现比传统 MD 积分器大 1–2 个数量级的时间步长跨越,并在架构中融入哈密顿动力学约束,推广到任意热力学系综和通用化学体系。

FlowMoE: 分布式MoE训练的可扩展流水线调度框架

FlowMoE提出统一的流水线调度框架,将MHA计算、门控、专家计算和A2A通信纳入一体化流水线,并使用优先级驱动的all-reduce张量分块机制最大化通信与计算的重叠,在多种真实MoE模型上实现1.13×-1.82×加速、10-39%能耗降低和7-32%内存节省。

Fostering the Ecosystem of AI for Social Impact Requires Expanding and Strengthening Evaluation Standards

本文主张 AI for Social Impact (AISI) 领域的学术生态需要双轨改革:拓宽"影响力"的定义以认可非部署/非方法创新的贡献,同时对已部署系统采用因果推断级别的严格评估标准。

Frequency-Aware Token Reduction for Efficient Vision Transformer

从频域视角提出 frequency-aware token reduction,将 token 分为高频(HF)和低频(LF)两组,选择性保留 HF token 并将 LF token 聚合为 DC token,在缓解 rank collapse 的同时减少 ViT 的计算量,在 30% token 减少率下多个模型上超越现有 SOTA。

FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees

提出 FSNet 框架,将可微的可行性求解步骤集成到神经网络中,通过最小化约束违反的无约束优化来保证约束满足,同时支持端到端训练,在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。

Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits

证明GP-UCB算法在无噪声GP bandit问题中达到近最优遗憾界,包括在SE核和Matérn核(\(d > \nu\))条件下首次获得常数累积遗憾\(O(1)\),弥合了GP-UCB理论与实际性能之间的差距。

Generalized Linear Mode Connectivity for Transformers

提出统一对称性框架(置换、半置换、正交、可逆变换四级层次),首次在 Vision Transformer 和 GPT-2 上实现零/近零 barrier 的线性模式连通性(LMC),并扩展至多模型融合与异构宽度对齐。

Graph Alignment via Birkhoff Relaxation

本文首次为图对齐问题的 Birkhoff 松弛(将排列矩阵约束松弛为双随机矩阵约束)提供了理论保证,在高斯 Wigner 模型下证明了最优解的相变行为:当噪声 \(\sigma = o(n^{-1})\) 时松弛解接近真实排列,当 \(\sigma = \Omega(n^{-0.5})\) 时松弛解远离真实排列。

Harnessing Feature Resonance under Arbitrary Target Alignment for Out-of-Distribution Node Detection

发现 Feature Resonance 现象——优化已知 ID 节点表征时未知 ID 节点的表征变化显著大于 OOD 节点,且该现象与标签无关,据此提出无需多类标签的图 OOD 节点检测框架 RSL,在 13 个数据集上达到 SOTA。

Hessian-guided Perturbed Wasserstein Gradient Flows for Escaping Saddle Points

提出扰动Wasserstein梯度流(PWGF)算法,通过基于Hessian构造的高斯过程注入噪声扰动,使概率测度优化能够高效逃离鞍点并达到二阶最优性。

How Many Domains Suffice for Domain Generalization? A Tight Characterization via the Domain Shattering Dimension

提出"领域碎裂维度"(Domain Shattering Dimension)这一新组合度量,紧致刻画了领域泛化所需的领域数量(领域样本复杂度),并证明其与经典VC维的关系为 \(\Theta(d \log(1/\alpha))\)

Hybrid-Balance GFlowNet for Solving Vehicle Routing Problems

提出Hybrid-Balance GFlowNet(HBG)框架,首次在VRP场景中引入详细平衡(DB)并与轨迹平衡(TB)统一集成,配合depot引导推理策略,在CVRP和TSP上显著提升两种现有GFlowNet求解器(AGFN和GFACS)的性能。

Impact of Layer Norm on Memorization and Generalization in Transformers

系统揭示了LayerNorm在Pre-LN和Post-LN Transformer中的截然不同角色:Pre-LN中LN对学习至关重要,移除会破坏泛化;Post-LN中LN驱动记忆化,移除可抑制记忆化并恢复真实标签。

Improved Approximation Algorithms for Chromatic and Pseudometric-Weighted Correlation Clustering

针对 Correlation Clustering 的两个重要推广——Chromatic CC 和 pseudometric-weighted CC,基于 LP relaxation 与精心设计的 rounding function,分别取得 2.15-approximation 和 tight 10/3-approximation,显著改进了先前最佳结果(2.5 和 6)。

Improving Decision Trees through the Lens of Parameterized Local Search

从参数化复杂度的视角分析决策树的局部搜索优化操作,揭示问题的难度来源,并证明特征数与值域大小的组合可实现固定参数可解(FPT),同时提供了概念验证实现。

Improving Forecasts of Suicide Attempts for Patients with Little Data

提出 Latent Similarity Gaussian Process (LSGP),将患者嵌入连续隐空间以捕获异质性,使数据稀少的患者能从相似患者"借用"预测趋势,从而改进基于 EMA 数据的自杀未遂预测。

Inferring Stochastic Dynamics with Growth from Cross-Sectional Data

提出非平衡概率流推断(UPFI),通过Fokker-Planck方程的Lagrangian形式化,从横截面数据中联合推断随机动力学系统的漂移项、扩散项和增长率,首次准确处理含细胞增殖/死亡的场景。

Information-Computation Tradeoffs for Noiseless Linear Regression with Oblivious Contamination

对无噪声线性回归在Oblivious污染模型下,形式化证明任何高效Statistical Query算法都需要 \(\tilde{\Omega}(d^{1/2}/\alpha^2)\) 的VSTAT复杂度,给出了 \(1/\alpha\) 的二次依赖对高效算法具有本质性的计算下界证据。

Infrequent Exploration in Linear Bandits

提出 INFEX 框架,按给定调度表在探索步执行基线算法(如 LinUCB/LinTS)、其余时刻贪心选臂,证明只要探索次数超过 \(\omega(\log T)\) 即可达到与全时刻探索相同的多项对数 regret,同时大幅降低计算开销(80%-99% 时间步为贪心)。

Johnson-Lindenstrauss Lemma Beyond Euclidean Geometry

将Johnson-Lindenstrauss引理从欧几里得空间扩展到一般对称空心相异度矩阵,提出伪欧空间JL变换和广义幂距离JL变换两种互补方法,误差与数据偏离欧几何的程度成正比。

Kernel Conditional Tests from Learning-Theoretic Bounds

提出将学习算法的置信界转化为条件假设检验的统一框架,基于核岭回归构建了有限样本保证的条件两样本检验,首次支持非i.i.d.数据与在线采样场景。

Lagrangian neural ODEs: Measuring the existence of a Lagrangian with Helmholtz metrics

提出 Helmholtz metrics——基于 Helmholtz 条件的可微度量,用于量化给定 ODE 与 Euler-Lagrange 方程的接近程度,并将其作为正则化项加入二阶 Neural ODE 训练中,形成 Lagrangian Neural ODE,在零额外推理开销下引导模型收敛到真正的物理定律。

Learning-Augmented Online Bipartite Fractional Matching

本文提出了两个学习增强算法(LAB 和 PAW),用于在线二部分数匹配问题,在给定可能不准确的建议匹配的情况下,首次在整个鲁棒性范围内 Pareto 优于朴素的 CoinFlip 策略。

Learning-Augmented Streaming Algorithms for Correlation Clustering

提出了首个面向相关聚类(Correlation Clustering)的学习增强流算法,利用成对距离预测,在完全图上实现优于3的近似比(\(\tilde{O}(n)\) 空间),在一般图上实现 \(O(\log|E^-|)\) 近似比(\(\tilde{O}(n)\) 空间),在空间-近似比权衡上显著改进了已有的非学习算法。

Learning (Approximately) Equivariant Networks via Constrained Optimization

提出ACE(Adaptive Constrained Equivariance)框架,将等变神经网络训练建模为约束优化问题,通过对偶方法自动从灵活的非等变模型渐进过渡到等变模型,无需手动调参即可适应完全和部分对称数据。

Learning Dense Hand Contact Estimation from Imbalanced Data

提出 HACO 框架,通过平衡接触采样(BCS)解决类别不平衡和顶点级类别平衡损失(VCB Loss)解决空间不平衡,首次在 14 个数据集(65.5 万图像)上训练稠密手部接触估计模型,在多种交互场景下达到 SOTA。

Learning Dynamics of RNNs in Closed-Loop Environments

从数学理论上揭示了 RNN 在闭环(agent-环境交互)与开环(监督学习)训练下呈现根本不同的学习动力学,闭环学习遵循三阶段过程,由短期策略改进与长期稳定性之间的竞争驱动。

Learning non-equilibrium diffusions with Schrödinger bridges: from exactly solvable to simulation-free

将Schrödinger桥问题从布朗运动参考过程推广到多变量Ornstein-Uhlenbeck(mvOU)参考过程,推导高斯情形精确解,并提出无模拟的mvOU-OTFM算法处理一般分布。

Learning to Condition: A Neural Heuristic for Scalable MPE Inference

提出 Learning to Condition (L2C),通过训练注意力网络从求解器搜索轨迹中学习变量-值对的"最优性"与"简化性"双重评分,用于指导概率图模型中 MPE 推理的条件化决策,在高树宽模型上大幅缩减搜索空间且维持或提升解质量。

Look-Ahead Reasoning on Learning Platforms

在学习平台的用户-算法交互中形式化 level-\(k\) 前瞻推理,证明个体自私的高阶推理只加速收敛但不改变均衡(无长期收益),而集体协调的收益由学习者-用户效用函数的对齐程度决定,提供了刻画协调收益上界的理论框架。

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

MAS-ZERO 是首个推理时自动 MAS 设计框架,通过 meta-agent 迭代设计、批评和改进 MAS 配置(包括任务分解和 sub-MAS 分配),无需验证集和训练,在推理(+16.69%)、编程(+16.66%)和搜索代理(+5.45%)任务上均超越手动和自动 MAS baseline,同时保持 Pareto 最优的准确率-成本权衡。

MaxSup: Overcoming Representation Collapse in Label Smoothing

通过解析 Label Smoothing (LS) 的损失函数,发现其包含一个在错误分类时放大错误的"误差放大项",导致类内特征坍缩;提出 Max Suppression (MaxSup) 方法,将惩罚目标从 ground-truth logit 转移至 top-1 logit,消除误差放大效应同时保留有益正则化。

MEGState: Phoneme Decoding from Magnetoencephalography Signals

提出 MEGState,一种融合多分辨率卷积和传感器级 SSM 的架构,用于从脑磁图(MEG)信号中解码音素,在 LibriBrain 数据集上显著超越基线方法。

Meta-learning three-factor plasticity rules for structured credit assignment with sparse feedback

本文提出一种元学习框架,通过外层梯度优化自动发现局部的新赫布式突触可塑性规则,使循环神经网络仅利用稀疏延迟奖励信号就能完成结构化的信用分配,为理解生物神经网络的学习机制提供了新视角。

MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation

MetaFind 是一个场景感知的三模态(文本+图像+点云)3D 资产检索框架,通过引入 SE(3) 等变的空间-语义图神经网络 (ESSGNN) 编码场景布局信息,实现了在元宇宙场景生成中风格一致、空间合理的迭代式资产检索。

MiCADangelo: Fine-Grained Reconstruction of Constrained CAD Models from 3D Scans

MiCADangelo 模拟人类 CAD 设计师的逆向工程流程,通过多平面截面分析提取 2D 模式,预测带约束的参数化草图并优化拉伸参数,首次在 3D CAD 逆向工程中实现了包含草图约束的完整参数化模型重建。

Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications

本文提出 AI-LAWS(AI 驱动致命性自主武器系统)的行为导向定义与监管框架,通过两条技术准则识别需特别监管的军事 AI 系统,并提出五项具体政策建议,呼吁 AI 研究者深度参与军事 AI 治理的全生命周期。

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

提出 Unbalanced Mean Field Schrödinger Bridge (UMFSB) 框架和 CytoBridge 深度学习算法,从稀疏时间快照数据中同时建模细胞的非平衡随机动力学和细胞间交互。

Modeling Neural Activity with Conditionally Linear Dynamical Systems

提出条件线性动力系统(CLDS),通过高斯过程先验让线性动力系统参数随观测到的实验协变量非线性变化,在保留线性模型可解释性和高效推断的同时建模神经回路的非线性动态。

MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering

提出 MutualVPR 互学习框架,通过特征驱动的自适应 K-means 聚类动态分配场景类别标签,解决分类式 VPR 方法中由视角变化和遮挡导致的监督不一致问题。

Neural Collapse in Cumulative Link Models for Ordinal Regression: An Analysis with Unconstrained Feature Model

将Neural Collapse (NC)理论扩展到基于累积链接模型(CLM)的序数回归(OR)任务中,在无约束特征模型(UFM)框架下证明了Ordinal Neural Collapse (ONC)的三个标志性质:类内均值坍缩(ONC1)、特征坍缩到一维子空间(ONC2)、以及潜变量按类别顺序排列(ONC3),并在零正则极限下揭示了潜变量与阈值之间的简洁几何关系。

Neural Network for Simulating Radio Emission from Extensive Air Showers

用简单全连接神经网络替代计算昂贵的 CoREAS 蒙特卡洛模拟,快速预测广延大气簇射(EAS)的射电脉冲,并在 \(X_{\text{max}}\) 重建任务中达到与传统模拟可比的分辨率。

Non-Clairvoyant Scheduling with Progress Bars

引入"进度条"信息模型作为透视与非透视调度之间的插值框架,针对对抗性和随机性进度条分别设计了具有最优一致性-鲁棒性权衡的调度算法,同时推进了学习增强调度的理论前沿。

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

在各向异性下降不等式框架下,为非线性预条件梯度方法引入重球法动量,并分析其随机变体在多种噪声假设下的收敛性质,统一了梯度裁剪与归一化梯度方法的理论分析。

Normalization in Attention Dynamics

将不同归一化方案(Post-LN、Pre-LN、Mix-LN、Peri-LN、nGPT、sqrt-scaling)统一建模为球面上交互粒子系统的速度调节机制,从理论上揭示了各方案对 token 聚类动力学和表示坍缩的不同影响,识别 Peri-LN 为理想选择。

Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure

提出Obliviator——一种基于RKHS中HSIC最小化的后处理概念擦除方法,通过两步迭代优化逐步变形特征空间,首次实现对非线性对抗者的完全防护,同时量化了非线性防护的效用-擦除代价(utility-erasure trade-off),在多个PLM和数据集上显著优于现有方法。

On a Geometry of Interbrain Networks

本文是一篇观点论文(opinion piece),提出将离散图曲率(Forman-Ricci 和 Ollivier-Ricci 曲率)引入超扫描(hyperscanning)研究中的脑间网络分析,利用曲率分布的熵来检测网络相变,并通过曲率值推断脑间信息路由策略,突破传统相关性指标的描述性局限。

On Agnostic PAC Learning in the Small Error Regime

本文在不可知 PAC 学习的小误差域(\(\tau \approx d/m\))中,构造了一个基于 ERM 聚合的计算高效学习器,实现了 \(c \cdot \tau + O(\sqrt{\tau d/m} + d/m)\) 的误差上界(\(c \leq 2.1\)),匹配了已知下界,推进了不可知学习的精确复杂度刻画。

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

揭示在标准参数化(SP)下,cross-entropy 损失函数使得"不稳定"区间实际分为灾难性不稳定和受控发散两个子区间:在受控发散区间(学习率 \(\eta_n = \Theta(n^{-1/2})\))logits 发散但梯度和激活保持稳定,从而首次为 SP 提供了一个实用的、具有特征学习能力的无穷宽极限。

On Topological Descriptors for Graph Products

系统研究在图的(box)积上施加各种滤过时拓扑描述子(欧拉特征 EC 和持续同调 PH)的表达能力,证明 PH 图积描述子严格强于对单图的计算,而 EC 不具备此性质,并给出高效 PH 计算算法。

On Universality Classes of Equivariant Networks

本文证明等变神经网络的分离能力(区分对称等价输入的能力)不足以完全刻画其表达能力——具有相同分离能力的模型可能拥有不同的逼近能力,并给出了浅层不变网络通用性类的完整刻画及失败的充分条件。

One Sample is Enough to Make Conformal Prediction Robust

提出 RCP1(单样本鲁棒共形预测),通过认证共形过程本身而非单个 conformity score,仅需一次随机扰动前向传播即可获得比需要 100 次前向传播的 SOTA 方法更小的鲁棒预测集。

Optimism Without Regularization: Constant Regret in Zero-Sum Games

首次证明无正则化的Optimistic Fictitious Play在2×2零和博弈中获得O(1)常数遗憾,匹配了正则化Optimistic FTRL的最优率,同时证明Alternating Fictitious Play的遗憾下界为Ω(√T),分离了乐观和交替在无正则化情况下的能力。

Optimized Learned Count-Min Sketch

提出 OptLCMS,通过将分数空间分区并用 KKT 条件解析求解 CMS 参数、动态规划优化阈值,大幅加速构建过程,同时提供不可容忍误差概率的理论保证。

OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning

提出 OrbitZoo,一个基于工业级天体动力学库 Orekit 的多智能体 RL 环境,集成高保真轨道动力学(含大气阻力、太阳辐射压、三体效应等)、PettingZoo 多智能体接口和实时 3D 可视化,在 Starlink 真实星历验证中均值 MAPE 仅 0.16%。

OrthoLoC: UAV 6-DoF Localization and Calibration Using Orthographic Geodata

OrthoLoC构建了首个面向正射地理数据(DOP+DSM)的大规模UAV 6-DoF定位基准数据集,包含16425张真实UAV图像覆盖德国和美国47个区域,并引入AdHoP(自适应单应性预处理)匹配改进技术,在不修改特征匹配器的情况下将匹配性能提升95%、平移误差降低63%。

Out-of-distribution Generalisation is Hard: Evidence from ARC-like Tasks

通过构建具有明确OOD度量的ARC类任务,证明标准神经网络(MLP/CNN/Transformer)无法实现组合OOD泛化,即使设计具有正确归纳偏置的架构达到近乎完美的OOD性能,也可能学到错误的组合特征。

Overfitting in Adaptive Robust Optimization

揭示自适应鲁棒优化(ARO)中策略脆弱性与机器学习过拟合的类比关系:自适应策略在不确定性集内表现优异但集外易失效,提出约束特定的不确定性集大小作为"正则化"手段来平衡鲁棒性和自适应性。

Plasticity as the Mirror of Empowerment

本文提出广义有向信息(GDI)作为度量智能体可塑性(plasticity)的信息论工具,揭示可塑性是赋权(empowerment)的"镜像"——两者使用相同度量、仅方向相反,并证明了两者之间存在严格的张力约束(tension bound)。

笔记7:价值引导搜索 - 高效链式思考推理

提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。

Position: There Is No Free Bayesian Uncertainty Quantification

本文从频率学派视角质疑贝叶斯不确定性量化(UQ)的有效性,将贝叶斯更新重新解释为模型集成的优化问题,并提出基于PAC框架的校准算法以构建具有频率学派保证的预测区间。

Prediction-Powered Semi-Supervised Learning with Online Power Tuning

将预测驱动推断(PPI)框架扩展到半监督学习训练过程中,提出无偏梯度估计器,并设计在线AdaGrad算法动态调节伪标签与真实标签的相对权重 \(\lambda\),在保证无偏性的同时实现与最优固定 \(\lambda\) 匹配的收敛速率。

Private Evolution Converges

为Private Evolution(PE)合成数据生成算法提供了首个不依赖不现实假设的收敛性理论保证,证明在正确的超参数设置下PE输出的 \((ε,δ)\)-DP 合成数据集的1-Wasserstein距离为 \(\tilde{O}(d(nε)^{-1/d})\)

Product Distribution Learning with Imperfect Advice

本文研究在给定不完美建议分布的情况下学习布尔超立方体上乘积分布的问题,提出了一种高效算法,当建议质量足够好时样本复杂度可实现关于维度 \(d\) 的次线性依赖。

Radar: Benchmarking Language Models on Imperfect Tabular Data

提出 Radar 基准,通过对真实表格数据注入五类数据工件(缺失值、错误值、异常值、格式不一致、逻辑不一致),系统评估语言模型在不完美表格数据上的数据感知推理能力,揭示即使是前沿模型在引入数据工件后性能也大幅下降。

Recurrent Self-Attention Dynamics: An Energy-Agnostic Perspective from Jacobians

本文从动力系统的 Jacobian 分析视角,突破传统能量函数框架的对称性约束,揭示了归一化层在抑制自注意力谱范数和振荡分量方面的关键作用,发现高性能循环自注意力模型的 Lyapunov 指数趋近于零(临界态),并基于此提出谱正则化方法显著提升推理性能。

Redundancy-Aware Test-Time Graph Out-of-Distribution Detection

提出 RedOUT 框架,通过最小化结构熵构建编码树来消除图结构中的冗余信息,结合冗余感知图信息瓶颈(ReGIB)原理,在测试时无需修改预训练模型参数即可有效区分ID和OOD图样本,在10个数据集对上平均AUC达87.46%。

Regression Trees Know Calculus

揭示常叶回归树中隐含的梯度信息——通过相邻节点均值差的有限差分类比,高效提取梯度估计,进而将活跃子空间(Active Subspace)和集成梯度(Integrated Gradient)等微分工具引入树模型,拓展了树模型的可解释性和预测改进能力。

Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry

提出 NCAL-R,利用深度网络训练后期涌现的 Neural Collapse 几何结构,设计类均值对齐扰动(CMAP)和特征波动(FF)两个评分指标来选择样本,使主动学习在标签噪声和分布偏移下更加可靠,在 ImageNet-100 和 CIFAR-100 上一致优于传统 AL 基线。

笔记5:ReSearch - 学习通过搜索推理

ReSearch框架将搜索操作嵌入推理链中作为第一类原语,通过GRPO强化学习自动学习何时何如搜索,无需任何推理步骤的监督标注,在多跳QA任务上相对基线平均提升15.81%。

ResNets Are Deeper Than You Think

证明残差网络与前馈网络居于不同的函数空间(非简单重参数化),并通过后训练部分线性化实验表明变深度架构(类ResNet)即使在排除可训练性差异后仍优于固定深度架构,暗示残差连接提供了超越优化的归纳偏好。

Rethinking PCA Through Duality

通过 Difference-of-Convex (DC) 框架重新审视 PCA,建立了核化和样本外推广能力,揭示了同步迭代是 DCA 的特例,并提出了鲁棒 \(\ell_1\)-PCA 的核化对偶公式。

Revisiting Agnostic Boosting

提出新的不可知 Boosting 算法,在非常一般的假设下大幅改善了此前工作的样本复杂度,并建立近匹配下界,从而在对数因子意义下解决了不可知 Boosting 的样本复杂度问题。

RNNs Perform Task Computations by Dynamically Warping Neural Representations

本文提出一个黎曼几何框架,通过将表示空间度量从 RNN 状态空间拉回(pullback)到输入流形上,证明 RNN 通过动态变形(warping)其对任务变量的表示来执行计算——压缩无关输入、拉伸决策边界附近的空间,且这种变形不是副产物而是计算本身。

Robust Sampling for Active Statistical Inference

提出基于预算保持路径的鲁棒采样策略,通过在均匀采样和主动采样之间最优插值,确保估计器的方差永远不比两者中任何一个更差,解决了主动统计推断中不确定性估计不准确导致性能恶化的问题。

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

利用 o-minimal 结构的数学工具,证明了使用常见光滑激活函数(sigmoid、tanh、softplus、GELU 等)的全连接网络的梯度流存在二元性:要么收敛到临界点,要么发散到无穷大且损失收敛到渐近临界值。特别地,对多项式目标函数,证明了损失无法精确取零但可任意接近零,从而导致参数必然发散。

Sample-Adaptivity Tradeoff in On-Demand Sampling

系统研究了按需采样(on-demand sampling)中样本复杂度与自适应轮次之间的权衡关系,在可实现设定下证明 \(r\) 轮算法的最优样本复杂度为 \(dk^{\Theta(1/r)}/\varepsilon\),在不可知设定下提出仅需 \(\widetilde{O}(\sqrt{k})\) 轮即可达近最优样本复杂度的LazyHedge算法,并引入OODS抽象框架建立了近紧的轮次复杂度下界。

Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch

提出面向现代 Ampere GPU 优化的欧拉特征曲线(ECC)CUDA 内核,相比先前 GPU 实现达到 16-2000x 加速,并引入可微 PyTorch 层通过 DECT 风格的 sigmoid 松弛支持在密集网格图像上的端到端拓扑特征学习。

Scalable Inference of Functional Neural Connectivity at Submillisecond Timescales

将传统离散时间Poisson GLM推广到连续时间Poisson点过程,通过蒙特卡洛采样和二阶多项式近似两种方法绕过不可解的积分项,配合正交的广义Laguerre基函数,在数百神经元、数千秒记录的数据上实现分钟级训练和亚毫秒级突触连接识别。

Semi-infinite Nonconvex Constrained Min-Max Optimization

针对带有无穷多非凸约束的非凸 min-max 优化问题,提出 iDB-PD(不精确动态障碍原始-对偶)算法,在 Łojasiewicz 正则条件下建立了首个全局非渐近收敛保证,稳定性 \(\mathcal{O}(\epsilon^{-3})\)、可行性 \(\mathcal{O}(\epsilon^{-6\theta})\)、互补松弛 \(\mathcal{O}(\epsilon^{-3\theta/(1-\theta)})\)

Semi-supervised Graph Anomaly Detection via Robust Homophily Learning

提出RHO (Robust Homophily Learning)方法,通过自适应频率响应滤波器(AdaFreq)和图正常性对齐(GNA)模块,解决半监督图异常检测中正常节点同质性多样性的问题,在8个真实数据集上超越现有方法。

Sharpness-Aware Minimization with Z-Score Gradient Filtering

提出 Z-Score Filtered SAM (ZSAM),通过对每层梯度进行 Z-Score 统计过滤,仅保留最显著的梯度分量进行扰动上升步骤,从而引导优化器更有效地搜索平坦极小值,在多个数据集和架构上一致提升测试精度。

Sheaf Cohomology of Linear Predictive Coding Networks

本文将线性预测编码(PC)网络形式化为细胞层(cellular sheaf),证明PC推理等价于层Laplacian下的扩散过程,通过Hodge分解将监督信号拆解为可消除误差(通过推理)和不可约误差(由循环拓扑的上同调刻画),从而精确解释了为什么某些循环权重初始化会导致学习停滞。

Sign-In to the Lottery: Reparameterized Sparse Training from Scratch

本文发现稀疏网络从头训练(PaI)性能差的根本原因是无法像dense-to-sparse方法那样学习正确的参数符号,为此提出Sign-In重参数化方法(θ=m⊙w),通过引入内部自由度来促进符号翻转,理论证明其能解决一种互补于过参数化的符号翻转情况,实验中显著提升了稀疏从头训练的性能。

SMRS: Advocating a Unified Reporting Standard for Surrogate Models in the Artificial Intelligence Era

本文针对AI驱动的代理模型(Surrogate Model)领域缺乏标准化报告规范的痛点,提出了一套轻量级、模块化、与模型无关的报告标准SMRS,覆盖数据采集、模型选择、训练方法、评估指标等完整建模流水线的六大维度,通过对17篇已发表论文的案例研究验证了框架的可操作性,旨在提升代理模型的可复现性、可比较性和跨领域迁移能力。

SPACE: SPike-Aware Consistency Enhancement for Test-Time Adaptation in Spiking Neural Networks

提出SPACE,首个专为脉冲神经网络(SNN)设计的无源单样本测试时自适应(TTA)方法,通过最大化增强样本间脉冲行为特征图的一致性,在多个数据集和架构上实现鲁棒适应。

Stable Matching with Ties: Approximation Ratios and Learning

研究有并列偏好的双边匹配市场,提出最优稳定份额(OSS)比率概念衡量公平性,证明稳定匹配分布下OSS-ratio为\(\Omega(N)\)但一般匹配分布下可达\(O(\log N)\)(渐近紧),并将离线近似结果扩展到bandit学习场景。

Statistical Inference for Gradient Boosting Regression

提出统一的梯度提升回归统计推断框架,通过将dropout和并行训练整合到Boulevard正则化中,证明了相应的中心极限定理,从而构建了内置的置信区间、预测区间和变量重要性假设检验,并发现增大dropout率和并行树数量能显著提升信号恢复(最高达2倍和4倍)。

Statistical Inference Under Performativity

本文首次建立了表演性预测(performative prediction)下完整的端到端统计推断框架,为重复风险最小化算法推导出中心极限定理和数据驱动的协方差估计方法,并将预测驱动推断(PPI)扩展到动态表演性设置以获得更紧的置信区间。

Structure-Aware Spectral Sparsification via Uniform Edge Sampling

本文证明在具有良好聚类结构的图上(结构比 Υ(k) 足够大),均匀边采样即可保留谱聚类所需的谱子空间结构,无需昂贵的有效电阻预计算——这是首个关于均匀采样保持结构的可证明保证。

The Computational Complexity of Counting Linear Regions in ReLU Neural Networks

系统梳理了ReLU网络"线性区域"的六种非等价定义,证明对所有定义计数线性区域都是#P-hard的(一层隐藏层即如此),并在多层网络中证明了强不可近似结果和多项式空间上界。

The Cost of Robustness: Tighter Bounds on Parameter Complexity for Robust Memorization in ReLU Nets

研究 ReLU 网络鲁棒记忆(robust memorization)的参数复杂度,即在保证每个训练样本 \(\mu\)-邻域内预测一致的条件下插值任意数据集所需的参数数量,在鲁棒性比率 \(\rho = \mu/\epsilon\) 的全范围 \((0,1)\) 内建立了更紧的上下界。

The Parameterized Complexity of Computing the VC-Dimension

本文系统研究了计算VC维问题的参数化复杂性,证明朴素穷举算法在ETH假设下是渐近最优的,给出按最大度参数化的FPT 1-可加近似算法,以及按树宽参数化的 \(2^{O(\text{tw} \cdot \log \text{tw})} \cdot |V|\) 精确算法,并完整刻画了各结构参数下的可处理性景观。

The Persistence of Neural Collapse Despite Low-Rank Bias

本文从理论上证明了深度神经坍缩(DNC)在深层无约束特征模型中由于 L2 正则化引起的低秩偏差而全局次优,同时首次解释了 DNC 在实践中持续出现的原因——其解空间维度随网络宽度增长快于低秩解。

The Structural Complexity of Matrix-Vector Multiplication

证明对于 corrupted VC-dimension 为 \(d\) 的布尔矩阵 \(\mathbf{M} \in \{0,1\}^{m \times n}\),矩阵-向量乘法可在 \(\widetilde{O}(nm^{1-1/d}+m)\) 时间内完成,首次为结构化矩阵提供了真亚二次时间上界,推翻了 OMv 猜想在结构化输入上的适用性,并导出了动态 Laplacian 求解器、有效电阻、三角检测等问题的首个高精度亚二次算法。

Tight Bounds On the Distortion of Randomized and Deterministic Distributed Voting

本文研究分布式投票模型中的度量扭曲 (metric distortion) 问题,针对四种代价目标 (\(\text{avg-avg}\), \(\text{avg-max}\), \(\text{max-avg}\), \(\text{max-max}\)),在确定性和随机机制下给出了改进的紧界或近紧界,几乎完整地刻画了这一模型的扭曲特性。

Training the Untrainable: Introducing Inductive Bias via Representational Alignment

提出Guidance方法,通过逐层表征对齐(CKA)将一个网络(guide)的架构归纳偏置迁移到另一个原本"不可训练"的网络(target),从而使FCN能做图像分类、RNN逼近Transformer的语言建模性能。

Transfer Learning for Benign Overfitting in High-Dimensional Linear Regression

提出两步式Transfer MNI方法,在高维过参数化线性回归中通过"保留目标信号+零空间迁移源知识"机制增强良性过拟合的泛化能力,刻画了模型偏移和协变量偏移下的非渐近excess risk,并发现了"免费午餐"协变量偏移区间。

Ultrametric Cluster Hierarchies: I Want 'em All!

证明了对于任意合理的聚类层次树,都可以快速找到任意中心型聚类目标(如 k-means)的最优解,且这些解本身也是层次化的,从而从一棵树中解锁大量等价有意义的层次结构。

Uncertainty Estimation by Flexible Evidential Deep Learning

提出 \(\mathcal{F}\)-EDL,通过将 EDL 中的 Dirichlet 分布推广为 Flexible Dirichlet (FD) 分布来建模类别概率分布,从而在保持单次前向传播效率的同时,显著增强不确定性估计在噪声、长尾、分布偏移等复杂场景下的泛化能力。

Uncertainty Quantification for Reduced-Order Surrogate Models Applied to Cloud Microphysics

提出首个面向潜空间降阶模型的后验、模型无关不确定性量化框架,利用共形预测分别对重建、潜在动力学和端到端预测构建分布无关的预测区间,揭示了云微物理ROM中不确定性的组件级传播规律——自编码器结构性误差而非动力学误差主导端到端预测不确定性。

UniFormer: Unified and Efficient Transformer for Reasoning Across General and Custom Computing

提出 UniFormer,一种面向 GPU 和 FPGA 跨平台部署的统一高效 Transformer 架构,通过双分支注意力机制(全局线性注意力 + 局部块注意力)实现了高并行性和计算存储融合。

Variational Regularized Unbalanced Optimal Transport: Single Network, Least Action

提出 Var-RUOT,通过将正则化非平衡最优传输(RUOT)问题的最优性必要条件融入参数化和损失设计,仅需学习单个标量场即可求解 RUOT,获得更低作用量的解并提升训练稳定性;同时分析了增长惩罚函数对生物先验的影响。

笔记4:WebThinker - 赋予推理模型深度研究能力

WebThinker赋予大型推理模型(LRM)自主的网络搜索与导航能力,通过Think-Search-Draft策略实现推理、信息采集与报告生成的无缝交织,经RL优化后在复杂推理与科学报告生成任务上超越o1与Gemini。

Weight Weaving: Parameter Pooling for Data-Free Model Merging

本文提出Weight Weaving,一种即插即用的无数据模型合并增强方法,通过在缩放因子搜索空间上对模型参数进行池化操作(如平均、随机选择),消除了对评估数据的依赖,在多任务学习、持续学习和域泛化三个场景中平均准确率最高提升15.9个百分点。

Zebra: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding

提出 Zebra,首个零样本脑视觉解码框架,通过对抗训练与残差分解将 fMRI 表征解耦为主体不变和语义特定成分,无需对新被试做微调即可实现跨被试的视觉重建泛化。