📂 其他¶
🔬 ICLR2026 · 115 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (105) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121) · 📹 ICCV2025 (33)
🔥 高频主题: 对抗鲁棒 ×11 · 对齐/RLHF ×6 · 联邦学习 ×4 · 持续学习 ×4 · 域适应 ×4
- A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks
-
把生物神经元里"随活动变化的膜电导"重新引入 LIF 模型,构造出一个会自适应门控信息流的脉冲神经元 DGN,理论上证明它对噪声有更强的抑制能力,实验上在语音/神经形态时序任务上又准又抗噪。
- A Federated Generalized Expectation-Maximization Algorithm for Mixture Models with an Unknown Number of Components
-
提出 FedGEM 算法,通过客户端本地 EM 步后构建不确定性集、服务器利用不确定性集交集检测聚类重叠并推断全局聚类数,首次实现在全局聚类数未知情况下的联邦聚类,并提供了概率收敛保证。
- A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization
-
为线性多元 Hawkes 过程在 RKHS 框架下的触发核估计建立了新型表示定理,证明最优估计器可用等价核在数据点上的线性组合表示且对偶系数全部解析地等于 1,无需求解对偶优化问题,从而实现高效可扩展的非参数估计。
- A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction
-
将 CopulaGNN 从节点级扩展到边级,通过将相关矩阵构造为边嵌入的 Gramian 矩阵并利用 Woodbury 恒等式重构条件概率分布,实现了在签名图上对边间统计依赖的可扩展建模,用于链接符号预测任务。
- A Single Architecture for Representing Invariance Under Any Space Group
-
设计了一种可自适应任意空间群不变性的单一架构 (Crystal Fourier Transformer),通过解析推导群操作对傅里叶系数的约束来构造对称适配的傅里叶基,用约束的对偶图表示实现了跨 230 个空间群的参数共享和零样本泛化。
- A Study on PAVE Specification for Learnware
-
针对"学件 = 模型 + 规约"范式中如何在不接触训练数据的前提下从海量模型里挑出对用户任务有用的模型,本文系统研究了参数向量规约(PAVE)——用微调引起的参数变化同时编码模型能力与任务需求,证明它与经典 RKME 规约在 NTK 视角下同源,并用 LoRA 式低秩近似把存储/计算压到原模型参数的 1% 以下,识别出的学件在小样本场景甚至能超过用户自己微调的预训练模型。
- Accelerated Parallel Tempering via Neural Transports
-
把并行回火(Parallel Tempering, PT)里那个"直接对换两条链当前状态"的死板交换动作,换成"先用神经传输(归一化流 / 受控扩散 / 扩散模型)把两个状态各自往中间推几步、再做 Metropolis 接受判定",从而在相邻退火分布几乎不重叠时也能高概率交换,在保持 MCMC 渐近无偏的前提下大幅提升参考分布到目标分布的往返次数(round trip),并顺带得到低方差的自由能估计。
- Active Learning for Decision Trees with Provable Guarantees
-
为决策树主动学习提供首个理论保证:(1) 首次分析决策树的不一致系数(disagreement coefficient)并给出 \(O(\ln^{OPT}(n))\) 上界;(2) 提出首个达到乘法误差 \((1+\epsilon)\) 保证的二分类主动学习算法;结合两者实现数据集大小的多对数标签复杂度。
- Adaptive Canonicalization with Application to Invariant Anisotropic Geometric Networks
-
这篇论文提出自适应规范化(adaptive canonicalization):不再只由输入决定标准姿态,而是让输入和当前任务网络共同选择最有信心的变换,从而在保持对称性不变性的同时缓解传统规范化的不连续问题,并在谱图网络、分子/蛋白图分类和旋转点云分类上取得优于等变架构、数据增强和固定规范化的结果。
- Adaptive Conformal Guidance for Learning under Uncertainty
-
把分割共形预测(split CP)直接嵌进训练循环,用"预测集大小"量化引导信号(teacher 软标签 / 伪标签 / 专家策略)的不确定性,再据此自适应调低不可靠引导的权重——一套框架同时覆盖监督、半监督、模仿引导 RL 三类带引导的学习场景。
- Aligning Collaborative View Recovery and Tensorial Subspace Learning via Latent Representation for Incomplete Multi-View Clustering
-
ARSL-IMVC 用一个共享潜在表示 \(H\) 作"桥梁",把缺失视图恢复(CVR)和张量子空间学习(TSL)显式对齐到同一框架里互相促进,从而在视图大量缺失的场景下做出更鲁棒的多视图聚类。
- An Information-Theoretic Framework For Optimizing Experimental Design To Distinguish Probabilistic Neural Codes
-
提出 information gap 这一信息论度量,通过推导在似然编码和后验编码假说下解码器交叉熵性能差异的解析表达式(本质是真实后验与任务边际化代理后验之间的 KL 散度),定量评估给定实验设计区分两种概率神经编码假说的能力,并通过最大化该度量来优化刺激先验分布,实现理论驱动的最优实验设计。
- Any-Subgroup Equivariant Networks via Symmetry Breaking
-
本文提出 ASEN(Any-Subgroup Equivariant Network),用一个对大群等变的基座网络 + 一个"自对称群恰好等于目标子群"的破缺输入,让单个网络通过切换辅助输入就能等变到任意置换子群,并用 2-闭包给出高效近似算法,在图、图像的对称选择以及序列多任务/迁移学习上同时超过分立的等变模型和单个非等变模型。
- AnyUp: Universal Feature Upsampling
-
AnyUp 提出首个编码器无关的可学习特征上采样方法,通过 feature-agnostic 卷积层和窗口注意力机制,仅训练一次即可对任意视觉特征在任意分辨率间进行高质量上采样,在语义分割、深度估计等任务上达到 SOTA。
- Articulation in Motion: Prior-Free Part Mobility Analysis for Articulated Objects
-
提出AiM(Articulation in Motion)框架,从交互视频和初始状态扫描中无需部件数量先验地重建铰接物体——通过双高斯表征(静态GS + 可变形GS)实现动静解耦,结合顺序RANSAC进行无先验部件分割和关节估计,辅以SDMD模块处理新暴露的静态区域,在复杂6部件物体(Storage)上以79.34% mean IoU大幅超越需先验的ArtGS(52.23%)。
- Assembling the Mind's Mosaic: Towards EEG Semantic Intent Decoding
-
本文提出语义意图解码框架 SID,把"脑信号→语言"重新定义为先把 EEG/SEEG 解码成一组无序的语义单元、再在连续语义空间里检索、最后用 LLM 重建成句子,并给出具体实现 BrainMosaic,在多语种 EEG 与临床 SEEG 数据上的概念级与句子级指标都大幅超过分类式和端到端生成式基线。
- AtC: Aggregate-then-Calibrate for Human-centered Assessment
-
AtC 提出"先聚合、再校准"两阶段框架:先用考虑标注者可靠性的异质 Thurstone 模型把人的成对比较聚成一个共识排序,再把任意预测模型的打分通过等渗投影对齐到这个排序上,从而在没有可验证真值时同时拿到"人给的可靠次序"和"模型给的一致量纲"。
- Bayesian Influence Functions for Hessian-Free Data Attribution
-
提出 Local Bayesian Influence Function (BIF),用 SGLD 采样估计的协方差替代经典影响函数中不可行的 Hessian 逆运算,实现了对数十亿参数模型的无架构限制数据归因,在重训练实验中达到 SOTA。
- Bayesian Post Training Enhancement of Regression Models with Calibrated Rankings
-
RANKREFINE++ 把"回归器预测"与"专家成对排序"通过贝叶斯推断融合成一个严格对数凹的后验,并用温度校准 + 准确率门控解决 Bradley-Terry 在大参考集下的尺度失配与曲率支配问题,在不重训回归器的前提下显著提升预测精度。
- Beyond Linear Processing: Dendritic Bilinear Integration in Spiking Neural Networks
-
这篇论文给脉冲神经网络里最常用的 LIF 神经元加了一项符合生物实验的"双线性树突整合"——除了把突触输入线性相加,还额外算上两两输入之间的交互项 \(s^T K s\),让单个神经元就能完成 XOR 这类非线性计算;理论上证明它能利用输入的相关性结构、并在层间传播这种结构,实验上在 ResNet/VGG/Transformer 三类架构、静态与神经形态数据集上都稳定超过 LIF 及一众改进神经元,平均精度从 83.95% 提到 85.18%,能耗只多约 3%。
- Beyond Uniformity: Regularizing Implicit Neural Representations through a Lipschitz Lens
-
把 INR 的 Lipschitz 正则化从"刚性的统一 1-Lipschitz 约束"重构为"可估计、可非均匀分配的 Lipschitz 预算"框架,用任务先验导出全局预算 \(K\) 并按层智能分配,从而在平滑性与表达力之间取得更好平衡。
- Breaking Gradient Temporal Collinearity for Robust Spiking Neural Networks
-
针对直接编码(direct encoding)脉冲神经网络(SNN)鲁棒性差的问题,本文提出"梯度时间共线性"(GTC)这一可量化指标解释了它为什么不如速率编码(rate encoding)耐攻击,并设计 STOD——在输入层为每个时间步插入参数化正交核 + 全局正交正则,从结构上打散跨时间步的梯度方向,使 CIFAR/ImageNet/DVS 上 FGSM、PGD 等攻击下的精度大幅领先现有 SOTA,且推理几乎零额外开销。
- Buckingham \(\pi\)-Invariant Test-Time Projection for Robust PDE Surrogate Modeling
-
利用 Buckingham π 定理把"不同单位/尺度造成的 OOD 偏移"识别为物理等价的尺度变换,提出一种免训练、模型无关的测试时投影:在 log 空间内沿保 π 等价类把测试样本平移到最近的训练等价类,使 FNO/U-Net 等代理模型在极端 OOD 下 MAE 最多降低约 91%。
- Building Spatial World Models from Sparse Transitional Episodic Memories
-
提出 Episodic Spatial World Model (ESWM),从稀疏、不连续的情景记忆(one-step transitions)中构建空间世界模型,其潜空间自发涌现出与环境拓扑对齐的认知地图,并支持零样本探索和导航。
- Change Point Localization and Inference in Dynamic Multilayer Networks
-
针对"共享节点隐位置、各层连接权重随时间突变"的动态多层随机点积图(D-MRDPG),本文提出"种子二分分割 + 低秩张量精修"的两阶段离线变点定位算法,首次给出变点个数与位置的一致性保证、精修估计量的极限分布,并配套数据驱动的置信区间构造。
- Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings
-
从物理系统角度分析 Instant-NGP 的多分辨率哈希编码(MHE),推导出其点扩展函数(PSF)的闭式近似,发现有效分辨率由平均分辨率 \(N_{\text{avg}}\) 而非最细分辨率 \(N_{\max}\) 决定,且存在网格引起的各向异性,并提出零开销的 Rotated MHE(R-MHE)通过逐层旋转输入坐标消除各向异性。
- CircuitNet 3.0: A Multi-Modal Dataset with Task-Oriented Augmentation for AI-Driven Circuit Design
-
把 8,659 个验证过的开源 RTL 设计,通过 Verilog 语法树变异 + 面向任务的筛选扩增成 15,863 个跨阶段(RTL/网表/版图)多模态实例,构成首个大规模公开的 AI4EDA 时序/功耗预测基准 CircuitNet 3.0。
- Consistency-Driven Calibration and Matching for Few-Shot Class Incremental Learning
-
ConCM 把少样本类增量学习的核心困境重新拆成"特征—结构双重一致性"问题:先用受海马联想记忆启发的记忆感知原型校准修正少样本原型的偏移,再用动态结构匹配在每个增量会话里求解一个同时满足几何最优与最大匹配的可演化嵌入结构,从而在 mini-ImageNet / CIFAR100 / CUB200 上把增量会话的调和均值刷到 SOTA。
- Consistent Low-Rank Approximation
-
提出并系统研究"一致低秩近似"问题——在流数据中逐行到达的矩阵上维护近最优 rank-\(k\) 近似的同时最小化解的总变化量(recourse),证明加性误差下 \(O(k/\varepsilon \cdot \log(nd))\) recourse 可行,乘性 \((1+\varepsilon)\) 误差下 \(k^{3/2}/\varepsilon^2 \cdot \text{polylog}\) recourse 可行,并给出 \(\Omega(k/\varepsilon \cdot \log(n/k))\) 的下界。
- Deploying Models to Non-participating Clients in Federated Learning without Fine-tuning: A Hypernetwork-based Approach
-
HyperFedZero 用一个以"分布嵌入"为条件的超网络,在联邦学习里直接为没参与训练、且数据分布有域内偏移的新客户端动态生成分类器参数,从而在零微调、几乎零额外开销的前提下完成个性化部署,在 7 个数据集、5 个模型上稳定超过现有方法。
- Deterministic Bounds and Random Estimates of Metric Tensors on Neuromanifolds
-
本文通过分析低维概率分布核空间的Fisher信息矩阵(FIM)谱性质,为神经网络参数空间(神经流形)上的度量张量建立了确定性上下界,并基于Hutchinson迹估计器引入了一族有界方差的无偏随机估计方法,仅需单次反向传播即可高效计算。
- Discount Model Search for Quality Diversity Optimization in High-Dimensional Measure Spaces
-
提出 Discount Model Search (DMS),用神经网络拟合连续平滑的 discount 函数替代 CMA-MAE 中基于直方图的离散表示,解决高维 measure space 下 distortion 导致搜索停滞的问题,并首次实现以图像数据集直接定义 measure space(QDDM 范式)。
- Distributed Algorithms for Euclidean Clustering
-
在分布式环境下为 Euclidean \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-coreset,在 coordinator 模型和 blackboard 模型中均达到通信复杂度的最优下界(至多差 polylog 因子)。
- Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation
-
提出一种分布鲁棒学习框架,通过联合建模目标域协变量分布和条件标签分布的不确定性,在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。
- DA-AC: Distributions as Actions — A Unified RL Framework for Diverse Action Spaces
-
DA-AC 提出将动作分布的参数(如 softmax 概率或 Gaussian 均值/方差)作为 Agent 的"动作"输出,将动作采样过程移入环境,从而用统一的确定性策略梯度框架处理离散/连续/混合动作空间,理论证明方差严格低于 LR 和 RP 估计器,并在 40+ 环境上取得 competitive 或 SOTA 性能。
- Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity
-
实证表明无需参数置换,仅靠增加模型宽度即可实现独立训练模型间的线性模式连通性(LMC),并提出"逐层指数加权连通性"(LEWC)解释这一现象的机理。
- Energy-Efficient Random Variate Generation via Compressed Lookup Tables
-
本文提出 cLUT(compressed lookup table)方法:用一种对查找表做无损压缩的「几何频率」方案,把朴素查找表压成「高而窄」的二维数组,再配一个只需若干随机比特、单次内存查表的采样步骤,实现对任意有限离散分布的精确采样,速度比主流 Python 采样器快 10–100×,比 SOTA 的 C 实现省 25–50% 能耗。
- Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning
-
ETAP 将白盒梯度亲和度分析与数据驱动集成预测结合,用极少量训练组就能准确预测多任务学习的性能增益,从而高效地把任务划分成最优分组。
- Evaluating GFlowNet from Partial Episodes for Stable and Flexible Policy-Based Training
-
建立GFlowNet中状态流函数与策略评价函数之间的理论联系,提出子轨迹评价平衡(Sub-EB)目标用于可靠学习评价函数,增强策略基GFlowNet训练的稳定性和灵活性。
- Exploring State-Space Models for Data-Specific Neural Representations
-
本文首次把状态空间模型(SSM)引入"数据特定神经表示"(把单个图像/视频/3D 实例过拟合进一个紧凑网络),从理论上证明 SSM 的隐状态本质上编码了输入信号本身,并提出结构化状态空间核 S3K,把 SSM 蒸馏成卷积核以支持多维输入与下采样,在图像、视频、3D 重建上全面超越现有方法。
- Exposing Mixture and Annotating Confusion for Active Universal Test-Time Adaptation
-
本文提出主动通用测试时自适应(AUTTA)新范式,并用 EMAC 方法在测试阶段引入少量人工标注:先用 SVD 解耦 + GMM 暴露同时存在域偏移和类偏移的"混淆区"样本,再用奖励驱动策略挑选最值得标注的代表样本,最后用聚类对比损失平衡标注与伪标签,在双重偏移下取得 SOTA。
- Fast and Stable Riemannian Metrics on SPD Manifolds via Cholesky Product Geometry
-
揭示Cholesky流形上的简单乘积结构,基于此提出两种快速且数值稳定的SPD度量(PCM和BWCM),所有黎曼算子均有闭式表达式,在SPD深度学习中实现效果、效率和稳定性的三重提升。
- Federated ADMM from Bayesian Duality
-
从变分贝叶斯(VB)视角推导出ADMM的贝叶斯对偶结构,证明经典ADMM是VB在各向同性高斯族上的特例,并导出Newton-like(二次目标一轮收敛)和Adam-like(深度异构场景+7%准确率)两个新扩展。
- Forget Forgetting: Continual Learning in a World of Abundant Memory
-
当存储便宜、GPU 才是瓶颈时,持续学习的真正难点从"防遗忘"翻转成"保可塑性";本文用一个轻量的权重空间方法(排序式参数重置 + 训练中权重平均)以接近朴素 Replay 的成本同时拿回稳定性与可塑性。
- Fractional-Order Spiking Neural Network
-
把脉冲神经元膜电位演化背后的一阶 ODE 换成 Caputo 分数阶 ODE,让神经元天然带上幂律衰减的"长记忆",从而严格泛化经典 IF/LIF(令 α=1 即退化回原模型),在神经形态视觉与图学习上同时拿到更高精度和更强抗噪鲁棒性。
- From atom to space:面向材料空间性质的区域化读出函数 SpatialRead
-
针对气体吸附等"按空间区域而非按原子分解"的材料性质,本文提出 SpatialRead:在体素化空间里插入"空间节点"、把原子图改造成原子—空间异质图,并用多模态注意力自适应融合原子与空间两种归纳偏置,使从零训练的小模型在这些任务上超越在 1.2 亿样本上预训练的基础模型。
- From Fields to Random Trees
-
本文提出 SPT 方法:通过从马尔可夫随机场(MRF)的底图上均匀采样随机生成树来打断环路,把原本 NP-hard 的 MAP 推断分解为一系列可精确求解的树上子问题,再用有效电阻校正边权后合并,在稀疏且局部连接的图上显著优于 LBP / TRBP。
- From Movement to Cognitive Maps: RNNs Reveal How Locomotor Development Shapes Hippocampal Spatial Coding
-
结合幼鼠运动发育的聚类分析和浅层 RNN 预测学习模型,首次计算性地证明运动统计特征的发育变化(爬行→行走→奔跑→成年)驱动了海马空间调谐神经元(位置细胞、方向细胞、联合编码细胞)的序贯涌现,定量复现大鼠海马记录数据的发育时间线,并预测了联合位置-方向编码细胞在发育中逐渐增多这一现象且在实验数据中得到验证。
- Frozen Priors, Fluid Forecasts: Prequential Uncertainty for Low-Data Deployment with Pretrained Generative Models
-
针对"只有几十个真实样本就要上线"的低数据部署场景,本文提出一套"预测优先(forecast-first)"的不确定性量化框架:用一个唯一的 Dirichlet 混合时间表把经验分布和冻结的预训练生成模型融合成时间一致(鞅)的预测流,再用鞅后验重采样给出运营指标长期值的校准区间——无需重训、无需算密度,在 GPT-2 / CIFAR-10 / SVHN 上 20 个样本即可达到约 90% 覆盖率(bootstrap 仅 37%)。
- GoR: A Unified and Extensible Generative Framework for Ordinal Regression
-
把序数回归(预测有内在顺序的目标值,如年龄、美学评分、观看时长)从"连续空间离散化成固定 bin 再分类"重构成"自回归生成一串有序 token、累加得到预测值并由动态 ⟨EOS⟩ 决定何时停",并用偏差-方差分解推出误差界与 CoDi 词表构建准则,在 5 大领域 15 个基准上一致超过 SOTA。
- Harpoon: Generalised Manifold Guidance for Conditional Tabular Diffusion
-
将流形理论从图像扩展到表格数据扩散模型,证明任意可微推理时损失的梯度都位于数据流形切线空间中(不限于平方误差损失),据此提出Harpoon方法在推理时沿流形引导无条件样本满足多样化表格约束。
- Hilbert-Guided Sparse Local Attention
-
利用Hilbert空间填充曲线将2D图像token重排为保持空间邻近性的1D序列,大幅提升局部注意力的块稀疏率(空块比例从87.5%到96.9%),结合FlexAttention实现窗口注意力4倍和滑动注意力18倍加速,精度损失极小。
- Hippoformer: Integrating Hippocampus-inspired Spatial Memory with Transformers
-
本文用一个「元 MLP 快权重」关系记忆替换 TEM 里昂贵的张量积 Hebbian 记忆,得到训练高效、自发涌现网格细胞、能泛化到长序列的结构化空间记忆 mm-TEM,再把它与单层 Transformer 并联组成 Hippoformer,用结构化长程记忆补 Transformer 的精确短程记忆,在 2D/3D 预测任务上获得更强的长程泛化。
- HippoTune: A Hippocampal Associative Loop–Inspired Fine-Tuning Method for Continual Learning
-
HippoTune 把"提示池单步检索"升级为模仿海马 EC–DG–CA3–CA1 环路的层内迭代式潜空间检索循环,用几轮"查询—检索—反馈"深度激活旧任务记忆,在仅约一半 FLOPs 下把 buffer-free PEFT-CL 的精度提升 5–8%。
- Homeostatic Adaptation of Optimal Population Codes under Metabolic Stress
-
本文给经典的"最优群体编码"理论补上了两个被忽视的生物学约束——放电率稳态与直连 ATP 的能量预算,从而第一个在数学上正确预测出小鼠视皮层在代谢压力下"调谐曲线变平"的现象,并把前人互相矛盾的两类模型统一为自己的特例。
- How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation
-
本文用实证方法揭穿了"源无关可迁移性估计(SITE)"领域所依赖的标准基准的三大根本缺陷——不真实的模型空间、被静态排序就能刷爆的榜单、以及与真实精度差无关的分数刻度——并证明一个完全不看数据的静态启发式排序就能碾压所有精巧的 SITE 指标,进而给出构建更真实基准的最佳实践与一套新基准。
- Identity-Free Deferral For Unseen Experts
-
本文指出现有「学习拒识」(Learning to Defer) 方法因为在固定坐标里处理按类索引的信号、学到了「认身份」的捷径,从而在面对训练时没见过、且能力分布偏移 (OOD) 的专家时崩掉;作者提出 Identity-Free Deferral (IFD),用「角色索引」的低维状态从架构上强制置换不变性,再配一个无需查询时专家标注的不确定性感知训练目标,在医学影像与 ImageNet-16H 真人标注上对未见专家、尤其 OOD 专家显著更稳。
- Improving Set Function Approximation with Quasi-Arithmetic Neural Networks
-
提出QUANN(准算术神经网络),用可逆神经网络实现可学习的Kolmogorov均值作为池化操作,首次实现机器学习版本的广义中心趋势度量,QUANN是均值可分解集合函数的通用近似器,且学到的嵌入跨任务迁移性更强。
- Internal Evaluation of Density-Based Clusterings with Noise
-
这篇论文提出 DISCO,一个面向带噪声密度聚类结果的内部评价指标,用 density-connectivity 替代欧氏紧致性来评价任意形状簇,并显式判断噪声标签是“真噪声”还是“该进簇却被丢掉的点”。
- It's All Just Vectorization: einx, a Universal Notation for Tensor Operations
-
本文把"向量化"提升为统一的元概念,指出几乎所有 Numpy 风格的张量运算都可拆解为"少数几个基础运算 + 它们各自的向量化",并据此设计了一套以循环记号为类比的声明式、带括号的通用张量记号 einx,把庞杂且规则不一致的张量 API 压缩为一小撮基础运算。
- Latent Fourier Transform
-
提出 LatentFT 框架,在扩散自编码器的潜在时间序列表征上应用离散傅里叶变换按时间尺度分离音乐模式,训练时使用随机相关对数频率掩码让解码器学习从部分频谱重建,推理时用户通过指定频率掩码选择性保留/混合不同时间尺度的音乐元素,在条件生成和音乐融合任务上全面超越 ILVR/Guidance/Codec Filtering/RAVE 等基线,29 名音乐家听力测试统计显著确认其音质和融合能力优越。
- LPWM: Latent Particle World Models for Object-Centric Stochastic Dynamics
-
LPWM 是首个能扩展到真实世界多物体数据集的自监督物体中心世界模型,核心创新是为每个粒子学习独立的潜在动作分布(per-particle latent actions),通过因果时空 Transformer 并行编码所有帧,支持动作/语言/图像目标/多视角等多种条件生成,在视频预测上达到 SOTA 并展示了模仿学习能力(OGBench task3 成功率 89%)。
- Layerwise Federated Learning for Heterogeneous Quantum Clients using Quorus
-
针对不同客户端只能跑不同电路深度的量子联邦学习场景,Quorus 用分层损失 + 反向蒸馏让深浅不一的量子模型协同训练,并设计了四种 shot/qubit/中路测量/Hilbert 空间各有取舍的量子分类器,平均比 SOTA 提升 12.4% 测试精度。
- Learning Adaptive Distribution Alignment with Neural Characteristic Function for Graph Domain Adaptation
-
提出ADAlign框架,利用神经特征函数在谱域自适应对齐源/目标图分布——无需手动选择对齐标准,自动识别每个迁移场景中最显著的分布差异。在10个数据集16个迁移任务上达SOTA,同时降低内存和训练时间。
- Learning Distributions over Permutations and Rankings with Factorized Representations
-
把排列换成与对称群一一对应的「因子化表示」(Lehmer 码 / Fisher-Yates 抽签 / 插入向量),就能用普通的掩码语言建模或自回归交叉熵训练出能表达任意排列分布、且采样时永远产生合法排列的模型,并可在不重训的前提下用前向次数换取表达力。
- Learning in Prophet Inequalities with Noisy Observations
-
在分布未知、且每步只能看到带噪声观测的「特征线性奖励」prophet 不等式里,作者用"边学边停"的 LCB 阈值策略,无需任何离线样本就在 i.i.d. 情形拿到最优竞争比 \(1-1/e\)、在非同分布情形拿到 \(1/2\)。
- Learning on a Razor's Edge: Identifiability and Singularity of Polynomial Neural Networks
-
本文利用代数几何工具,对多项式激活的 MLP 和 CNN 进行了系统性分析:证明了 MLP 的有限可辨识性和 CNN 的唯一可辨识性,揭示了稀疏子网络对应神经流形的奇异点,并从"临界暴露性"角度给出了 MLP 稀疏偏差的几何解释——而 CNN 不具备这种偏差。
- Learning Structure-Semantic Evolution Trajectories for Graph Domain Adaptation
-
提出DiffGDA——首个将扩散模型引入图域适应(GDA)的方法,用随机微分方程(SDE)建模源图到目标图的连续时间结构-语义联合演化过程,配合基于密度比的域感知引导网络驾驶扩散轨迹朝向目标域,理论证明收敛到最优适应路径,在8个真实数据集14个迁移任务上全面超越SOTA。
- Learning Survival Distributions with Individually Calibrated Asymmetric Laplace Distribution
-
本文提出 ICALD,把分位数回归的 pinball loss 重新解读为非对称拉普拉斯分布(ALD)的负对数似然,从而在一个参数化框架里同时吃下参数法的平滑性与非参数法的灵活性,并在理论上证明所得生存模型「大概率近似个体校准」(PAIC),在精度、一致性、尤其是细粒度校准三方面同时打过 12 个基线。
- MaRS: Memory-Adaptive Routing for Reliable Capacity Expansion and Knowledge Retention
-
MARS 在冻结大模型骨干上挂一个槽位记忆路由器,用统计假设检验决定"何时扩容"(SGSE),用对比+蒸馏两阶段决定"如何融合"(DCDA),在不回放原始数据的前提下兼顾可塑性与稳定性,且扩容与遗忘都有形式化保证。
- Measuring Uncertainty Calibration
-
针对二分类器 \(L_1\) 校准误差的有限样本估计问题,分别在有界变差和有界导数两种结构假设下,提出了首个非渐近、分布无关的可认证上界方法,其中有界导数假设通过对分类器输出施加微小扰动即可保证,实验表明在 \(10^7\) 样本量下可将校准误差上界控制在约 0.02。
- Mitigating Spurious Correlation via Distributionally Robust Learning with Hierarchical Ambiguity Sets
-
提出层次化DRO框架,同时捕获组间(group proportion shifts)和组内(intra-group distributional shifts)不确定性。使用W_∞距离在语义空间定义组内模糊集,在标准基准上达SOTA,且在新设计的少数群体分布偏移设置下——其他方法均失败时——仍保持强鲁棒性。
- Mixed-Curvature Tree-Sliced Wasserstein Distance
-
把 Tree-Sliced Wasserstein 框架搬到由欧氏/球面/双曲分量做笛卡尔积的混合曲率空间上,用「跨子空间生长的测地线树」作为投影域,得到一个既保留几何与拓扑结构、又有闭式解、可并行的分布距离 MCTSW。
- Neural Dynamics Self-Attention for Spiking Transformers
-
本文从「局部建模能力缺失」和「注意力矩阵存储开销大」两个角度剖析了脉冲自注意力(SSA)的瓶颈,提出 LRF-Dyn:先用局部感受野把局部偏置塞回 SSA 拉高精度,再借「充电-发放-复位」神经元动力学把注意力计算重写成只需存膜电位的递推形式,从而在显著降低推理显存的同时把脉冲 Transformer 的精度逼近 ANN。
- Neural Force Field: Few-shot Learning of Generalized Physical Reasoning
-
提出Neural Force Field(NFF),将物体交互建模为连续力场,通过神经算子学习力场函数并用ODE积分器解码轨迹,在I-PHYRE(100条轨迹)、N-body(200条轨迹)、PHYRE(0.012M数据,比SOTA少267倍)三个基准上实现少样本SOTA,跨场景RMSE降低32-64%,规划任务接近人类水平。
- Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization
-
首次形式化了 Noise-Aware Generalization (NAG) 问题——在标签噪声下同时追求域内鲁棒性和域外泛化能力,并提出 DL4ND 方法通过跨域比较检测噪声标签,在 7 个数据集上最高提升 12.5%。
- Noisy-Pair Robust Representation Alignment for Positive-Unlabeled Learning
-
提出 NcPU 非对比 PU 学习框架,通过对标准非对比损失做 sqrt 变换(NoiSNCL)让 clean pair 梯度主导训练、用 PhantomGate 提供保守负监督并支持 regret 回退,两个模块在 EM 框架下迭代互利;在不依赖辅助负样本或预估类先验的前提下,CIFAR-100 上与监督学习差距从 14.26% 缩至 <1.4%,xBD 灾损评估上同样达到 SOTA。
- Non-Clashing Teaching in Graphs: Algorithms, Complexity, and Bounds
-
研究图中闭邻域概念类的非冲突教学问题,提供精确匹配的算法上下界(N-NCTD⁺ 的 \(2^{\mathcal{O}(|E|)}\) 紧界)、对 treedepth/vertex cover 参数化的 FPT 算法(含首个负面标签 FPT 结果),以及平面图和单位正方形图的组合上界,全面推进了非冲突教学的计算与组合理解。
- On the Impact of the Utility in Semivalue-based Data Valuation
-
本文通过引入"空间签名"(spatial signature)的几何表示,将数据估值中的 utility 选择问题统一建模为单位圆上的方向旋转问题,并提出了一个量化鲁棒性的指标 \(R_p\),揭示了 Banzhaf 值在不同 utility 下表现出最高的排序稳定性。
- On the Lipschitz Continuity of Set Aggregation Functions and Neural Networks for Sets
-
系统研究了三种常用集合聚合函数(sum、mean、max)及注意力机制在三种多重集距离函数下的 Lipschitz 连续性,并推导了集合神经网络的 Lipschitz 常数上界,进而分析了模型的扰动稳定性和分布偏移下的泛化性能。
- Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks
-
本文提出 OPZO(在线伪零阶训练),只用一次带噪声注入的前向传播 + 自顶向下的直接反馈,就能在脉冲神经网络中完成空间信用分配,避开了空间反向传播的权重对称与前后向分阶段问题,又通过"伪零阶"与动量反馈连接压住了零阶方法的巨大方差,最终在神经形态与静态数据集上逼近空间 BP 的精度,且估计的片上训练开销更低。
- OSIRIS: Bridging Analog Circuit Design and Machine Learning with Scalable Dataset Generation
-
OSIRIS 是一个面向模拟集成电路后端版图的可扩展数据集生成流水线,它通过系统性地枚举晶体管 finger 排列与组件位置扰动,自动产出大量 DRC 干净、LVS 验证通过且带寄生感知性能标注的版图,并公开了 87,100 个版图变体的数据集,同时给出一个基于强化学习的版图优化基线。
- Out of the Shadows: Exploring a Latent Space for Neural Network Verification
-
将 zonotope 视为高维超立方体的"投影(影子)",发现输入集和输出包围体共享同一潜空间,据此提出规范驱动的输入细化方法,将输出端的不安全约束反向传递到输入空间来剪枝,使分支定界子问题数减少 60-65%,且所有运算均为矩阵操作从而实现高效 GPU 加速,在 VNN-COMP'24 八个基准上与 α-β-CROWN 等顶级工具取得可比性能。
- Oversmoothing, Oversquashing, Heterophily, Long-Range, and More: Demystifying Common Beliefs in Graph Machine Learning
-
本文系统梳理了图机器学习领域围绕 oversmoothing、oversquashing、同质/异质性和长程依赖的九个常见误区,通过简洁反例逐一反驳,将"oversquashing"拆分为计算瓶颈和拓扑瓶颈两个独立概念,厘清了领域中广泛存在的概念混淆。
- P3D: Highly Scalable 3D Neural Surrogates for Physics Simulations with Global Context
-
P3D 用卷积-Transformer 混合骨干、crop 预训练和可选的全局上下文网络,把 3D PDE 与湍流仿真的神经代理模型扩展到 \(512^3\) 级别,并在确定性预测和概率生成两类任务上同时取得更好的精度、速度和显存效率。
- Permutation-Consistent Variational Encoding for Incomplete Multi-View Multi-Label Classification
-
针对视图与标签"双缺失"的多视图多标签分类(iM3C),本文提出 PCVE 框架——在信息瓶颈目标下用跨视图变分编码器学习每个视图的共享语义分布,再用一种"置换一致性"正则把不同视图编码出来的同一目标语义对齐,从而在 50% 视图、50% 标签缺失下稳定超越 9 个强基线。
- PlanetAlign: A Comprehensive Python Library for Benchmarking Network Alignment
-
提出 PlanetAlign,一个集成 18 个跨 6 个领域的数据集、14 种覆盖三大类别(一致性、嵌入、最优传输)方法和标准化评估流程的 PyTorch 网络对齐基准库,通过大规模系统实验揭示了 OT 类方法(PARROT/JOENA)在有效性上的全面领先以及各类方法在可扩展性和鲁棒性上的差异化表现。
- Predicting Kernel Regression Learning Curves from Only Raw Data Statistics
-
提出 Hermite 特征结构假设(HEA),仅用数据协方差矩阵和目标函数的 Hermite 分解两个统计量,就能解析预测旋转不变核在真实图像数据集(CIFAR-5m、SVHN、ImageNet)上的学习曲线(测试误差 vs 样本量),并证明该假设在高斯数据下成立,且 MLP 在特征学习 regime 下也按 HEA 预测的顺序学习 Hermite 多项式。
- Prior-Free Tabular Test-Time Adaptation
-
PFT3A 针对表格数据的测试时自适应,在既不能访问源数据、也不知道任何源域先验的严苛设定下,用三个模块(类先验估计、鲁棒特征学习、代表性子空间探索)同时缓解标签偏移和特征偏移,在 5 个 TableShift 数据集、3 种 backbone 上稳定超过现有 SOTA。
- PriorGuide: Test-Time Prior Adaptation for Simulation-Based Inference
-
PriorGuide 让一个已经训练好的扩散式摊销仿真推断模型,在测试时不重训的前提下换用新的先验分布——它把"换先验"转化为一个加到扩散得分上的引导项,并用高斯混合近似让引导项有闭式解,从而灵活注入专家知识或做先验敏感性分析。
- Probabilistic Kernel Function for Fast Angle Testing
-
本文研究高维欧氏空间中的角度测试问题,提出两个基于参考角度的确定性概率核函数 \(K_S^1\) 和 \(K_S^2\),分别用于角度比较和角度阈值判断,无需高斯分布的渐近假设即可获得理论保证,并将其应用于近似最近邻搜索(ANNS),在 HNSW 图上实现 2.5×–3× 的 QPS 加速。
- PU-Bench:面向严谨可复现 PU 学习的统一基准
-
PU-Bench 是首个统一的开源 PU(Positive-Unlabeled,正例-无标注)学习基准,用一套可配置的数据生成器 + 统一训练流水线 + 标准化评估套件,把 18 个代表性方法在 8 个数据集、2880 次受控实验下重新跑了一遍,揭示了"没有万能赢家、简单基线 nnPU 仍然能打、效果与效率存在明显 trade-off"等一系列被以往不一致实验设置掩盖的结论。
- QUEST: A Robust Attention Formulation Using Query-Modulated Spherical Attention
-
QUEST 把标准缩放点积注意力中的 key 向量归一化到超球面、同时保留 query 的范数自由度(即 \(A=\mathrm{softmax}(Q\bar{K}^\top)\)),用一个不到一行的改动同时消除了注意力 logit 爆炸导致的训练不稳定、并让模型学到更分散、更鲁棒的注意力,在 ImageNet 分类、分割、对抗攻击等多个任务上稳定地优于标准注意力与 QKNorm。
- RADAR: Learning to Route with Asymmetry-aware Distance Representations
-
RADAR 给现有神经 VRP 求解器加了一对"非对称感知"的零件——用截断 SVD 把非对称距离矩阵分解成"出发/到达"双向节点嵌入做初始化,再把编码器注意力里的 softmax 换成行列双向归一化的 Sinkhorn——从而让原本只会处理对称欧氏距离的求解器也能在真实世界的单向街道、方向性拥堵这类非对称路网上稳定泛化,在 17 个合成 + 3 个真实 VRP 变体上一致超过 MatNet、ICAM、RRNCO 等强基线。
- Random Anchors with Low-rank Decorrelated Learning: A Minimalist Pipeline for Class-Incremental Medical Image Classification
-
针对医学影像类增量学习,本文提出 RA-LDL:用「冻结随机锚点 + 首会话低秩残差」把预训练特征校准得更可分,再用闭式岭回归构造一组「去相关」的解析分类器,全程只在第一个会话需要梯度训练,后续任务只靠递推累积的统计量更新,结构极简却在四个医学数据集上超过一众复杂 SOTA。
- Refine Now, Query Fast: A Decoupled Refinement Paradigm for Implicit Neural Fields
-
本文提出解耦表示精炼(DRR)范式,通过深度 refiner 网络在离线阶段精炼 embedding 结构并缓存结果,使推理阶段仅需快速插值和轻量解码器,在集成仿真代理建模任务上以不到 1/27 的推理成本达到 SOTA 重建精度。
- Regulating Internal Alignment Flows for Robust Learning Under Spurious Correlations
-
本文提出 Alignment-Gated Suppression(AGS):在训练过程中为每个神经元算一个「类条件、置信度加权」的对齐能量,把那些在分位数尾部、对真实类贡献最强(最可能是走捷径)的连接做乘性衰减,从而在不需要任何组标签、额外开销 < 5% 的前提下同时提升平均准确率与最差组准确率。
- Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation
-
对 SAM 的底层机制提出新的直觉解释——扰动点梯度近似局部最大值方向,并揭示其不精确性及多步退化问题,进而提出 XSAM 通过显式估计最大值方向实现更忠实更有效的锐度感知最小化。
- Robust Equation Structure Learning with Adaptive Refinement (RESTART)
-
RESTART 把科学发现的「假设—实验—分析」三段闭环完整地搬进符号回归:先用 Transformer 给出强初始方程,再用 boosting 式的"探索函数"显式建模当前方程"没解释清楚"的部分作为短期靶向反馈,并把每次成功的修正蒸馏成可复用的代码片段存进结构库做长期知识,从而在 LLM-SRBench 上以更低误差、更高恢复率超过现有 SOTA,且在 OOD 数据上能逼近真值函数形式。
- Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute
-
本文提出 Proteína-Complexa(Complexa),把蛋白质 binder(结合蛋白)设计中长期割裂的"生成式建模"和"hallucination 序列优化"两条路线统一进同一框架:先用一个从 AFDB 结构域互作里造出来的大规模合成数据集 Teddymer 预训练一个全原子流匹配生成基座,再在推理时把扩散/流模型里的 test-time scaling 算法(Best-of-N、beam search、FKS、MCTS)搬过来,用结构预测器的界面置信度当奖励去"搜"出强 binder,在归一化算力预算下大幅超过 BindCraft 等 hallucination 方法。
- Scaling Direct Feedback Learning with Jacobian Alignment Guarantees
-
针对直接反馈对齐(DFA)在深层卷积网络和 Transformer 上彻底失效的问题,本文提出 GrAPE:用前向模式 JVP 估出 rank-1 Jacobian,再用一个局部余弦对齐损失把每层的随机反馈矩阵"校正"到真实梯度方向,并周期性地插入单 batch 的真 BP 校准,从而在保持逐层并行更新的同时,首次把 DFA 类方法成功扩展到 VGG-16 / ResNet / Transformer,把和 BP 的差距收掉了一大半。
- SmellNet: A Large-scale Dataset for Real-world Smell Recognition
-
SmellNet 用低成本便携式气体传感器采集 50 种自然食材和 43 类混合气味的真实时序信号,并用结合时间差分、滑动窗口和 GC-MS 化学先验的 SCENTFORMER 建立机器嗅觉基准。
- Soft Quality-Diversity Optimization
-
提出 Soft QD Score 作为无需行为空间离散化的质量多样性优化新目标,并据此推导出可微分算法 SQUAD,在高维行为空间中具有更好的可扩展性,且在标准基准上与 SOTA 竞争力相当。
- SONIC: Spectral Oriented Neural Invariant Convolutions
-
SONIC 将状态空间模型的思想迁移到多维频域,用 6 个连续参数(幅度、方向、阻尼、振荡等)定义一组方向选择性的频谱传递函数,再通过低秩矩阵 \(B\)、\(C\) 跨通道混合,实现天然具备全局感受野和分辨率不变性的卷积替代算子,在 3D 医学分割上匹配 nnU-Net 且参数少近两个数量级,在 ImageNet 上也具有竞争力。
- Spurious Correlation-Aware Embedding Regularization for Worst-Group Robustness
-
SCER 首次给出"最差组误差 = 分类器对虚假方向的依赖 − 对核心方向的依赖"的理论分解,并据此在嵌入空间直接加一项正则——压制分类器权重与"虚假方向"的对齐、增强与"核心方向"的对齐,在 Waterbirds / CelebA / MetaShift / ColorMNIST / CivilComments / MultiNLI 六个基准上把最差组准确率刷到 SOTA。
- Stable and Scalable Deep Predictive Coding Networks with Meta-Prediction Errors
-
本文用动力学平均场理论(DMFT)诊断出深层预测编码网络(PCN)训练不稳定的两大病根——预测误差不均衡与预测误差爆炸/消失,并提出 Meta-PCN:用「误差的误差」(meta-PE)损失把非线性推理线性化、再用方差归一化把权重谱范数压到 1 附近,在 CIFAR-10/100 与 TinyImageNet 上以纯局部规则在 30 个配置里 29 个超过反向传播。
- t-SNE Exaggerates Clusters, Provably
-
从理论上严格证明 t-SNE 存在两个根本性失败模式:(1)无法从输出推断输入聚类的强度,(2)无法忠实地展示极端离群点——即使输入毫无聚类结构或存在极端离群点,t-SNE 也可能产生完美聚类的可视化。
- TabStruct: Measuring Structural Fidelity of Tabular Data
-
提出 TabStruct 评估框架和 global utility 指标,在不需要真实因果图的情况下衡量表格数据生成器对因果结构的保真度,在 29 个数据集上系统比较 13 种生成器,发现扩散模型在全局结构保持上显著优于其他方法。
- The Counting Power of Transformers
-
证明 Transformer 不仅能捕获(半)线性计数性质,还能表达所有半代数计数性质(即多元多项式不等式的布尔组合),从而推广了先前关于 Transformer 计数能力的所有结果,并由此推导出新的不可判定性结论。
- The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?
-
将AI模型错误分解为偏差(systematic misalignment)和方差(incoherent behavior),发现:推理越长→越不连贯;更大模型在困难任务上更不连贯。这暗示未来超级AI更可能表现为"工业事故"式的不可预测失败,而非一致追求错误目标。
- Towards Sustainable Investment Policies Informed by Opponent Shaping
-
形式化证明 InvestESG 模拟环境在何种条件下构成社会困境,并应用 Advantage Alignment 对抗塑形算法引导经济智能体走向可持续投资均衡。
- Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition
-
提出基于皮层兴奋-抑制(E-I)回路的无归一化学习框架 DeepEISNN,通过 E-I Init 和 E-I Prop 两项技术实现深度 SNN 的稳定端到端训练,兼顾性能与生物合理性。
- Using maximal information auxiliary variables to improve synthetic data generation based on TabPFN foundation models
-
这篇论文指出直接用 TabPFN 做表格合成数据时会在弱相关变量上失效,并提出 maximal information auxiliary variables (MIAV):通过把随机噪声按真实变量秩匹配成辅助变量,让 TabPFN 只需学习 \(X_j\) 与 \(M_j\) 的单变量关系,从而更稳定、更高效地生成保留边际分布和关联结构的合成表格数据。
- What happens when generative AI models train recursively on each others' outputs?
-
本文把“多个生成式 AI 模型会不会在未来互相吃到彼此生成内容”形式化为数据媒介交互训练问题,理论和 LLM 实验证明:适量混合真实数据与其他模型的合成数据能带来跨任务迁移,但过度依赖合成数据会损害原任务并让模型输出逐渐同质化。
- When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency
-
CALIPER提出了一种检测器和模型无关的、仅依赖数据的检验方法,通过跟踪加权局部回归的代理误差随局部性参数\(\theta\)的单调性变化,来估计突发概念漂移后重训练所需的最小数据量,无需实际重训练下游模型。