跳转至

🧠 NeurIPS2025 论文笔记

2571篇NeurIPS2025论文解读,涵盖图像生成(250篇)、强化学习(173篇)、多模态 VLM(155篇)、医学图像(141篇)、模型压缩(137篇)、优化/理论(117篇)、3D 视觉(116篇)、可解释性(86篇)等 45个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


🎨 图像生成

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float (DFloat11)

DFloat11 利用 BFloat16 权重中指数位(exponent)的低熵特性,通过 Huffman 编码将 LLM/扩散模型无损压缩至原始大小的约 70%(等效 ~11 bit),并设计了层次化查找表和两阶段 GPU kernel 实现高效在线解压,使 Llama 3.1 405B 可在单节点 8×80GB GPU 上无损推理。

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

发现扩散模型在自消耗循环(用生成数据训练下一代模型)中存在从"泛化"到"记忆"的转变过程,揭示训练集熵与模型泛化能力的强线性相关性(Pearson r=0.91),并提出基于熵的数据选择策略(Greedy Selection / Threshold Decay Filter)有效减缓该转变,在 CIFAR-10 accumulate 范式下第 8 轮 FID 从 75.7 降至 44.7。

A Connection Between Score Matching and Local Intrinsic Dimension

证明去噪得分匹配损失(denoising score matching loss)的下界恰好是数据流形的局部固有维度(LID),从而将 DSM loss 本身作为一个高效的 LID 估计器——无需梯度计算或多次前向传播,在 Stable Diffusion 3.5 上内存占用仅为 FLIPD 的 60%,且量化后估计更稳定。

A Data-Driven Prism: Multi-View Source Separation with Diffusion Model Priors

提出 DDPRISM 方法,利用多视图观测中不同线性变换的结构性差异,在 EM 框架下为每个未知源学习独立的扩散模型先验,无需预先获得任何单独的源样本即可完成源分离和后验采样,在合成问题和真实星系观测上超越现有方法。

A Diffusion Model for Regular Time Series Generation from Irregular Data with Completion and Masking

提出两步框架从不规则采样时序数据生成规则时序:先用 TST 自编码器补全缺失值构造"自然邻域",再在视觉扩散模型中用 masking 策略仅在观测像素上计算损失,避免对补全值的过度依赖,在判别分数上平均改善 70%,训练速度提升 6.5 倍。

A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models

提出 DWGF(Diffusion-regularized Wasserstein Gradient Flow),将隐空间扩散模型的后验采样问题严格形式化为 KL 散度在 Wasserstein-2 空间上的正则化梯度流,推导出隐空间中的 ODE 系统用于求解图像逆问题,在 FFHQ-512 上的修复和超分辨率任务中 PSNR 大幅超越基线。

Accelerating Parallel Diffusion Model Serving with Residual Compression

提出 CompactFusion 框架,通过残差压缩(仅传输相邻去噪步骤间的激活差异而非完整激活)来消除并行扩散推理中的通信冗余,在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion,在模拟以太网带宽下实现 6.7× 加速,甚至在 100× 压缩下仍优于 DistriFusion。

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models

揭示扩散模型量化中的误差累积现象——每步的量化误差会传递并放大到后续步骤——并提出在 PTQ 校准阶段显式模拟连续多步去噪过程来联合优化量化参数的方法,同时通过巧妙的目标函数设计将内存从 O(n) 降至 O(1)。

Adapting Speech Language Model to Singing Voice Synthesis

将 1.7B 参数的 TTS 预训练 Speech Language Model 适配到歌声合成(SVS)任务,通过乐谱 tokenization + multi-stream LM 预测 + conditional flow matching 精修 + vocoder,仅用 135 小时合成歌声数据达到与专用 SVS 系统可比的性能。

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

提出ALE-Bench,首个面向分数制算法工程竞赛(AtCoder Heuristic Contest)的AI基准,收集40道NP-hard优化赛题并提供交互式Agent评估框架,发现最强模型o3-high在one-shot设置下仅达人类平均水平,且AI在跨问题一致性和长时间迭代改进上与人类专家差距显著。

Aligning Compound AI Systems via System-level DPO

将复合 AI 系统建模为 DAG,提出 SysDPO 框架将 DPO 扩展到多组件联合对齐,通过 DAG 分解将系统级偏好转化为可端到端优化的损失函数,理论证明了 β-完美对齐保证,在 LLM+扩散模型和 LLM+LLM 系统上显著提升协作质量。

Aligning Text to Image in Diffusion Models is Easier Than You Think

提出 SoftREPA——一种轻量级对比微调策略,通过引入可学习 soft text token(不到 1M 参数)在冻结的预训练 T2I 扩散模型上进行对比学习,显式提高文本和图像表征的互信息,在 SD1.5/SDXL/SD3 上显著提升文本-图像对齐质量,且适用于图像生成和图像编辑任务。

Amortized Sampling with Transferable Normalizing Flows

提出 Prose——一个 285M 参数的全原子可迁移归一化流,基于 TarFlow 架构训练在 21,700 个短肽 MD 轨迹上(总计 4.3ms 模拟时长),实现对任意短肽系统的零样本无相关性提议采样,在能量评估预算相同时超越 MD 基线,生成速度比之前的可迁移玻尔兹曼生成器 (TBG) 快 4000 倍。

AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition

提出 AugGen,一种自包含的合成数据增强方法:在目标数据集上训练类条件扩散模型,通过混合不同类别的条件向量生成新的"混合类"样本,增强判别模型训练,在人脸识别基准上实现 1-12% 的性能提升,无需任何外部数据或辅助模型。

BADiff: Bandwidth Adaptive Diffusion Model

提出 BADiff——首个带宽自适应扩散模型,通过将目标熵约束作为条件嵌入扩散反向过程,配合可微熵正则化损失和自适应停止策略,使模型根据实时带宽动态调整生成质量并自适应提前终止采样,在保持感知质量的同时减少计算开销,从根本上避免了传统"高质量生成→后压缩"流程中的压缩伪影和计算浪费。

Balanced Conic Rectified Flow

针对 k-rectified flow 中 reflow 步骤导致的分布漂移问题,提出 conic reflow:利用真实图像的反演噪声及其 Slerp 扰动构成锥形监督轨迹,大幅减少所需 fake pair 数量的同时获得更优的生成质量和更直的 ODE 路径。

Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking

Prime(Partial masking scheme)通过将每个token用base-b子token序列表示并在子token级别独立掩码,为掩码扩散模型引入中间状态,实现细粒度去噪过程,在OpenWebText上以15.36困惑度首次让MDM在不使用自回归公式的情况下超越ARM(17.54)。

BitMark: Watermarking Bitwise Autoregressive Image Generative Models

提出 BitMark——首个针对比特级自回归图像生成模型(Infinity、Instella)的水印方案,在生成过程中通过对 logit 加偏置将 bit 序列引向"绿色列表",实现可靠检测(z-test)、高图像保真度(FID 几乎不变)、对多种攻击的鲁棒性和放射性(训练在水印图上的下游模型也带有水印),为防止模型坍缩提供了关键工具。

Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models

重建生成模型可证明版权保护的理论基础——证明现有的 Near Access-Freeness (NAF) 定义不能防止逐字复制("被污染"),提出"无辜用户"(blameless) 框架和净室版权保护 (\((\kappa,\beta)\)-clean) 定义,其中用户在反事实"净室设置"中不会复制则在真实世界中也不太可能复制,并证明差分隐私训练在"黄金数据集"假设下蕴含净室版权保护。

Blind Strong Gravitational Lensing Inversion: Joint Inference of Source and Lens Mass with Score-Based Models

首次将 score-based 生成模型先验应用于强引力透镜的盲反演——联合推断背景源天体形态和透镜质量分布参数,通过将 GibbsDDRM 扩展到连续时间域实现采样,重建残差与观测噪声一致,透镜参数边际后验无系统偏差。

BlurDM: A Blur Diffusion Model for Image Deblurring

提出 BlurDM,将运动模糊的物理形成过程(连续曝光导致渐进模糊累积)集成到扩散模型——双扩散前向(同时加噪声+模糊)+ 双去噪去模糊反向,作为隐空间先验生成器一致性增强 4 种去模糊方法在 4 个数据集上的效果,GoPro 平均 +0.31 dB,RealBlur-J 平均 +0.78 dB,仅增加 ~4 GFLOPs 和 ~9ms。

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Edit

提出 BlurGuard——在生成对抗扰动之前先对图像做轻度模糊预处理,使扰动更鲁棒地抵御 JPEG 压缩、高斯噪声等后处理操作,从而更有效地保护图像不被 Stable Diffusion 等 AI 编辑工具篡改,在保护成功率上比不模糊基线提升 20%+。

BoltzNCE: Learning Likelihoods for Boltzmann Generation with Stochastic Interpolants

BoltzNCE 用 Score Matching + InfoNCE 混合训练 Energy-Based Model 来近似 Boltzmann Generator 的似然,避免了昂贵的 Jacobian trace 计算,在丙氨酸二肽构象生成上实现 100× 推理加速且自由能误差仅 0.02 \(k_BT\)

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

提出ReDi (Representation Diffusion)框架,在扩散模型中联合建模VAE图像latent和DINOv2语义特征——两者在同一扩散过程中从纯噪声同步去噪,仅需最小修改DiT架构即实现23倍训练收敛加速和SOTA FID,并解锁Representation Guidance推理策略。

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

从信息论角度为掩码扩散语言模型建立了完整的采样收敛理论:证明 KL 散度形式的采样误差以 \(O(1/T)\) 速率衰减、与 token 间互信息线性相关,并给出匹配的下界证明了分析的紧性,理论上论证了扩散模型可以在 \(T < L\)(序列长度)步内生成高质量样本。

CADMorph: Geometry-Driven Parametric CAD Editing via a Plan-Generate-Verify Loop

提出 CADMorph,一个迭代式 plan–generate–verify 框架,利用预训练的 Parameter-to-Shape (P2S) 扩散模型和 Masked-Parameter-Prediction (MPP) 大语言模型协同工作,在无需三元组训练数据的情况下实现几何驱动的参数化 CAD 编辑。

CAMILA: Context-Aware Masking for Image Editing with Language Alignment

提出 CAMILA,一种上下文感知的图像编辑方法,利用多模态大语言模型(MLLM)自动判断指令是否可在给定图像上执行,生成 [MASK]/[NEG] 专用 token 区分可编辑区域和应忽略区域,实现精准多指令编辑并有效过滤不可执行指令。

CaMiT: A Time-Aware Car Model Dataset for Classification and Generation

提出 CaMiT 数据集(787K 标注 + 5.1M 无标注汽车图像,2005–2023),系统研究细粒度视觉类别的时间漂移问题,并在静态预训练、时间增量预训练、时间增量分类器学习和时间感知图像生成四个场景下提供 benchmark。

Can Knowledge-Graph-based Retrieval Augmented Generation Really Retrieve What You Need?

提出 GraphFlow 框架,将知识图谱上的检索建模为 GFlowNet 的流匹配问题,通过详细平衡目标和局部探索策略联合训练检索策略与流估计器,在 STaRK 基准上检索准确率和多样性均超越 GPT-4o 约 10%。

CDFlow: Building Invertible Layers with Circulant and Diagonal Matrices

提出 CDFlow,利用循环矩阵和对角矩阵的交替乘积构造可逆线性层,将参数复杂度从 \(\mathcal{O}(n^2)\) 降至 \(\mathcal{O}(mn)\),矩阵逆复杂度从 \(\mathcal{O}(n^3)\) 降至 \(\mathcal{O}(mn\log n)\),对数行列式从 \(\mathcal{O}(n^3)\) 降至 \(\mathcal{O}(mn)\),在密度估计和周期性数据建模上超越同类方法。

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

提出 CompFlow,通过复合流匹配架构(在离线流输出分布上构建在线流)估计离线-在线环境间的动态差异(Wasserstein 距离),并结合高动态差异区域的主动探索策略,在 27 个动态偏移 RL 任务中平均回报超越最强基线 14.2%。

Composition and Alignment of Diffusion Models using Constrained Learning

提出统一的约束优化框架,将扩散模型的奖励对齐和多模型组合问题形式化为约束优化,通过拉格朗日对偶方法自动确定最优权重,避免手动超参数搜索。

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

提出PAR(Panoramic AutoRegressive model),首次用掩码自回归建模统一文本到全景图和全景图外延两大任务,通过循环平移一致性损失和双空间循环填充解决ERP全景图的边界不连续问题,在Matterport3D上取得37.37 FID,同时展示出良好的可扩展性和零样本泛化能力。

Constrained Discrete Diffusion

提出 CDD(Constrained Discrete Diffusion),将可微约束优化投影算子嵌入离散扩散模型的去噪过程中,无需重训练即可在采样时强制满足序列级约束,在毒性文本生成、分子设计和指令遵循三类任务上实现零约束违反。

Contextual Thompson Sampling via Generation of Missing Data

提出 Generative Thompson Sampling (TS-Gen),将上下文老虎机中的不确定性建模为缺失数据而非未知参数,通过生成模型对缺失结果做自回归填充来实现 Thompson 采样,建立了与离线预测损失直接挂钩的遗憾界。

Continuous Diffusion Model for Language Modeling

提出 RDLM(Riemannian Diffusion Language Model),在统计流形(超球面)上构建连续扩散过程来建模离散分布,建立了离散扩散与连续流的理论联系,通过径向对称性实现无模拟训练和维度分裂技术处理大词表,在 Text8 上以 1.32 BPC 超越所有离散和连续扩散模型。

Continuous Uniqueness and Novelty Metrics for Generative Modeling of Inorganic Crystals

针对无机晶体生成模型评估中广泛使用的离散距离函数 (StructureMatcher) 的四大缺陷,提出基于 Magpie 指纹(成分)和 AMD 向量(结构)的连续距离函数,实现更可靠的 uniqueness 和 novelty 度量。

CORAL: Disentangling Latent Representations in Long-Tailed Diffusion

深入诊断长尾数据下扩散模型尾类生成退化的根因为 U-Net 瓶颈层的"表示纠缠"(representation entanglement),提出 CORAL 通过在瓶颈层施加监督对比损失来解耦类别表示,在 CIFAR10/100-LT、CelebA-5、ImageNet-LT 上全面超越 DDPM/CBDM/T2H 等基线。

CORAL: Disentangling Latent Representations in Long-Tailed Diffusion

本文发现扩散模型在长尾数据上训练时,U-Net 瓶颈层的潜在表征出现"表征纠缠"——尾部类别与头部类别特征空间严重重叠,并提出 CORAL 方法通过在瓶颈层添加投影头和监督对比损失,促进类别间潜在表征分离,显著提升尾部类别生成质量和多样性。

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

提出 CoRL(Co-Reinforcement Learning)框架,通过"统一RL→精细化RL"两阶段策略对统一多模态模型(ULM)同时进行理解和生成能力的强化学习优化,实现理解生成双能力的协同进化,在 1.5B 参数量下生成提升 7%、理解提升 23%。

Counterfactual Identifiability via Dynamic Optimal Transport

利用动态最优传输 (dynamic OT) 理论,首次解决了高维多变量 Markovian SCM 中反事实的可辨识性问题——证明 OT flow 机制产生唯一的单调保序反事实传输映射,并扩展至非 Markovian 设置(IV/BC/FC 准则)。

Coupling Generative Modeling and an Autoencoder with the Causal Bridge

在存在未观测混淆因子的因果推断中,提出将生成模型与自编码器耦合来提升因果桥函数 (causal bridge) 的估计质量——通过共享编码器在处理/控制/结果变量间传递统计强度,并将框架扩展到生存分析。

Cross-fluctuation Phase Transitions Reveal Sampling Dynamics in Diffusion Models

借鉴统计物理中的涨落理论(fluctuation theory),提出了一种通过 交叉涨落(cross-fluctuation) 检测扩散模型采样过程中离散相变的框架,从而在无需重新训练的情况下加速采样、改进条件生成、提升零样本分类和风格迁移。

Curly Flow Matching for Learning Non-gradient Field Dynamics

提出 Curly Flow Matching (Curly-FM),通过设计带有非零参考漂移的 Schrödinger Bridge 问题,使 flow matching 能够学习周期性、旋转性等非梯度场动力学,突破了传统方法只能建模梯度场的限制。

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

本文提出 DD2,将自回归图像模型重新解释为条件分数模型,通过条件分数蒸馏(CSD)损失训练单步生成器匹配原始 AR 模型的输出分布,在 ImageNet-256 上实现 FID 仅增加约 2-3.5 的单步生成,获得 8-238 倍加速,相比 DD1 将单步性能差距缩小 67%。

DeCaFlow: A Deconfounding Causal Generative Model

提出 DeCaFlow,一个去混淆的因果生成模型,在给定因果图和观测数据的情况下,只需训练一次即可正确估计所有 do-calculus 可识别的因果查询(包括干预和反事实),即使存在隐藏混淆因子。

Decomate: Leveraging Generative Models for Co-Creative SVG Animation

提出 Decomate 交互系统,利用多模态大语言模型 (MLLM) 将非结构化 SVG 图形自动分解为语义组件,设计师通过自然语言为各组件指定动画行为,系统生成可生产的 HTML/CSS/JS 动画代码,支持迭代协作创作。

DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models

提出DEFT(Decompositional Efficient Fine-Tuning),通过将权重更新分解为子空间投影和低秩调整两个组件来高效微调T2I模型,在个性化生成和通用图像生成任务上超越LoRA和PaRa。

Denoising Weak Lensing Mass Maps with Diffusion Model and Generative Adversarial Network

将扩散模型(DM)应用于弱引力透镜质量图去噪任务,与 GAN(pix2pix)在相同实验设置下进行系统性对比,证明 DM 在训练稳定性、多样本平均鲁棒性和多种统计量重建精度上全面优于 GAN。

Detecting Generated Images by Fitting Natural Image Distributions

提出一致性验证框架 ConV,利用自然图像流形与生成图像之间的几何差异,通过两个梯度正交的函数实现无需训练的生成图像检测,并引入 Normalizing Flow 增强版 F-ConV 进一步放大流形偏差。

Detection and Simulation of Urban Heat Islands Using a Fine-Tuned Geospatial Foundation Model

提出一套利用微调地理空间基础模型(Granite-GFM)的三阶段统一工作流——先通过绿地冷却效应建立实证基线验证模型物理真实性,再外推未来气候情景下的城市温度,最后通过 inpainting 模拟绿化干预的降温效果——将基础模型从评估工具升级为城市规划的交互式模拟平台。

DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models

提出 DEXTER,一个无需数据的框架,通过优化文本提示驱动扩散模型生成最大化目标分类器激活的图像,再用 LLM 对合成样本进行推理,生成全局性、可读的文本解释,实现模型行为的偏差发现和全局解释。

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

发现预训练DiT的全局self-attention在生成任务中主要捕获局部模式存在大量冗余,提出用标准卷积模块+紧凑通道注意力(CCA)构建纯卷积扩散模型DiCo,在ImageNet-256上FID达2.05超越DiT-XL/2且推理速度快2.7倍,512分辨率下更快3.1倍。

Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior

提出 Diff-ICMH,一种基于扩散模型的生成式图像压缩框架,通过语义一致性损失(SC loss)保持语义完整性,通过标签引导模块(TGM)激活生成先验,以单一编解码器和码流同时服务 10+ 种智能任务和人类视觉感知,无需任何任务特定适配。

DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images

提出 DiffEye,首个基于扩散模型直接利用原始眼动轨迹数据、以自然图像为条件生成连续且多样化眼动轨迹的框架,同时引入对应位置嵌入 (CPE) 对齐注视空间与图像语义空间。

Diffusion-Based Electromagnetic Inverse Design of Scattering Structured Media

提出基于条件扩散模型的电磁逆设计框架,从目标微分散射截面 (DSCS) 直接生成介电球超表面几何结构,绕过昂贵的迭代优化,并自然处理逆问题的非唯一性,性能优于 CMA-ES 进化优化且速度快数个数量级。

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

提出 Diffusion-Classifier Synergy (DCS) 框架,通过在扩散模型和分类器之间建立互相增强的闭环,利用多层次奖励函数(特征级+logits级)引导扩散模型生成对分类器最有益的图像,在 FSCIL 基准上取得 SOTA。

Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation

提出 DPTM 框架,利用潜在扩散模型对不可信目标样本进行语义变换,生成伪目标域并通过渐进式重建机制迭代缩小与真实目标域的差距,在大域偏移场景下比现有 SFDA SOTA 提升高达 18.6%。

Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models

提出 DATE(Diffusion Adaptive Text Embedding),在扩散模型采样过程中根据当前去噪中间结果动态更新文本嵌入,无需额外训练即可提升文本-图像语义对齐。

Diffusion Classifiers Understand Compositionality, but Conditions Apply

全面研究零样本扩散分类器在组合理解任务上的判别能力:覆盖3个扩散模型(SD 1.5/2.0/3-m)×10个数据集×30+任务,引入Self-Bench诊断基准(用扩散模型自己生成的图像消除域差异),发现扩散分类器确实理解组合性但受域差距和时间步加权影响——"条件适用"。

Diffusion Generative Modeling on Lie Group Representations

提出在李群表示空间(而非李群本身)上构建扩散过程的新理论框架,通过广义分数匹配将非阿贝尔李群的弯曲动力学映射到欧几里得空间中,实现无模拟训练的李群扩散模型,并证明标准分数匹配是其平移群的特例。

Diffusion Models Meet Contextual Bandits

将预训练扩散模型作为上下文赌博机 (contextual bandits) 问题中动作参数的表达性先验,提出 diffusion Thompson Sampling (dTS) 算法,通过高效的层次化后验近似实现快速更新与采样,在大动作空间下显著优于传统方法。

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

本文提出Distilled Decoding 2(DD2),通过将自回归图像模型重新解读为条件分数模型,设计了条件分数蒸馏(CSD)损失,将多步AR采样压缩为一步生成,在ImageNet-256上实现FID从3.40到5.43的微小退化同时获得8.0x加速(VAR)和238x加速(LlamaGen),相比DD1缩小了67%的性能差距且训练快12.3倍。

DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution

提出 DOVE,基于 CogVideoX 预训练视频生成模型,通过两阶段潜空间-像素空间训练策略和高质量 HQ-VSR 数据集实现单步推理的视频超分辨率,比多步扩散方法快 28 倍且性能相当或更优。

Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable

提出 Dual Data Alignment (DDA),通过像素域和频域双重对齐生成训练用合成图像,消除数据集偏置导致的虚假相关性,使检测器仅学习伪造相关特征,在11个基准上平均准确率达到90.7%,大幅超越现有方法。

EditInfinity: Image Editing with Binary-Quantized Generative Models

提出 EditInfinity,首次将经典"图像反演-图像编辑"范式应用于二值量化自回归生成模型 Infinity,利用量化表示可获取精确中间监督的优势实现高精度图像反演,配合分段线性平滑核实现高保真编辑效果,在 PIE-Bench 上全面超越扩散模型基线。

EEGReXferNet: A Lightweight Gen-AI Framework for EEG Subspace Reconstruction via Cross-Subject Transfer Learning and Channel-Aware Embedding

提出 EEGReXferNet,一种轻量级生成式 AI 框架,通过邻域通道感知输入选择、频带特定子窗口卷积编解码、动态滑窗隐空间和参考统计量缩放,在跨被试迁移学习设置下实现 EEG 子空间重建,参数减少约 45%、推理延迟 <1ms,同时保持 PSD 相关性 \(\geq 0.95\) 和谱图 RV 系数 \(\geq 0.85\)

Efficient Rectified Flow for Image Fusion

提出 RFfusion,首次将 Rectified Flow 引入图像融合任务,实现无需额外训练的单步采样,同时设计面向融合的两阶段 VAE 训练策略,在速度和质量上全面超越现有扩散融合方法。

Elucidated Rolling Diffusion Models for Probabilistic Forecasting of Complex Dynamics

提出 ERDM,首次将滚动扩散(Rolling Diffusion)框架与 EDM 的原则性设计(噪声调度、预条件化、Heun 采样器)成功统一,通过渐进噪声调度显式建模不确定性增长,在 Navier-Stokes 和 ERA5 天气预报任务上显著优于自回归 EDM 基线。

Emergence and Evolution of Interpretable Concepts in Diffusion Models

首次将 Sparse Autoencoders (SAEs) 系统性地应用于多步扩散模型 (Stable Diffusion v1.4),揭示了图像构图在第一步反向扩散就已涌现、风格概念在中期阶段形成的时间演化规律,并据此设计了时间自适应的因果干预技术。

Encoder-Decoder Diffusion Language Models for Efficient Training and Inference

提出 E2D2,一种面向离散扩散语言模型的编码器-解码器架构,通过轻量解码器迭代去噪、大型编码器定期更新表征,同时实现更快推理(~3× vs MDLM)和更高效的 block diffusion 训练(FLOPs 减半)。

Energy Loss Functions for Physical Systems

提出基于物理能量的损失函数框架,通过反向 KL 散度与玻尔兹曼分布推导出以成对距离为基础的能量差损失,天然满足 SE(d) 不变性,在分子生成和自旋基态预测中显著优于 MSE 和交叉熵损失。

Enhancing Diffusion Model Guidance through Calibration and Regularization

针对分类器引导扩散模型中分类器过度自信导致梯度消失的问题,提出两类互补方案:(1) Smooth ECE 校准损失微调分类器,FID 改善 ~3%;(2) 基于 f-散度的正则化采样引导(RKL/FKL/JS),无需重训练即在 ImageNet 128×128 上达到 FID 2.13。

Entropy Rectifying Guidance for Diffusion and Flow Models

提出 Entropy Rectifying Guidance (ERG),通过操控注意力层的 Hopfield 能量景观(温度缩放、步长调整)来获取弱预测信号,替代传统 CFG 中的无条件预测,在文本到图像、类条件和无条件生成中同时提升质量、多样性和一致性。

Epistemic Uncertainty for Generated Image Detection

提出 WePe(Weight Perturbation),通过对预训练视觉大模型(DINOv2)施加权重扰动来估计认识不确定性(epistemic uncertainty),利用自然图像与 AI 生成图像在不确定性空间的差异实现检测,无需训练即可使用。

Equivariant Flow Matching for Symmetry-Breaking Bifurcation Problems

提出等变 flow matching 框架,结合 symmetric coupling 策略,用生成式 AI 建模对称性破缺分岔问题中的多模态概率分布,在物理系统(屈曲梁、Allen-Cahn 方程)上显著优于确定性模型和 VAE。

Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation

系统评估了 12 种文本-图像组合对齐指标与人类判断的一致性,发现没有单一指标在所有组合任务上一致表现最优,VQA 指标并非总是最好的,embedding 类指标(ImageReward、HPS)在特定类别上更强。

EVODiff: Entropy-aware Variance Optimized Diffusion Inference

从信息论角度分析扩散模型推理过程,提出通过优化条件方差来减少条件熵的 EVODiff 方法,在不修改模型的前提下显著加速采样并提升生成质量。

Evolve to Inspire: Novelty Search for Diverse Image Generation

提出 Wander 框架,基于新颖性搜索(novelty search)和 LLM 驱动的 prompt 进化,从单个文本提示出发生成高度多样化的图像集合,在 Vendi Score 上超越现有进化式 prompt 优化基线。

Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction

提出多维度指令不确定性缩减框架 InSUR,通过 ResAdv-DDIM 采样器稳定对抗优化方向、上下文编码的攻击场景约束、以及基于 WordNet 的语义抽象评估,首次实现了从自然语言指令生成 2D/3D 语义约束对抗样本(SemanticAE)。

Exploring Variational Graph Autoencoders for Distribution Grid Data Generation

系统评估了四种变分图自编码器(VGAE)解码器架构在生成合成配电网拓扑任务上的表现,发现 Iterative-GCN 解码器在小型同质数据集上能较好复现真实电网的结构和频谱特征,但在大型异质数据集上所有方法均存在断连组件和重复模式等严重问题。

Failure Prediction at Runtime for Generative Robot Policies

提出 FIPER 框架,在生成式机器人策略(扩散/流匹配)运行时,通过观测端 RND-OE(OOD 检测)和动作端 ACE(动作块熵)双指标联合判断,无需任何失败数据即可实现早期、准确的失败预测,并借助共形预测提供统计保证。

FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models

提出 FairImagen 后处理去偏框架,通过在 CLIP prompt 嵌入空间应用 FairPCA 投影去除人口统计信息,结合经验噪声注入和跨人口统计联合去偏,在不重训模型的前提下显著提升文本到图像生成的公平性。

FALCON: Few-step Accurate Likelihoods for Continuous Flows

提出 FALCON,通过混合训练目标(flow matching + 平均速度损失 + 可逆性正则化)使连续归一化流在少步采样下仍能提供足够精确的似然估计,从而实现比传统 CNF 快两个数量级的 Boltzmann 采样。

Fast Data Attribution for Text-to-Image Models

将精确但缓慢的 Attribution by Unlearning 方法蒸馏到一个轻量特征嵌入空间中,通过 learning-to-rank 训练使得简单的余弦相似度检索就能近似昂贵的归因排序,首次在 Stable Diffusion + LAION-400M 规模上实现毫秒级数据归因。

Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms

首次将高阶数值方法引入离散扩散模型推理,提出 θ-RK-2 和 θ-Trapezoidal 两种二阶求解器,在理论上证明 θ-Trapezoidal 的离散化误差从一阶 \(\mathcal{O}(\kappa T)\) 提升到二阶 \(\mathcal{O}(\kappa^2 T)\),实验覆盖 200M–8B 模型在文本、图像和数学推理上的一致性提升。

FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies

基于马尔可夫随机场(MRF)理论,提出局部像素依赖(LPD)特征表示,通过中值滤波重建暴露生成图像的纹理不一致性,配合仅 1.1M 参数的轻量卷积网络 FerretNet,在仅用 4 类 ProGAN 数据训练的情况下,实现跨 22 个生成模型 97.1% 的平均检测准确率。

Flatten Graphs as Sequences: Transformers are Scalable Graph Generators

提出 AutoGraph,通过分段欧拉邻域路径(SENT)将图无损展平为 token 序列,直接用 decoder-only Transformer 建模,实现比扩散模型快 100× 的图生成速度,同时在合成和分子基准上达到 SOTA。

Flattening Hierarchies with Policy Bootstrapping

提出 SAW(Subgoal Advantage-Weighted Policy Bootstrapping),通过在数据集内轨迹上采样子目标并用优势值加权的重要性采样进行策略自举,将层次 RL 的长时序推理优势蒸馏到单一扁平策略中,无需学习子目标生成模型,在 20 个离线 GCRL 数据集上匹配或超越 SOTA。

Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators

提出 Flex-Judge,仅用 1K 条纯文本推理数据微调多模态大模型,即可零样本泛化到图像/视频/音频/分子等多模态评判任务,性能媲美甚至超越 GPT-4o 等商业 API 和大规模标注训练的专用评估器。

Flow Matching Neural Processes

提出 FlowNP,将 flow matching 引入神经过程框架,通过 transformer 预测目标点的流速度场实现对条件分布的并行采样,在 1D GP、图像和气象数据三大基准上全面超越现有 NP 方法。

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

提出 FocalCodec——基于 Focal Modulation 的低比特率语音编解码器,使用单个二值码本将语音压缩至 0.16–0.65 kbps,在语音重合成、语音转换和多项下游任务中达到与多码本 SOTA 方法可比甚至更优的性能。

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

首次在 flow-based 视觉运动策略中引入频域一致性约束,利用 DCT 变换将动作块的速度场投影到频域并施加自适应频率分量损失,实现了高质量一步动作生成(93.5 Hz),在仿真和真实机器人任务中均优于现有一步生成方法。

From Cradle to Cane: A Two-Pass Framework for High-Fidelity Lifespan Face Aging

提出 Cradle2Cane 两阶段人脸老化框架:第一阶段通过自适应噪声注入(AdaNI)实现精准年龄控制,第二阶段通过 SVR-ArcFace 和 Rotate-CLIP 双身份嵌入(IDEmb)强化身份一致性,在全寿命跨度(0-80岁)人脸老化中实现年龄精度与身份保持的最优平衡。

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

GeneMAN 提出一种无需人体参数模型(如 SMPL)的通用单图 3D 人体重建框架,通过在大规模多源人体数据上训练人体专属的 2D/3D 扩散先验模型,结合几何初始化-雕刻流水线与多空间纹理精炼,实现了对野外图片中不同体型比例、复杂姿态与个人物品的高保真 3D 人体重建。

Generative Model Inversion Through the Lens of the Manifold Hypothesis

从流形几何视角揭示生成式模型逆向攻击 (MIA) 的本质是通过将损失梯度投影到生成器切空间实现隐式去噪,提出梯度-流形对齐假说(对齐越高→模型越脆弱)并设计无需训练的 AlignMI 方法在多个 SOTA 攻击上取得一致且显著的提升。

GenIR: Generative Visual Feedback for Mental Image Retrieval

提出 GenIR,一种利用文本到图像扩散模型生成"合成视觉反馈"的多轮交互式图像检索框架,将系统对用户查询的理解显式可视化,使用户能直观地识别差异并迭代改进查询,在 Mental Image Retrieval (MIR) 任务上大幅超越纯文本反馈方法。

GeoRemover: Removing Objects and Their Causal Visual Artifacts

提出几何感知的两阶段框架 GeoRemover,将目标移除解耦为几何移除(深度域)与外观渲染(RGB域),通过修改场景几何表示来隐式消除被移除物体的阴影和反射等因果视觉伪影。

Gradient Variance Reveals Failure Modes in Flow-Based Generative Models

本文通过分析 CFM 损失的梯度方差(gradient variance),揭示了 Rectified Flow 在确定性插值下会不可避免地记忆训练配对而非学习最优传输映射,并证明引入随机性(stochastic interpolant)可打破该记忆化通道、恢复泛化能力。

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

提出 GraLoRA——将 LoRA 的权重更新矩阵分割为 \(k^2\) 个独立子块、每块配独立低秩适配器,在不增加参数量和计算量的前提下将有效秩从 \(r\) 提升至 \(kr\),解决 LoRA 在高秩下因梯度纠缠导致的性能退化问题,在代码生成上 Pass@1 最高提升 +8.5%。

Graph-based Neural Space Weather Forecasting

提出基于图神经网络的空间天气神经模拟器,在 Vlasiator 混合 Vlasov 模拟数据上训练,实现确定性和概率性自回归预测近地空间状态,速度比原始模拟快 100 倍以上,并通过隐变量生成集合预报来量化预测不确定性。

Graph Diffusion that can Insert and Delete

提出 GrIDDD 模型,首次将离散去噪扩散模型(DDPM)扩展为支持在生成过程中动态插入和删除图节点,使分子图的大小可在扩散过程中自适应变化,在性质靶向和分子优化任务上达到或超过现有方法。

Graph Distance as Surprise: Free Energy Minimization in Knowledge Graph Reasoning

将神经科学的 Free Energy Principle (FEP) 与知识图谱推理连接,提出用图的最短路径距离作为 surprise 的度量,将 Murphy et al. 的树结构 surprise 理论推广到一般有向图,为 KG-based agent 的 entity grounding 提供了一个有原则的理论框架。

GSPN-2: Efficient Parallel Sequence Modeling

GSPN-2 通过算法-系统联合重设计(单 kernel 融合、紧凑通道传播、共享内存优化),将 GSPN-1 的 2D 空间传播加速最高 40×,在 ImageNet 分类和文本到图像生成中达到 Transformer 级精度且计算成本显著更低。

Guided Diffusion Sampling on Function Spaces with Applications to PDEs

提出 FunDPS(Function-space Diffusion Posterior Sampling),在函数空间中训练无条件扩散模型,推理时通过梯度引导实现 plug-and-play 的 PDE 逆问题后验采样;理论上将 Tweedie 公式推广到无穷维 Banach 空间,实验上在 5 个 PDE 任务中仅用 3% 观测即可获得比 DiffusionPDE 平均高 32% 的精度并减少 4 倍采样步数。

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

提出 GuideFlow3D,一种无需训练的 3D 外观迁移框架,通过在预训练 rectified flow 模型的采样过程中交替注入可微引导损失(部件感知外观损失 + 自相似性损失),实现几何差异显著的物体间鲁棒的纹理与几何细节迁移。

Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation

提出将文本到图像(T2I)模型中的幻觉定义为偏差驱动的偏离,建立了包含属性、关系和物体三类幻觉的分类学,并论证幻觉评估作为提示对齐评估的"上界",可揭示模型隐藏偏差。

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

将经典稀疏信号恢复算法(SOMP)重新解释为一种多样本可解释性工具,发现 LLM 和 VLM 中注意力头存在细粒度语义专业化现象,仅通过翻转约 1% 的头即可可靠地抑制或增强特定概念(如国家名、毒性内容、颜色等)的生成。

Hephaestus: Mixture Generative Modeling with Energy Guidance for Large-scale QoS Degradation

提出 Hephaestus 三阶段生成框架(Forge-Morph-Refine),结合预测路径加压算法、能量引导的混合 CVAE 和潜在空间 RL 优化,用于大规模网络 QoS 降级问题的求解。

Hierarchical Koopman Diffusion: Fast Generation with Interpretable Diffusion Trajectory

基于 Koopman 算子理论,将扩散模型的非线性去噪动力学提升到线性 Koopman 空间,通过层次化分解实现一步采样,同时保留中间生成状态的可解释性和可控性。

High-order Equivariant Flow Matching for Density Functional Theory Hamiltonian Prediction

提出 QHFlow,首次将条件 flow matching 引入密度泛函理论(DFT)哈密顿矩阵预测任务,通过高阶 SE(3) 等变向量场和对称性感知先验分布,在 MD17 上将哈密顿预测误差降低 73%,并可作为 SCF 初始化加速 DFT 计算达 54%。

Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval

提出可提示图像嵌入(Promptable Embeddings)方法,通过在检索时高亮目标视觉属性来提升属性聚焦的文本到图像检索性能,同时构建了COCO-Facet基准数据集。

HollowFlow: Efficient Sample Likelihood Evaluation using Hollow Message Passing

提出HollowFlow框架,通过非回溯图神经网络(NoBGNN)和Hollow消息传递机制强制速度场雅可比矩阵具有块对角结构,将连续归一化流的似然计算反向传播次数从\(\mathcal{O}(n)\)降至常数\(\mathcal{O}(d)\),实现高达\(10^2\)倍的采样加速。

How to Build a Consistency Model: Learning Flow Maps via Self-Distillation

提出统一的自蒸馏(Self-Distillation)框架来直接学习 flow map(即 consistency model 的一般化形式),通过 tangent condition 将任意蒸馏方案转化为无需预训练教师的直接训练算法,并导出三大算法族(Eulerian / Lagrangian / Progressive),其中 Lagrangian 方法避免了空间梯度和自举引导,训练最稳定、性能最优。

Image Super-Resolution with Guarantees via Conformalized Generative Models

基于共形预测(Conformal Prediction)技术,为生成式图像超分辨率模型构建二值"置信度掩码",能可靠地标识生成图像中可信赖的区域,并提供严格的统计保证。

ImageSentinel: Protecting Visual Datasets from Unauthorized Retrieval-Augmented Image Generation

提出 ImageSentinel 框架,通过合成与私有数据集视觉一致的哨兵图像(sentinel images)并绑定随机字符检索键,实现对检索增强图像生成(RAIG)系统未授权使用私有数据集的可靠检测——仅需 3–10 次查询即可达到接近 100% 的 AUC。

Improved Training Technique for Shortcut Models (iSM)

针对 Shortcut Models 的五大性能瓶颈(指导累积、固定引导、频率偏差、自一致性偏离、弯曲轨迹),提出 iSM 统一训练框架,通过内禀引导、多级小波损失、缩放最优传输和双 EMA 策略,在 ImageNet 256×256 上实现单步 FID 5.27、四步 FID 2.05 的大幅提升。

Improving Posterior Inference of Galaxy Properties with Image-Based Conditional Flow Matching

提出基于条件流匹配(CFM)的框架,将星系图像的形态学信息与测光数据联合建模,显著提升星系物理属性(恒星质量、恒星形成率、金属丰度、尘埃消光等)的后验推断精度。

ICEdit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

ICEdit 提出一种基于大规模 Diffusion Transformer (DiT) 的上下文编辑范式,通过 in-context prompt + 最小化 LoRA-MoE 微调 + VLM 早期筛选推理时缩放,仅用 0.1% 训练数据即达到 SOTA 编辑性能。

Increasing the Utility of Synthetic Images through Chamfer Guidance

提出 Chamfer Guidance——一种免训练的推理时引导方法,利用少量真实样本作为参照,通过 Chamfer 距离同时优化合成图像的质量(fidelity)和多样性(diversity),在 ImageNet-1k 上仅用 32 张真实图片即可达到 97.5% Precision 和 92.7% Coverage,并在下游分类器训练中带来最高 16% 的准确率提升。

Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

提出针对 Flow 模型的推理时扩展方法:通过 ODE→SDE 转换引入随机性以启用粒子采样,利用线性→VP 插值变换扩大搜索空间,并设计 Rollover Budget Forcing (RBF) 策略自适应分配计算预算,在组合文本生成图像和数量感知生成任务上显著超越所有现有方法。

InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation

提出 InfinityStar,首个能生成工业级 720p 视频的纯离散自回归模型,通过时空金字塔建模统一 T2I/T2V/I2V/交互式长视频生成,VBench 83.74 超越 HunyuanVideo,推理速度比扩散模型快 10-32×。

Information-Theoretic Discrete Diffusion

将连续扩散中经典的 I-MMSE 恒等式推广到离散域,建立 I-MDSE 和 I-MDCE 关系——证明 DSE/DCE 损失不仅是变分上界而是对数似然的精确分解,并由此推导出 time-free 公式、条件似然估计和耦合似然比估计器,在 LLaDA 等大模型上验证了低方差和 OOD 检测能力。

Information Theoretic Learning for Diffusion Models with Warm Start

提出将经典 KL 散度-Fisher 信息关系推广到任意各向同性噪声扰动的似然估计框架,结合 warm-start 噪声注入和重要性采样,消除训练-测试差距并实现更紧的似然上界,在 ImageNet 多分辨率上达到 SOTA NLL。

Instance-Level Composed Image Retrieval

提出实例级组合图像检索(i-CIR)基准和训练免费方法BASIC,通过独立估计图像和文本查询的相似度并进行乘法融合,在无需训练的情况下在i-CIR和现有CIR数据集上均达到SOTA。

Is Artificial Intelligence Generated Image Detection a Solved Problem?

提出 AIGIBench 综合基准,通过四大任务(多源泛化、多退化鲁棒性、数据增强敏感性、测试预处理影响)系统评估 11 个 SOTA 检测器,揭示现有 AIGI 检测方法在真实场景下性能严重下降,表明该问题远未解决。

ItDPDM: Information-Theoretic Discrete Poisson Diffusion Model

提出 ItDPDM(信息论离散泊松扩散模型),通过泊松噪声信道和泊松重建损失(PRL)实现非负离散数据的精确似然估计,避免了 ELBO 近似和 dequantization,在合成数据及 CIFAR-10 和 MIDI 音乐上取得优于现有离散扩散模型的似然估计。

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

提出 Janus-Pro-R1,通过两阶段训练(SFT + RL)实现视觉理解与生成的协同共进,让 MLLM 在文本到图像生成中形成真正的 Chain-of-Thought 并触发 Aha 时刻,在 GenEval 上超越 GPT-4o,同时拓展到图像编辑任务。

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

提出 KLASS(KL-Adaptive Stability Sampling),一种无需训练的采样方法,利用 token 级别的 KL 散度和置信度来识别稳定 token 并行解码,在掩码扩散模型上实现最高 2.78× 加速且不损失甚至提升生成质量。

Knowledge Distillation Detection for Open-weights Models

提出知识蒸馏检测任务,通过无数据输入合成和统计评分框架,判断一个开放权重的学生模型是否由特定教师模型蒸馏而来。

Kuramoto Orientation Diffusion Models

将生物系统中的Kuramoto同步动力学引入score-based生成模型,在周期域上构建前向同步/反向去同步的扩散框架,对指纹、纹理等方向密集数据实现显著优于标准扩散模型的生成质量,同时在CIFAR-10上保持竞争力。

Large-Scale Training Data Attribution for Music Generative Models via Unlearning

将基于机器遗忘(machine unlearning)的训练数据归因方法应用于大规模文本到音乐扩散模型(115K 音轨),通过网格搜索找到最优超参数配置,并与非反事实方法对比,验证了 unlearning-based TDA 在音乐生成领域的可行性。

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

提出 Latent Zoning Network (LZN)——一种通过共享高斯潜在空间将生成建模、表征学习和分类统一在同一框架下的方法,每种数据类型配备编码器-解码器对将样本映射到不相交的潜在区域,仅依赖"潜在计算"和"潜在对齐"两个原子操作即可支持多种 ML 任务,并在 CIFAR10 上将无条件生成 FID 从 2.76 降至 2.59,在 ImageNet 线性分类上超越 SimCLR。

LeapFactual: Reliable Visual Counterfactual Explanation Using Conditional Flow Matching

提出LeapFactual,一种基于条件流匹配(CFM)的反事实解释算法,通过"起飞-降落"(Leap)机制在扁平化和结构化潜在空间之间建立桥梁,生成可靠且分布内的反事实样本,即使在学习决策边界与真实边界不一致时也能有效工作。

Learnable Sampler Distillation for Discrete Diffusion Models

提出LSD和LSD+方法,通过蒸馏将高保真教师采样器的中间分数轨迹知识迁移给少步数学生采样器,以可学习的采样系数和非均匀时间调度实现离散扩散模型的高效高质量采样。

Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders

提出一种通过稀疏自编码器(SAE)从音频生成模型的潜空间中提取可解释特征的框架,通过线性探针将 SAE 特征映射到人类可理解的声学概念(音高、振幅、音色),实现对音频生成过程的可控操作和可视化分析。

Learning to Integrate Diffusion ODEs by Averaging the Derivatives

提出"割线损失"(Secant Losses)家族,通过蒙特卡洛积分和Picard迭代学习扩散ODE的积分,将扩散模型的切线逐步延展为割线,在训练稳定性和少步推理之间取得优异平衡。

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

提出 Visual-Contrast Attention (VCA),通过空间池化生成紧凑的正负视觉对比 token 并进行差分交互,将自注意力复杂度从 \(O(N^2C)\) 降至 \(O(NnC)\)\(n \ll N\)),同时在图像分类和生成任务上均获得显著提升。

LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss

提出 LinEAS(Linear End-to-end Activation Steering),通过端到端优化跨层仿射变换映射,利用 1D Wasserstein 分布损失进行全局激活值对齐,仅需 32 个无配对样本即可高效控制 LLM 毒性和 T2I 模型概念生成。

LLM Meets Diffusion: A Hybrid Framework for Crystal Material Generation

提出CrysLLMGen混合框架,结合LLM擅长离散原子类型预测和扩散模型擅长连续坐标/晶格参数建模的互补优势,在晶体材料生成任务中同时实现高结构有效性和组成有效性。

MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction

提出 MGE-LDM,首个在统一的潜在扩散框架中同时实现音乐混合生成、部分生成(源补全)和文本驱动任意源提取的模型,通过联合建模混合-子混合-源三元组并利用扩散修复(inpainting)实现各任务。

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

提出从预训练扩散模型骨干网络中解耦语义特征和视觉特征的框架,实现视觉对应匹配,并基于此提出 Visual Semantic Matching (VSM) 度量,首次同时支持主体驱动图像生成中视觉不一致性的量化和空间定位

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

提出Modality-Decoupled Experts (MoDE),通过将文本和图像的适配器解耦为独立的T-MoE和V-Adapter子空间,配合知识蒸馏,在统一多模态生成模型的持续指令微调中同时缓解模态内遗忘和模态间遗忘。

Mitigating Sexual Content Generation via Embedding Distortion in Text-conditioned Diffusion Models

提出Distorting Embedding Space (DES),一种基于文本编码器的防御框架,通过将不安全嵌入变换到安全区域、保持安全嵌入不变、中和"裸露"语义三管齐下,在FLUX.1和SD v1.5上实现SOTA的性内容缓解效果(ASR分别降至9.47%和0.52%),同时保持良好的良性图像质量。

MMaDA: Multimodal Large Diffusion Language Models

提出 MMaDA,首个在统一离散扩散架构下同时实现文本推理、多模态理解和文本到图像生成的多模态基础模型,通过混合长 CoT 微调和 UniGRPO 强化学习算法弥合了扩散模型预训练与后训练之间的鸿沟。

MMG: Mutual Information Estimation via the MMSE Gap in Diffusion

利用扩散模型的信息论公式,证明互信息等于条件与无条件去噪 MMSE 之间的差值在所有信噪比上的积分的一半,提出 MMG 估计器,结合自适应重要性采样和正交原理显著提升估计精度和稳定性。

MGAudio: Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

提出MGAudio,首个采用模型引导(MG)训练替代无分类器引导(CFG)的视频到音频生成框架,结合双角色音视频编码器(同时用于条件注入和特征对齐),以131M参数在VGGSound上实现SOTA(FAD=0.40),且仅用10%数据即可超越多数方法。

Modeling Microenvironment Trajectories on Spatial Transcriptomics with NicheFlow

NicheFlow是一种基于Flow Matching的生成模型,将细胞微环境表示为点云,通过Variational Flow Matching和最优传输联合建模细胞状态与空间坐标的时间演化,在胚胎发育、脑发育和衰老数据集上显著优于单细胞级别的轨迹推断方法。

Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models

提出统一的标准高斯性正则化框架,结合空间域的矩(moment)匹配和频谱域的功率谱(power spectrum)匹配,将KL散度、峰度、范数等现有正则化方法统一为特殊情况,并以\(\mathcal{O}(D\log D)\)复杂度实现了PRNO的\(\mathcal{O}(D^2)\)等价效果,在文本到图像模型的reward alignment任务中显著优于所有基线。

Multimodal Generative Flows for LHC Jets

提出基于 Transformer 的多模态流匹配框架(MMF),将连续流匹配与连续时间马尔可夫跳跃桥联合建模,实现对 LHC 喷注中粒子运动学(连续)和 flavor 量子数(离散)的统一生成。

Neural Entropy

本文通过扩散模型的范式探索深度学习与信息论的联系,引入"神经熵"度量来量化扩散过程中存储在神经网络里的信息量,揭示了图像扩散模型对结构化数据具有极高的压缩效率。

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

提出 HDLM(Hierarchical Diffusion Language Model),通过在 clean token 和 mask token 之间引入具有粗粒度语义的聚类 token 中间层级,实现"下一语义尺度预测"的离散扩散语言建模,推导闭式 ELBO,在 OpenWebText 上困惑度一致优于 MDLM/GIDD,随机扰动后生成困惑度降低 62%。

Non-Asymptotic Analysis of Data Augmentation for Precision Matrix Estimation

本文从非渐近角度分析了高维精度矩阵(逆协方差矩阵)估计中数据增强(DA)的效果,建立了线性收缩估计器和 DA 估计器的二次误差集中界,并引入了广义预解矩阵的新型确定性等价工具。

Non-Markovian Discrete Diffusion with Causal Language Models

提出CaDDi框架,通过非马尔可夫离散扩散过程让每步去噪都能访问完整生成轨迹,并将其统一到因果语言模型架构中,使预训练LLM可直接复用为离散扩散模型。

NPN: Non-Linear Projections of the Null-Space for Imaging Inverse Problems

提出非线性零空间投影 (NPN)——一种新型正则化策略,训练神经网络从观测中预测信号在感知矩阵零空间低维子空间上的投影系数,将此作为"看不见的特征"的先验约束,可灵活嵌入 PnP、展开网络、DIP 和扩散模型等多种重建框架,理论证明了 PnP 算法中的收敛加速。

ObCLIP: Oblivious Cloud-Device Hybrid Image Generation with Privacy Preservation

提出 ObCLIP,一种遗忘式云-端混合图像生成方案:将用户 prompt 扩展为一组仅在敏感属性(性别、种族等)上不同的候选 prompt,云端处理所有候选的早期去噪步骤而无法识别真实 prompt,客户端选择正确的中间潜变量完成剩余去噪,同时通过时间和批次冗余加速将额外开销降至 4.4~7.6 倍以下。

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

提出 OmniCast,一种结合掩码生成框架和潜在扩散模型的天气预报方法,通过联合生成未来天气序列(而非自回归迭代)来缓解误差累积,在次季节至季节(S2S)尺度达到 SOTA 性能,同时在中期预报上保持竞争力且推理速度快 10-20 倍。

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

OmniSync提出了一种基于Diffusion Transformer的通用唇形同步框架,通过无掩码训练范式、基于Flow Matching的渐进噪声初始化和动态时空CFG三大创新,在真实视频和AI生成视频上都大幅超越先前方法,尤其在风格化角色的唇形同步上达到87.78%成功率(之前最佳67.78%)。

OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions

OmniVCus 提出了一个前馈式 DiT 框架,通过数据构建流水线 VideoCus-Factory 和两种嵌入机制(Lottery Embedding 和 Temporally Aligned Embedding),实现了多主体、多模态控制条件下的视频定制生成,在身份保持和可控性上显著超越 SOTA。

On Optimal Steering to Achieve Exact Fairness

本文定义了"理想分布"——使任意代价敏感风险下的 Bayes 最优分类器都满足精确公平性的数据分布,并提出通过 KL 散度最小化寻找最近理想分布的优化框架,为公平预处理和 LLM 表示引导提供了可证明的公平性保证。

On the Emergence of Linear Analogies in Word Embeddings

提出一个基于二值语义属性的词共现生成模型,解析性地证明了词嵌入中线性类比结构(如 \(W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}\))的涌现机制,统一解释了已知的四个关键观测现象。

On the Relation between Rectified Flows and Optimal Transport

本文深入研究了 rectified flow(流匹配)与最优传输之间的理论关系,通过构造多个反例证明了此前文献中关于"梯度约束的 rectified flow 可以渐近收敛到最优传输"的等价性声明并不成立,需要比已知条件更强的假设才能保证两者的等价关系。

One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting

提出NTN-Diff频率感知扩散模型,通过将语义一致性问题分解为中频和低频频带各自的一致性任务,利用"空文本-文本-空文本"三阶段去噪策略,同时解决文本引导图像修复中的未遮盖区域保持和遮盖/未遮盖区域语义一致性两大挑战。

Orient Anything V2: Unifying Orientation and Rotation Understanding

Orient Anything V2 通过可扩展的合成数据引擎、对称感知的周期分布目标和多帧架构,统一了物体3D方向和旋转理解,在方向估计、6DoF位姿估计和对称性识别三个任务上均达到 zero-shot SOTA。

OSMGen: Highly Controllable Satellite Image Synthesis using OpenStreetMap Data

OSMGen 直接从 OSM JSON 数据(矢量几何、语义标签、位置和时间信息)合成高保真卫星图像,并通过 DDIM 反演生成一致的前后对比图像对,支持城市变化模拟和数据增强。

OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models

构建了首个大规模文生图模型过度拒绝评估基准 OVERT(4600条良性提示 + 1785条有害提示,覆盖9个安全类别),系统评估了5个主流 T2I 模型的过度拒绝行为,揭示了安全与效用之间的强相关权衡关系。

Pairwise Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model

提出A2A-FM方法,通过一种新颖的代价函数在FlowMatching框架中同时学习所有条件分布对之间的最优传输映射,理论证明在无限样本极限下收敛至逐对最优传输,尤其适用于连续条件变量的非分组数据场景。

Panel-by-Panel Souls: A Performative Workflow for Expressive Faces in AI-Assisted Manga Creation

本文提出了一种面向漫画创作的"双混合"交互式工作流系统,在面部准备阶段融合关键点自动检测与手动框选、在表情映射阶段融合表演性视频捕捉与精细数值滑块调控,使漫画艺术家能够直觉化地将情感叙事意图注入AI生成的漫画面板中角色的面部表情,解决文本提示无法精确描述微妙情感这一根本性"语言-视觉鸿沟"问题。

Perturb a Model, Not an Image: Towards Robust Privacy Protection via Anti-Personalized Diffusion Models

提出Anti-Personalized Diffusion Model (APDM),首次将隐私保护从数据级(图像扰动)转移到模型级(参数更新),通过Direct Protective Optimization损失和Learning to Protect双路径优化策略,鲁棒地阻止扩散模型对特定主体的个性化,同时保持模型对其他主体的生成和个性化能力。

Physics-Constrained Flow Matching: Sampling Generative Models with Hard Constraints

提出 Physics-Constrained Flow Matching (PCFM),一种零样本推理框架,通过在预训练流匹配模型的采样过程中交替执行前向投射、OT 插值反向更新和松弛惩罚校正,实现任意非线性等式约束的精确满足(达到机器精度),在含激波和间断的 PDE 问题上相比基线方法提升高达 99.5%。

Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection

提出基于物理守恒定律的AI生成视频检测范式,定义归一化时空梯度(NSG)统计量来捕获空间概率梯度与时间密度变化的比率,利用预训练扩散模型估计NSG并通过MMD进行检测,在Recall上超越SOTA 16%、F1超越10.75%。

PID-controlled Langevin Dynamics for Faster Sampling of Generative Models

将 PID 控制理论引入 Langevin 动力学采样,利用梯度历史(积分项)提供动量穿越能量壁垒、利用梯度趋势(微分项)抑制振荡实现快速稳定收敛,无需额外训练即可在 SGM 和 EBM 上实现 10 倍以上采样加速。

PixPerfect: Seamless Latent Diffusion Local Editing with Discriminative Pixel-Space Refinement

提出 PixPerfect,一个通用的像素级精修框架,通过判别性像素空间损失和全面的伪影模拟管线,消除潜在扩散模型局部编辑中的色差、纹理不匹配和可见接缝,在修复、目标移除和插入任务上大幅提升视觉保真度。

Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism

提出GenComm——一种基于生成式通信机制的异构多智能体协作感知方法,通过空间消息提取和条件扩散模型在ego端生成对齐的协作者特征,无需修改原始网络即可以极低代价接纳新异构智能体。

Preconditioned Langevin Dynamics with Score-Based Generative Models for Infinite-Dimensional Linear Bayesian Inverse Problems

在无穷维 Hilbert 空间中严格分析了分数生成模型 (SGM) 驱动的 Langevin 后验采样器,首次推导出依赖分数近似误差的收敛界,并发现了同时依赖前向算子和分数误差的最优预条件器形式,保证所有后验模态的均匀收敛速率。

Predictive Feature Caching for Training-free Acceleration of Molecular Geometry Generation

将图像领域的预测式特征缓存(predictive feature caching)策略迁移到分子几何生成领域,利用采样轨迹中隐藏状态的时间平滑性,实现免训练的2-3倍推理加速,且与其他优化手段组合可达7倍加速。

Preventing Shortcuts in Adapter Training via Providing the Shortcuts

提出Shortcut-Rerouted Adapter Training,通过在adapter训练过程中主动提供confounding因素的专用通路(如LoRA吸收分布偏移、ControlNet吸收姿态/表情),使adapter只学习目标属性(如身份),推理时移除辅助模块即可获得去纠缠的适配器。

Progressive Inference-Time Annealing of Diffusion Models for Sampling from Boltzmann Densities

提出 PITA(Progressive Inference-Time Annealing),一种结合温度退火与扩散平滑两种互补插值策略的框架,通过在高温下训练初始扩散模型,然后利用新颖的 Feynman-Kac PDE 与 SMC 重采样在推理时降温生成低温样本,逐步训练一系列扩散模型直达目标温度,首次实现了对丙氨酸二肽和三肽的笛卡尔坐标下平衡态采样。

Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models

本文发现训练式概念遗忘(unlearning)与免训练安全引导(negative prompt guidance)两种安全方法组合后效果反而下降,提出用概念反演(Concept Inversion)获得的隐式负向嵌入替换显式负向提示,有效恢复了免训练方法在遗忘模型上的防御能力。

Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

提出Ψ-Sampler框架,在SMC(序贯蒙特卡洛)推理时奖励对齐中引入基于pCNL(预条件Crank-Nicolson Langevin)算法的初始粒子采样,从奖励感知的后验分布初始化粒子,显著提升布局生成、数量感知生成和美学偏好生成的对齐效果。

Rare Text Semantics Were Always There in Your Diffusion Transformer

发现通过在 MM-DiT 的联合注意力块前对文本 token 嵌入进行方差放大,即可在无需额外训练或外部模块的情况下让扩散模型呈现稀有文本语义。

Real-Time Execution of Action Chunking Flow Policies

提出 Real-Time Chunking (RTC),将异步动作分块执行建模为修复(inpainting)问题,通过冻结已执行动作并"修复"其余部分,实现扩散/流策略的实时平滑执行,无需重新训练。

Rectified-CFG++ for Flow Based Models

针对Rectified Flow模型中标准CFG导致的离流形漂移问题,提出Rectified-CFG++——一种自适应预测-校正引导策略,通过条件流预测+时间调度插值校正替代外推式引导,在Flux/SD3/SD3.5/Lumina等大规模模型上全面超越标准CFG。

Recurrent Memory for Online Interdomain Gaussian Processes

提出 OHSVGP(Online HiPPO Sparse Variational Gaussian Process),将深度学习中的 HiPPO(高阶多项式投影算子)框架引入稀疏变分高斯过程中作为跨域诱导变量,利用时变正交多项式基函数实现在线学习中的长期记忆保持,核矩阵可通过 ODE 递推高效更新。

Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models

提出扩散横向思维链(DCoLT),将扩散语言模型逆向过程中的每个中间步视为潜在"思考"动作,通过基于最终结果的强化学习优化整条推理轨迹,在SEDD和LLaDA两种扩散语言模型上实现了数学和代码生成的SOTA表现。

Remasking Discrete Diffusion Models with Inference-Time Scaling

提出 ReMDM 采样器,通过在生成过程中允许已解码 token 被重新掩码(remask),赋予离散掩码扩散模型迭代纠错能力,实现推理时计算缩放,在文本、图像和分子设计任务上显著提升采样质量。

RepLDM: Reprogramming Pretrained Latent Diffusion Models for High-Quality, High-Efficiency, High-Resolution Image Generation

提出 RepLDM 重编程框架,通过注意力引导阶段和渐进上采样两个阶段,让预训练的潜在扩散模型无需重训练即可生成高质量高分辨率图像,同时大幅提升效率。

RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation

提出RespoDiff框架,在扩散模型UNet的瓶颈层引入双模块可学习变换——负责任概念对齐模块(RAM)和语义对齐模块(SAM),通过分数匹配目标实现公平和安全的文本到图像生成,同时保持图像质量和语义忠实度。

Riemannian Consistency Model

首次将一致性模型(Consistency Model)扩展到黎曼流形上,利用指数映射参数化和协变导数推导出离散和连续时间 RCM 目标函数,实现在球面、平坦环面和 SO(3) 等非欧几何上的高质量少步生成。

Riemannian Flow Matching for Brain Connectivity Matrices via Pullback Geometry

提出DiffeoCFM,利用全局微分同胚诱导的拉回度量,将黎曼流形上的条件流匹配等价转化为欧几里得空间中的标准CFM,实现对脑连接矩阵(SPD/相关矩阵)的高效生成,同时严格保持流形约束,在3个fMRI和2个EEG数据集上达到SOTA。

RLVR-World: Training World Models with Reinforcement Learning

提出 RLVR-World 框架,将强化学习可验证奖励(RLVR)范式拓展到世界模型训练,通过将目标度量(如预测准确率、感知质量)作为可验证奖励直接优化,在语言和视频两类世界模型上取得显著提升。

RLZero: Direct Policy Inference from Language Without In-Domain Supervision

提出 RLZero 框架,通过"想象 → 投影 → 模仿"三步流程,将自然语言指令转化为目标环境中的行为策略——用视频生成模型从语言"想象"观测序列,将其投影到目标域,最终由无监督预训练的 RL 智能体通过闭合形式解即时模仿,整个过程无需任何域内监督或标注轨迹。

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

提出 LEAF (Levenshtein Efficient Adversarial Finetuning),首个针对 CLIP 文本编码器的对抗微调方法,在字符级文本扰动下显著提升零样本分类、文本-图像检索和图像生成的鲁棒性,同时保持图像域性能。

Safe and Stable Control via Lyapunov-Guided Diffusion Models

提出 S²Diff,一个基于模型的扩散规划框架,利用控制 Lyapunov 屏障函数(CLBF)引导扩散采样生成轨迹级控制策略,无需控制仿射假设与二次规划,在多种非线性动力系统上同时保证安全性和稳定性,平均安全率达 98.75%。

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

提出SAO-Instruct,首个支持完全自由格式自然语言指令的音频编辑模型,通过Prompt-to-Prompt、DDPM反演和手动编辑三条流水线构建编辑三元组训练数据,微调Stable Audio Open实现保持上下文一致的定向音频修改。

Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching

提出 TCCM(Time-Conditioned Contraction Matching),一种受 flow matching 启发的表格数据半监督异常检测方法,通过学习将正常数据收缩到原点的时间条件速度场,仅需单步前向推理即可计算异常分数,在 ADBench 47 个数据集上取得 AUROC 和 AUPRC 双第一,推理速度比 DTE 快 1573 倍。

ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion

提出 ScaleDiff 框架,通过 Neighborhood Patch Attention (NPA) 消除传统 patch 方法中的重叠计算冗余,结合潜空间频率混合 (LFM) 和结构引导 (SG),在无需额外训练的前提下将预训练扩散模型扩展到高分辨率(如 4096²),在 U-Net 和 DiT 架构上均实现了 training-free 方法中的 SOTA 质量和显著的推理加速(相比 DemoFusion 快 8.9 倍)。

Scaling Can Lead to Compositional Generalization

通过理论证明和大规模实验表明,标准MLP仅需扩大数据量和模型规模即可实现组合泛化,无需显式模块化架构设计,且组合泛化成功时任务成分可从隐层激活线性解码——该指标与扩散模型的图像组合成功率正相关。

Scaling Diffusion Transformers Efficiently via μP

将 Maximal Update Parametrization (μP) 从标准 Transformer 推广到扩散 Transformer(DiT、PixArt-α、MMDiT 等),证明其超参数可从小模型稳定迁移到大模型,显著降低大规模扩散模型的调参成本。

Scaling Offline RL via Efficient and Expressive Shortcut Models

提出 SORL,利用 shortcut models 的自一致性实现离线 RL 中高效一阶段训练与可变推理步数的策略优化,同时支持推理时的顺序和并行扩展。

SceneDecorator: Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency

SceneDecorator 提出了一个无需训练的框架,通过 VLM 引导的场景规划(global-to-local)和长期场景共享注意力机制,首次系统性地解决了故事生成中的场景规划和场景一致性问题,在场景对齐和一致性指标上显著优于现有方法。

SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation

SceneDesigner 提出了一种基于 CNOCS 地图表示和两阶段强化学习训练的方法,首次实现了多物体 9D 姿态(位置、大小、朝向)的精确控制,在图像生成的可控性和质量上显著超越现有方法。

Schrödinger Bridge Matching for Tree-Structured Costs and Entropic Wasserstein Barycentres

将Iterative Markovian Fitting (IMF)程序推广到树结构Schrödinger Bridge问题,提出TreeDSBM算法,在Wasserstein重心计算中将IMF迭代与不动点迭代优雅合并,仅需廉价的bridge-matching步骤即可高效求解。

Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery

提出 SciNO(Score-informed Neural Operator),一种在光滑函数空间中设计的概率生成模型,稳定近似 log-密度 Hessian 对角以提升排序式因果发现,合成图上 order divergence 降低 42.7%,真实数据降低 31.5%。

Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models

提出Semantic Surgery,一种无需重训练的零样本推理时概念擦除框架,通过在扩散过程之前对文本嵌入进行校准向量减法,结合Co-Occurrence Encoding处理多概念擦除和视觉反馈环路解决潜在概念持久性问题,在物体/NSFW/风格/名人擦除任务上全面超越SOTA。

Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models

提出 Shallow Diffuse,一种利用扩散模型后验均值预测器(PMP)的局部线性性和 Jacobian 低秩性,在扩散过程中间时间步嵌入水印的方法,实现了水印与生成过程的解耦,首次在服务端和用户端两种场景下同时保证了高一致性和高鲁棒性。

Shortcutting Pre-trained Flow Matching Diffusion Models is Almost Free Lunch

提出SCFM(ShortCutting Flow Matching),一种超高效的后训练蒸馏方法,通过速度场自蒸馏将预训练flow matching模型(如12B参数的Flux)压缩为3步采样器,仅需不到1个A100-Day,无需步长嵌入或对抗蒸馏。

Show-o2: Improved Native Unified Multimodal Models

提出 Show-o2,一种基于自回归建模和 Flow Matching 的原生统一多模态模型,通过双路径空间(时间)融合在 3D 因果 VAE 空间中构建统一视觉表示,实现跨文本、图像、视频的多模态理解与生成,并设计两阶段训练策略有效保留语言知识。

SparseDiT: Token Sparsification for Efficient Diffusion Transformer

提出 SparseDiT,通过空间维度的三段式架构(底层 Poolingformer + 中层 Sparse-Dense Token Module + 顶层全密度处理)和时间维度的动态剪枝率策略,在 DiT-XL 512×512 上实现 55% FLOPs 减少和 175% 推理速度提升,FID 仅增加 0.09,并成功扩展到视频生成和文本到图像生成任务。

Split Gibbs Discrete Diffusion Posterior Sampling

提出 SGDD(Split Gibbs Discrete Diffusion),一种基于分裂 Gibbs 采样原理的即插即用离散扩散后验采样算法,通过引入辅助变量和基于 Hamming 距离的正则化势函数,将后验采样分解为似然采样步和先验采样步交替进行,在 DNA 序列设计、离散图像逆问题和音乐填充等任务上大幅超越基线。

SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing

提出 SplitFlow,将目标 prompt 语义分解为多个子 prompt,为每个子 prompt 计算独立的编辑流,再通过投影和自适应聚合机制组合成统一编辑轨迹,解决梯度纠缠问题,在无需反转的前提下实现更高保真度和可编辑性的文本引导图像编辑。

StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models

提出StableGuard,将全局二值水印嵌入LDM生成流程中(通过MPW-VAE),并利用水印扰动模式的变化实现篡改定位(通过MoE-GFN),首次实现端到端的版权保护与篡改检测统一框架。

State-Covering Trajectory Stitching for Diffusion Planners

提出 SCoTS(State-Covering Trajectory Stitching),一种无需奖励信号的轨迹增强框架,通过在时间距离保持的潜空间中迭代拼接短轨迹片段,系统性地扩展状态空间覆盖,显著提升扩散规划器在长时域、分布外任务上的泛化能力。

StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold

提出StelLA,通过将LoRA的适配矩阵分解为 \(USV^\top\) 三因子形式,并将 \(U\)\(V\) 约束在Stiefel流形上进行黎曼优化,实现训练过程中对低秩子空间的显式学习,在多个下游任务上一致超越现有LoRA变体。

System-Embedded Diffusion Bridge Models

提出System-embedded Diffusion Bridge Models(SDB),将已知的线性测量系统直接嵌入矩阵值SDE的系数中,实现了对值域空间去噪和零空间信息合成的分离控制,在多种逆问题上取得一致性提升并展现出强大的系统失配鲁棒性。

T2SMark: Balancing Robustness and Diversity in Noise-as-Watermark for Diffusion Models

提出 T2SMark,一种基于尾部截断采样(Tail-Truncated Sampling)的两阶段扩散模型水印方案,通过在高斯噪声的尾部区域嵌入水印比特、中心区域随机采样,首次在水印鲁棒性和生成多样性之间取得最优平衡。

Text-to-Image Models Leave Identifiable Signatures: Implications for Leaderboard Security

本文揭示文生图(T2I)模型因训练数据、架构和规模差异会在生成图像中留下可识别的"签名",攻击者即使不控制输入提示也能通过 CLIP 嵌入空间中的简单质心分类以 87% 的 Top-1 准确率去匿名化排行榜上的匿名模型,从而实施排名操纵攻击。

Text to Sketch Generation with Multi-Styles

提出M3S(Multi-Style Sketch Synthesis),一个无训练框架,通过线性平滑的K/V特征注入、联合AdaIN风格倾向控制和风格-内容分离引导,实现基于文本提示和参考风格草图的单/多风格草图生成。

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

提出 ThermalGen,一种基于 Flow 的自适应生成模型,通过 RGB 图像条件化架构和风格解耦机制,首次实现了跨视角、跨传感器、跨环境条件的高保真 RGB-to-Thermal 图像翻译,并发布了三个新的大规模卫星-航拍 RGB-T 配对数据集。

TIDMAD: Time Series Dataset for Discovering Dark Matter with AI Denoising

发布 TIDMAD——首个面向暗物质搜索的超长时间序列去噪基准数据集,包含 ABRACADABRA 实验的训练/验证/科学数据、去噪评分指标和完整分析框架,使 AI 算法能直接产出物理学界标准的暗物质搜索结果。

Token Perturbation Guidance for Diffusion Models

提出 Token Perturbation Guidance(TPG),通过对扩散模型中间 token 表示进行保范数的 shuffling 扰动来构造负分数信号,实现无需训练的条件无关引导,在无条件生成中将 SDXL 的 FID 提升近 2 倍,在条件生成中接近 CFG 效果。

Tortoise and Hare Guidance: Accelerating Diffusion Model Inference with Multirate Integration

提出 Tortoise and Hare Guidance (THG),一种免训练的扩散采样加速策略,将 classifier-free guidance (CFG) ODE 重构为多速率 ODE 系统,噪声估计使用细粒度步长(乌龟方程),附加引导项使用粗粒度步长(兔子方程),减少最多 30% 的函数评估次数 (NFE) 而几乎不损失生成质量。

Toward a Unified Geometry Understanding: Riemannian Diffusion Framework for Graph Generation and Prediction

提出 GeoMancer 框架,通过黎曼 GyroKernel 自编码器替代数值不稳定的指数映射,将多层级图特征解耦到任务特定的积流形上,并引入流形约束扩散和自引导生成策略,在分子生成、节点分类和图回归等任务上统一建模并取得 SOTA 性能。

Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations

将条件引导统一为不动点迭代框架,发现CFG及其变体都是短区间单步迭代的特例,理论证明其次优性,进而提出前瞻引导(FSG)——在早期扩散阶段对更长区间执行多步迭代,以更少计算实现更好的对齐质量。

Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge

提出 LDDBM(Latent Denoising Diffusion Bridge Model),将去噪扩散桥模型扩展到共享潜空间中,结合对比对齐损失和预测损失,实现任意模态之间的通用翻译框架。

Towards Resilient Safety-Driven Unlearning for Diffusion Models Against Downstream Fine-tuning

提出ResAlign框架,通过Moreau包络近似和元学习策略,让扩散模型的安全卸载(unlearning)能抵抗下游微调带来的有害行为恢复,即使在纯良性数据上微调也能保持安全性。

Towards Robust Zero-Shot Reinforcement Learning

提出BREEZE框架,通过行为正则化、任务条件扩散策略和注意力增强表示建模,系统性解决FB-based零样本RL中的OOD外推误差和表达力不足问题,在ExORL和D4RL Kitchen上实现最优或接近最优的鲁棒零样本泛化性能。

Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

提出TIRE(Track, Inpaint, REsplat)三阶段管线,通过视频跟踪定位未观测区域、主体驱动修复模型渐进式填充纹理、多视图一致性反投影回3D,实现身份保持的3D/4D生成。

Training-Free Constrained Generation with Stable Diffusion Models

提出一种无需重新训练的约束生成方法,通过在 Stable Diffusion 的反向去噪过程中嵌入近端 Langevin 动力学(Proximal Langevin Dynamics),将图像空间中的约束通过解码器反向传播到潜空间,实现对生成输出的严格约束满足。

Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models

提出 Safe Text embedding Guidance (STG),一种无需训练的安全文本到图像生成方法,通过在扩散采样过程中基于安全函数对预期去噪图像的评估来动态调整文本嵌入方向,在有效去除不安全内容的同时最大程度保留原始语义意图。

Transferable Black-Box One-Shot Forging of Watermarks via Image Preference Models

本文提出一种基于图像偏好模型的黑盒水印伪造方法,仅需单张水印图像即可通过反向传播从中提取水印并粘贴到任意新图像上,在不访问水印算法的条件下有效伪造多种后处理水印方案。

Tree-Guided Diffusion Planner

提出Tree-guided Diffusion Planner (TDP),将测试时扩散规划形式化为树搜索问题,通过双层采样(粒子引导生成多样父轨迹 + 快速条件去噪生成子轨迹)在探索与利用之间取得平衡,在非凸目标和不可微约束下显著超越现有方法。

Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

通过揭示扩散策略中裁剪操作导致的分布失配本质,提出结合去噪调度优化与遗传算法群体选择的GDP方法,使现成DDPM扩散策略无需重训练即可在仅2步推理下达到甚至超越100步基线的操控性能。

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

构建了包含 10 万张超高分辨率图像及丰富标注的 UltraHR-100K 数据集,并提出频率感知后训练方法(DOTS + SWFR),通过面向细节的时间步采样和基于 DFT 的软加权频率正则化来增强预训练 T2I 模型的超高分辨率细节生成能力。

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

通过系统分析自回归图像生成中阻碍视觉语义学习的三个关键属性(局部条件依赖、步间语义不一致、空间不变性缺失),提出 ST-AR 训练框架,将掩码图像建模和对比学习融入 next-token prediction 训练,在不依赖预训练表示模型的情况下,使 LlamaGen-XL 的 FID 提升约 49%(从 19.42 降到 9.81),50 epoch 即接近 3B 参数模型 300 epoch 的效果。

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Models

在低秩高斯混合(MoLRG)数据模型下,理论证明了扩散模型表示质量随噪声水平呈单峰动态的现象源于去噪强度与类别区分度的权衡,并实证发现单峰动态的出现可作为模型泛化能力的可靠指标。

UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

提出UniLumos,一个统一的图像和视频重光照框架,通过在flow matching骨干中引入RGB空间的深度和法线几何反馈来增强物理合理性,同时借助路径一致性学习实现20倍加速。

Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations

发现 Diffusion Transformers (DiTs) 中存在 massive activations 现象导致特征不可区分,揭示其与 AdaLN 的内在联系,提出无需训练的 DiTF 框架来提取语义判别性特征,在视觉对应任务上超越 DINO 和 SD 模型。

UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation

提出以任务效用为中心的生成式数据增强框架 UtilGen,通过元学习权重网络评估合成数据的下游任务效用,并利用模型级 DPO 和实例级(prompt+noise)双层优化策略,自适应生成高效用的合成训练数据,在8个基准上平均提升3.87%。

V-CECE: Visual Counterfactual Explanations via Conceptual Edits

V-CECE提出首个系统性揭示人类与神经网络分类器语义理解差异(explanatory gap)的黑盒视觉反事实解释框架,通过WordNet知识图谱+匈牙利算法保证编辑集最优性,用Stable Diffusion执行概念级编辑,核心发现是CNN分类器的语义推理与人类严重不对齐(需5+步编辑),而LVLM(Claude 3.5 Sonnet)与人类高度一致(仅需2-3步)。

Value Gradient Guidance for Flow Matching Alignment

提出VGG-Flow方法,利用最优控制理论中的Hamilton-Jacobi-Bellman方程,将流匹配模型对齐问题转化为"残差速度场匹配值函数梯度"的梯度匹配任务,实现高效且保持先验分布的奖励对齐。

Vicinity-Guided Discriminative Latent Diffusion for Privacy-Preserving Domain Adaptation

提出 Discriminative Vicinity Diffusion (DVD),首次将潜扩散模型用于判别式知识迁移,通过在源域特征的近邻潜空间中训练扩散模型生成源样式线索,实现无需源数据访问的域适应,在标准 SFDA 基准上超越 SOTA。

Watermarking Autoregressive Image Generation

首次将 LLM 水印技术(KGW green/red scheme)适配到自回归图像生成模型的 token 层,识别并解决了关键挑战——反向循环一致性(RCC)不足,通过 tokenizer-detokenizer 微调和水印同步层实现了鲁棒的、具有理论保证的图像水印检测。

What We Don't C: Manifold Disentanglement for Structured Discovery

提出 WWDC(What We Don't C)方法,利用条件引导的潜在流匹配从已有 VAE 表征中去除已知信息,使未知特征在残余流形中更易被发现和访问,实现迭代式科学发现。

When Are Concepts Erased From Diffusion Models?

本文提出了两种概念擦除的机制模型(引导式回避 vs. 破坏式移除),并设计了涵盖优化搜索、上下文探测、噪声轨迹探测、分类器引导和动态追踪的五种独立探测方法,系统性地揭示了现有擦除方法大多只是"绕开"概念而非真正"消除"知识。

Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models

提出 HeadHunter 框架和 SoftPAG 方法,将扩散模型中的注意力扰动粒度从层级细化到单个注意力头级别,首次发现不同注意力头控制不同视觉概念(结构、风格、纹理等),实现了更精准且可组合的生成引导。

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

通过数值实验和理论分析揭示扩散模型训练中存在两个关键时间尺度——泛化时间 \(\tau_{\text{gen}}\) 和记忆化时间 \(\tau_{\text{mem}}\),后者随训练集大小 \(n\) 线性增长而前者保持恒定,由此产生的隐式动力学正则化使模型即使在高度过参数化情况下也能通过早停避免记忆化。

Why Diffusion Models Don't Memorize: The Role of Implicit Regularization

本文从数值实验和理论分析两个层面揭示扩散模型训练中存在隐式动态正则化机制:生成高质量样本的时间尺度 τ_gen 与出现记忆化的时间尺度 τ_mem 之间的间隔随训练集大小 n 线性增长,为"早停"提供了理论支撑。

Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation

通过高斯混合模型的理论分析和大规模语言模型实验(SmolLM2 系列多级蒸馏),揭示知识蒸馏在生成模型中的核心机制——蒸馏诱导学生模型在精度(precision,生成质量)和召回(recall,分布覆盖度)之间进行权衡,由教师分布的熵控制。

WMCopier: Forging Invisible Image Watermarks on Arbitrary Images

提出 WMCopier,首个基于扩散模型的 no-box 水印伪造攻击方法,无需任何目标水印算法的先验知识,通过训练无条件扩散模型学习水印分布、浅层反演注入水印信号、迭代精炼优化质量,在开源和商业水印系统(包括 Amazon)上实现高成功率伪造。


🎮 强化学习

A Differential and Pointwise Control Approach to Reinforcement Learning

将RL问题通过连续时间控制的微分对偶形式重新表述,利用哈密顿结构嵌入物理先验,提出dfPO算法实现逐点策略优化,在科学计算任务(曲面建模、网格控制、分子动力学)上以更少样本超越12个RL基线。

A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications

将传统只能在单个MDP内度量状态相似性的bisimulation metric (BSM)推广到跨MDP场景,提出广义双模拟度量(GBSM),严格证明了对称性、跨MDP三角不等式和同状态距离上界三个基本度量性质,并在策略迁移、状态聚合和基于采样的估计三个应用中推导出比标准BSM更紧的误差界和闭式样本复杂度。

A Near-optimal, Scalable and Parallelizable Framework for Stochastic Bandits Robust to Adversarial Corruptions and Beyond

提出 BARBAT 框架,改进了经典的 BARBAR 算法,通过固定 epoch 长度和逐 epoch 调整失败概率,将对抗腐蚀下随机多臂老虎机的 regret 从 \(O(\sqrt{K}C)\) 降至近最优的 \(O(C)\)(消除了 \(\sqrt{K}\) 因子),并成功扩展到多智能体、图老虎机、组合半老虎机和批量老虎机等多种场景。

A Theory of Multi-Agent Generative Flow Networks

提出多智能体生成流网络(MA-GFlowNets)的理论框架,证明了"局部-全局原理"——联合流函数可分解为各智能体独立流的乘积形式,设计了四种算法(CFN/IFN/JFN/CJFN),其中 JFN 和 CJFN 实现中心化训练+去中心化执行(CTDE),在 Hyper-Grid 和 StarCraft 环境中超越 RL 和 MCMC 方法。

A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning

首次引入矩阵分裂理论,将线性函数逼近下的TD、FQI和PFQI统一为求解同一目标线性系统 \((\Sigma_{cov} - \gamma\Sigma_{cr})\theta = \theta_{\phi,r}\) 的迭代方法(仅预条件子不同),给出各算法收敛的充要条件,提出rank invariance新概念,并揭示target network的本质是预条件子从常数到数据自适应的连续变换。

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

提出 DP-AG(Action-Guided Diffusion Policy),通过将扩散策略的噪声预测的 Vector-Jacobian Product (VJP) 作为结构化随机力驱动隐观测特征在扩散步骤间动态演化,并用循环一致对比损失闭合感知-动作环路,在 Push-T 上提升 6%、Dynamic Push-T 上提升 13%、真实 UR5 机器人上成功率提升 23%+。

Actor-Free Continuous Control via Structurally Maximizable Q-Functions

提出 Q3C(Q-learning for Continuous Control with Control-points),通过学习一组控制点来逼近 Q 函数并保证最大值恰好在控制点上取到,配合动作条件化 Q 值生成、控制点多样性损失和尺度归一化等关键改进,在标准基准上匹配 TD3,在受限动作空间中显著超越所有 actor-critic 方法。

Adaptive Cooperative Transmission Design for URLLC via Deep RL

提出 DRL-CoLA 算法,用双 Agent DQN 分别在源节点和中继节点上自适应配置 5G NR 传输参数(numerology、mini-slot、MCS),在两跳中继系统中仅用本地 CSI 即可达到接近全局 CSI 最优的 URLLC 可靠性。

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

提出 ANQ(Adaptive Neighborhood-constrained Q learning),在离线 RL 中引入基于优势函数的自适应邻域约束,在密度约束(过于保守)和支持约束(需精确建模行为策略)之间找到灵活的中间方案,通过双层优化框架实现高效 Q 学习,在 D4RL 基准上达到 SOTA。

Adaptively Coordinating with Novel Partners via Learned Latent Strategies

提出 TALENTS 框架,通过 VAE 学习潜在策略空间 + K-Means 聚类发现策略类型 + Fixed-Share 遗憾最小化算法在线推断队友类型,实现对未知人类/智能体队友的零样本实时适应协作。

ALINE: Joint Amortization for Bayesian Inference and Active Data Acquisition

ALINE 提出统一的分摊贝叶斯推断和主动数据获取框架,用 Transformer 架构 + RL 训练,使模型能同时策略性地选择最有信息量的数据点并即时完成后验推断,还支持灵活地针对特定参数子集或预测目标进行数据获取。

Approximating Shapley Explanations in Reinforcement Learning

提出 FastSVERL,一种可扩展的参数化学习框架,分别近似强化学习中 Shapley 值的两个计算瓶颈(特征函数和 Shapley 求和),支持离策略数据学习和随策略演化持续更新解释。

Automaton Constrained Q-Learning

提出 ACQL(Automaton Constrained Q-Learning),将线性时序逻辑(LTL)任务规范转化为自动机,结合目标条件学习和最小安全约束,首次在连续控制环境中可扩展地同时支持时序目标序列和非平稳安全约束。

Bandit and Delayed Feedback in Online Structured Prediction

首次研究在线结构化预测中赌臂反馈和延迟反馈场景,通过设计新的伪逆矩阵梯度估计器,实现了不显式依赖输出集大小 \(K\)\(O(T^{2/3})\) 替代遗憾上界。

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token,实现 20× token 压缩(100 步→5 token)、数学保证的动作块间 \(C^0\) 连续过渡,在 LIBERO-Long 上成功率排名第 1(86.4%),推理吞吐量 617 Hz(比 π₀ 快 2.14×、比 OpenVLA 快 101×)。

Behavior Injection: Preparing Language Models for Reinforcement Learning

揭示 LLM 对 RL 微调响应不一致的根本原因——通过 per-step influence 分析发现 RL 效果取决于(1)rollout 准确率分布(中等最优)和(2)数据 co-influence 强度,提出 BRIDGE 在 SFT 阶段注入探索/利用行为,使后续 RL 增益从 6% 提升到 46.6%。

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

从 token 熵模式的全新视角分析 RLVR,发现 CoT 推理中仅约 20% 的高熵"分叉 token"决定推理方向,仅在这些 token 上做梯度更新即可匹配甚至大幅超越全量更新(Qwen3-32B 上 AIME'25 +11.04),揭示 RLVR 本质是优化推理决策点。

Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers

提出混合二次-线性 Transformer(HQLT),将 KV-memory(softmax attention,精确检索但二次复杂度)与 FW-memory(DeltaNet/线性 attention,线性复杂度但检索粗糙)融合为互补记忆系统,比较三种混合策略(延迟流式/延迟分块/同步),在 340M 和 1.3B 参数规模的语言建模、检索、算法推理和 RL 任务上验证同步混合最优。

Bootstrap Off-policy with World Model (BOOM)

提出 BOOM 框架,通过 bootstrap 循环将在线规划器(MPPI)与 off-policy 策略学习紧密结合:策略初始化规划器,规划器反过来通过无似然对齐损失(likelihood-free alignment)引导策略改进,配合 soft Q-weighted 机制优先学习高回报行为,在高维连续控制任务上取得 SOTA。

Bootstrap Off-policy with World Model

提出 BOOM 框架,通过 bootstrap 对齐回路将在线规划器的高质量动作蒸馏到策略网络,使用 likelihood-free 的前向 KL 散度和软 Q 加权机制,有效缓解规划器与策略之间的 actor divergence 问题,在高维连续控制任务上取得 SOTA。

Boundary-to-Region Supervision for Offline Safe Reinforcement Learning

提出 B2R(Boundary-to-Region)框架,通过代价信号重对齐(CTG Realignment)解决序列模型在离线安全RL中对回报和代价的对称条件化谬误,将稀疏的边界监督转化为密集的安全区域监督,在38个安全关键任务中35个满足安全约束。

Certifying Concavity and Monotonicity in Games via Sum-of-Squares Hierarchies

证明了在多项式效用和半代数策略集的博弈中验证凹性和单调性是 NP-hard 的,并提出了两套基于平方和 (SOS) 规划的层次化认证方案,可在多项式时间内逐层求解。

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

提出 Generalized Lyapunov Function 方法,通过将 RL 值函数与神经网络残差项结合,并用多步加权下降条件替代经典的逐步严格下降要求,实现对 RL 策略的稳定性认证。

Checklists Are Better Than Reward Models For Aligning Language Models

提出 Reinforcement Learning from Checklist Feedback (RLCF),将指令分解为动态生成的 yes/no checklist,结合 AI judge 和代码验证器逐项评分后做 DPO 训练,在 5 个 benchmark 上一致性提升 Qwen2.5-7B-Instruct,是唯一在所有 benchmark 上都有正收益的方法(FollowBench +4pt, InFoBench +6pt, Arena-Hard +3pt)。

Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

提出基于轻量世界模型的"意图通信"架构,通过生成并共享未来轨迹计划来实现多智能体协调,在可扩展性和性能上全面超越端到端涌现通信方案。

Comparing Uniform Price and Discriminatory Multi-Unit Auctions through Regret Minimization

从在线学习和遗憾最小化框架出发,系统比较统一价格拍卖与歧视性拍卖的学习难度,证明两种格式在最坏情况下遗憾率相同,但特定结构条件下统一价格拍卖允许更快的学习速率。

Complexity Scaling Laws for Neural Models using Combinatorial Optimization

以旅行商问题(TSP)为案例,研究固定模型容量下问题复杂度(解空间大小、表示空间维度)与模型性能之间的可预测缩放规律,揭示了 RL 和 SFT 在组合优化中的系统性性能趋势。

Computational Hardness of Reinforcement Learning with Partial \(q^\pi\)-Realizability

引入"部分 \(q^\pi\)-可实现性"概念,证明在此设定下使用贪心策略集时学习近优策略是 NP-hard 的,使用 softmax 策略集时在 rETH 假设下需要指数时间,弥合了 \(q^*\)-可实现性和 \(q^\pi\)-可实现性之间的理论空白。

Confounding Robust Deep Reinforcement Learning: A Causal Approach

基于部分辨识(partial identification)理论扩展 DQN,提出 Causal DQN 从含有未观测混淆因子的离线数据中学习鲁棒策略——通过优化最坏情况下的价值函数下界来获得安全策略,在 12 个混淆 Atari 游戏中一致性地超越标准 DQN。

Continual Knowledge Adaptation for Reinforcement Learning

提出 CKA-RL,为每个任务维护知识向量(task-specific knowledge vector),通过 softmax 加权的动态知识适配和自适应知识合并机制,在三个持续 RL 基准上实现 4.20% 的整体性能提升和 8.02% 的前向迁移提升。

Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning

提出 温度解耦策略(temperature decoupling gambit),证明在熵正则化强化学习中,通过解耦评估温度和行为温度,可以在温度趋于零时保证策略和回报分布收敛到一个可解释的、保持多样性的最优策略。

CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design

提出 CORE(Constraint-aware One-step REinforcement learning),一种无 critic 的单步 RL 框架,通过结构化分布采样、scaling-graph 解码器和约束感知的 reward shaping 来高效探索 DNN 加速器的硬件-映射联合设计空间,在 7 个 DNN 模型上取得至少 15× 的 latency 改善。

Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning

CoAct TD Learning 颠覆 ε-greedy 的随机探索范式——以概率 ε 选择最小化 \(Q(s,a)\) 的动作(而非随机动作)来获取高时间差分信号,理论证明其产生更大 TD 误差,在 Atari 100K 上实现 248% 性能提升,仅需改动 2 行代码且零额外计算。

DCcluster-Opt: Benchmarking Dynamic Multi-Objective Optimization for Geo-Distributed Data Center Workloads

提出 DCcluster-Opt,一个面向地理分布式数据中心的开源高保真仿真基准平台,融合真实世界数据集(碳强度、电价、天气等)和物理模型,支持动态多目标负载调度的强化学习研究。

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation

SambaY 提出 Gated Memory Unit(GMU)用于跨层共享 SSM 的 token 混合表示,将 YOCO 的 cross-decoder 中一半的 cross-attention 层替换为轻量级 GMU,在保持线性预填充复杂度和长上下文检索能力的同时,大幅提升解码效率——最终产品 Phi4-mini-Flash-Reasoning (3.8B) 在推理任务上超越 Phi4-mini-Reasoning,且在 2K 提示 + 32K 生成场景下实现高达 10× 的解码吞吐提升。

Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents

提出 ForageWorld 自然觅食环境和神经科学启发的行为分析框架,揭示无模型 RNN-based DRL 智能体通过涌现动力学展现出结构化的类规划行为——无需显式记忆模块或世界模型。

DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning

提出 DeepDiver,一个 RL 驱动的搜索推理框架,在真实开放网络环境中训练 LLM 的信息寻求能力,催生"搜索强度缩放"(SIS)涌现行为——7B 模型在知识密集任务上可媲美 671B 的 DeepSeek-R1。

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

提出 DISCOVER,一种面向稀疏奖励长视野 RL 的目标选择策略,通过同时平衡可达性(achievability)、新颖性(novelty)和相关性(relevance)来生成指向目标任务的课程,理论上证明达到目标的步数与目标距离线性相关(而非搜索空间体积),在高维导航和操作任务中显著超越先前 SOTA 探索策略。

Distribution Learning Meets Graph Structure Sampling

本文建立了高维概率图模型 PAC 学习与图结构高效计数/采样之间的新联系,利用在线学习框架(EWA/RWM)将指数级专家集合的维护问题转化为 DAG 结构的加权采样问题,首次给出了弦图骨架贝叶斯网络的高效 agnostic 学习算法,并将树结构分布的样本复杂度从 O(nk³/ε) 改进到最优的 O(nk²/ε)。

Dynamic Regret Reduces to Kernelized Static Regret

将动态遗憾最小化问题重新建模为再生核希尔伯特空间(RKHS)中的静态遗憾问题,通过精心设计平移不变核实现最优路径长度依赖 \(\widetilde{\mathcal{O}}(\sqrt{MP_TT})\),且天然不需要时间范围先验知识。

Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generalization

在 DreamerV3 架构中引入自监督上下文编码器 DALI,从交互历史中推断潜在环境参数(如重力、摩擦力),在 cMDP 基准上无需重训练即可实现零样本泛化,在外推任务上比 ground-truth context-aware 基线高出最多 96.4%。

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

提出 EgoBridge 框架,利用最优传输(OT)在策略潜在空间中对齐人类和机器人数据的联合分布(特征+动作),结合动态时间规整(DTW)构建伪配对,实现从第一人称人类数据到机器人的跨具身知识迁移,在真实世界任务中绝对成功率提升达 44%。

Emergent World Beliefs: Exploring Transformers in Stochastic Games

将LLM涌现世界模型的研究从完全信息游戏(Othello、国际象棋)扩展到不完全信息领域(德州扑克),通过在PHH格式扑克数据上预训练GPT-2并探测其内部激活,证明模型不仅学习了确定性特征(牌型识别~98%准确率),还自发发展了对随机性特征(胜率/equity,相关系数0.59)的内部表示。

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

通过 82,620 次大规模实验系统性研究合作多智能体 RL 中的鲁棒性和弹性,揭示超参数调优比算法选择更重要,并发现参数共享、GAE、PopArt 等常见做法在不确定性下反而有害,提出一套实用的超参数建议。

Enhancing Interpretability in Deep Reinforcement Learning through Semantic Clustering

提出语义聚类模块(SCM),将特征降维网络(FDR)与改进的 VQ-VAE 在线聚类相结合,无缝集成到 DRL 训练流程中,解决了 t-SNE 可视化不稳定的问题,揭示 DRL 内在具有基于语义的动态聚类特性。

Establishing Linear Surrogate Regret Bounds for Convex Smooth Losses via Convolutional Fenchel–Young Losses

通过构造基于卷积负熵(convolutional negentropy)的 Fenchel–Young 损失,首次证明凸且光滑的代理损失可以同时拥有线性代理遗憾界,打破了此前社区认为光滑性与线性遗憾率不可兼得的固有认知。

EvoLM: In Search of Lost Language Model Training Dynamics

系统训练 100+ 个 1B/4B 参数的 LM(从零开始),透明地研究预训练→续训→SFT→RL 各阶段的训练动态,揭示过度训练的递减收益、灾难性遗忘的缓解策略、以及 SFT/RL 配置的复杂权衡。

Exploration via Feature Perturbation in Contextual Bandits

提出特征扰动(Feature Perturbation)作为上下文 bandit 的新型随机探索策略:直接在特征输入上注入噪声,而非扰动参数或奖励,从而在广义线性 bandit 中实现 \(\tilde{O}(d\sqrt{T})\) 最优遗憾界,首次消除了随机化算法相较确定性方法的 \(\sqrt{d}\) 因子劣势。

Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

系统评测 LLM/VLM 在经典 RL 探索任务(bandit、Gridworld、Atari)上的零样本能力,发现 VLM 存在"知行差距"(knowing-doing gap)——高层推理正确但低层控制失败,并提出简单的 VLM-RL 混合框架在理想条件下可显著加速学习。

Extending NGU to Multi-Agent RL: A Preliminary Study

将单智能体 NGU(Never Give Up)算法扩展至多智能体环境,通过共享回放缓冲区、共享新颖性信号和异构 β 参数三个设计维度的系统消融,发现 NGU + 共享经验池组合在 PettingZoo simple_tag 追捕任务中显著优于多智能体 DQN 基线。

FedRAIN-Lite: Federated Reinforcement Algorithms for Improving Idealised Numerical Weather and Climate Models

提出 FedRAIN-Lite 联邦强化学习框架,将 RL 智能体分配到不同纬度带学习局部气候参数化策略并定期全局聚合,在层次化理想能量平衡模型上验证 DDPG 在热带和中纬度区域可将面积加权 RMSE 降低 50% 以上,为 RL 扩展到全尺度 GCM 提供了可行路径。

Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown

首次系统性实证评估 Feel-Good Thompson Sampling (FG-TS) 及其平滑变体 SFG-TS 在近似后验下的表现,横跨线性/逻辑/神经三类上下文赌博机设置和十四个基准,发现 FG-TS 在精确后验场景(线性/逻辑)下优于标准 TS,但在神经赌博机中反而退化,揭示了乐观偏差与采样噪声之间的关键权衡。

Financial Instruction Following Evaluation (FIFE)

FIFE 是一个面向金融分析任务的高难度指令遵循基准,包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束,通过严格/宽松两种模式评测 53 个模型,揭示出即使最强的开放权重模型(76.1% strict)也无法完美遵循金融领域的复杂指令要求。

Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning

首次给出鲁棒平均奖励 MDP 策略评估的有限样本复杂度分析:通过构造精巧的半范数证明鲁棒 Bellman 算子具有收缩性质,结合截断 Multi-Level Monte Carlo 估计器实现有限期望样本复杂度,最终达到阶最优的 \(\tilde{\mathcal{O}}(\epsilon^{-2})\) 样本复杂度。

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

提出 Forl 框架,将条件扩散模型生成的多模态候选状态与零样本时序基础模型的偏移预测通过维度最近匹配(DCM)融合,在测试时无需重训练即可应对观测函数随 episode 非平稳变化的离线 RL 部署场景,在 D4RL 标准基准上平均提升数十分。

Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds

系统性评估了基础模型(LLM)作为零样本世界模型(FWM)和直接决策智能体(FA)在文本网格世界中的表现,揭示了两种策略在确定性/随机性环境中的互补优势。

Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits

本文证明 GP-UCB 在 noise-free GP bandit 问题中可达到 nearly-optimal regret,首次在 SE 核下实现 \(O(1)\) 常数累积遗憾、在 Matérn 核(\(d < \nu\))下实现 \(O(1)\) 累积遗憾,弥合了 GP-UCB 理论与实践之间的长期差距。

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update

提出GLB-OMD算法,首次在广义线性赌博机(GLB)问题中同时实现近似最优遗憾界 \(\mathcal{O}(\log T\sqrt{T/\kappa_*})\) 和每轮 \(\mathcal{O}(1)\) 的时间/空间复杂度,核心技术是基于混合损失(mix loss)为在线镜像下降(OMD)估计量构建紧致置信集。

Generalizing Verifiable Instruction Following

引入IFBench基准评估精确指令遵循的泛化能力,证明当前SOTA模型严重过拟合于IFEval的25种约束模板,并提出IF-RLVR训练方法(基于GRPO + 可验证奖励)显著提升域内外指令遵循性能。

Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor-Critic

提出Primal-Dual Natural Actor-Critic(PDNAC)算法,首次在一般参数化策略下的平均奖励约束MDP中实现 \(\tilde{\mathcal{O}}(1/\sqrt{T})\) 的全局收敛率和约束违反率,匹配理论下界。

Gradient-Variation Online Adaptivity for Accelerated Optimization with Hölder Smoothness

在 Hölder 光滑函数类上实现梯度变差自适应的在线学习算法,其 regret 在光滑和非光滑极端之间平滑插值;通过在线到批量转换,首次为强凸优化提供在光滑情形下加速、非光滑情形下近优的通用方法。

GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining

提出 GraphChain 框架,通过渐进式图蒸馏(RL驱动的工具链序列生成)和结构感知测试时自适应(基于图拓扑指纹的轻量适配器),使 LLM 能像人类探索未知环境一样,通过动态工具链序列逐步分析大规模图数据,平均准确率 84.7% 超越最优基线 20.7%,可扩展至 20 万节点。

Greedy Algorithm for Structured Bandits: A Sharp Characterization of Asymptotic Success / Failure

本文对结构化 bandit 问题中的贪心算法(Greedy)进行了完整的理论刻画,提出 self-identifiability 作为贪心算法能否获得 sublinear regret 的充要条件,并将结论推广到上下文 bandit 及一般交互决策框架 DMSO。

Horizon Reduction Makes RL Scalable

本文通过大规模实验(最高 10 亿转移数据)揭示离线 RL 的可扩展性瓶颈源于决策时域过长(curse of horizon),并证明通过 n-step 回报和层次策略等时域缩减技术可显著提升扩展性,进而提出了简洁有效的 SHARSA 方法。

Human-Inspired Multi-Level Reinforcement Learning

本文提出 RbRL-KL,在 rating-based RL 基础上增加 KL 散度驱动的策略损失项,利用不同评分等级的失败经验以不同权重推开当前策略,在 6 个 DeepMind Control 环境中超越标准 RbRL。

Hybrid Latent Reasoning via Reinforcement Learning

HRPO 提出混合潜在推理策略优化:通过可学习的门控机制将前一步的隐藏状态表示逐步融入到采样的 token embedding 中,使 LLM 在推理阶段同时利用离散 token 和连续潜在表示,无需 CoT 标注即可通过 RL 训练,在知识密集型和 STEM 推理任务上均超越 PPO/GRPO 等基线。

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

本文针对在线 Pandora's Box 问题提出新算法,将 regret 从 \(\widetilde{O}(n\sqrt{T})\) 改进到 \(\widetilde{O}(\sqrt{nT})\)(匹配下界),并首次提出 contextual linear 扩展实现 \(\widetilde{O}(nd\sqrt{T})\) regret。

Improved Regret Bounds for GP-UCB in Bayesian Optimization

本文证明 GP-UCB 在贝叶斯设定下可达 \(\widetilde{O}(\sqrt{T})\) 高概率 regret(Matern 核满足光滑条件时)和 \(O(\sqrt{T \ln^2 T})\)(SE 核),弥合了 GP-UCB 已有上界与最优上界间的差距。

Improving Planning and MBRL with Temporally-Extended Actions

本文提出在 shooting-based 规划和 MBRL 中将动作持续时间作为额外优化变量,配合 MAB 自动选择持续时间范围,在多个环境中显著加速规划并解决标准方法无法解决的困难任务。

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

将复杂 RAG 流水线中的多个组件(Query Rewriter、Selector、Generator)建模为协作多智能体系统,使用 MAPPO 算法进行联合优化,以最终答案的 F1 分数作为共享奖励,在多个 QA 基准上超越现有单模块优化方法。

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

提出 RAIF,通过 RL+规则中心奖励培养 LLM 在复杂指令(含 And/Chain/Selection/Nested 组合约束)下的深度推理能力:发现 vanilla CoT 对指令跟随有负面影响(因 LLM 只会浅层复述指令),设计 superior CoT enforcement(样本级对比过滤无效推理)+ 行为克隆控制分布偏移,1.5B 模型匹配 8B 性能,7 个 benchmark 平均提升 11.74%。

Incremental Sequence Classification with Temporal Consistency

将强化学习中时序差分(TD)学习的思想引入序列分类任务,提出 TC-\(\lambda\) 损失函数,通过要求相邻时间步的预测分布满足时序一致性条件来训练增量式序列分类器,在文本分类和 LLM 验证任务上均优于标准交叉熵方法。

Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI Coordination

受维果茨基内心语言理论启发,提出 MIMIC 框架,利用语言作为感知与动作之间的中介表征,通过 VLM 提供语言脚手架训练 CVAE 生成内心语言,再以扩散策略在条件化于内心语言的情况下生成多样且可控的行为。

Interactive and Hybrid Imitation Learning: Provably Beating Behavior Cloning

当标注成本按状态而非轨迹计量时,证明交互式方法 Stagger 在 \(\mu\)-可恢复条件下可证明地超越 Behavior Cloning(次优性 \(O(\mu H \log B / N)\) vs \(O(RH \log B / CN)\)\(\mu \ll R\) 时优势显著);进一步提出混合 IL 算法 Warm-Stagger,结合离线数据和交互标注,在特定 MDP 上实现两种数据源的严格互补优势。

Inverse Optimization Latent Variable Models for Learning Costs Applied to Route Problems

提出 IO-LVM(Inverse Optimization Latent Variable Model),用 VAE 式编码器映射观测的 COP 解到潜在成本空间,通过 Fenchel-Young 损失和黑盒求解器(Dijkstra/TSP solver)在解码端保证可行性,无需 agent 标签即可从路径数据中学到成本函数的分布,成功不可监督地分离不同 agent 的导航偏好。

Kimina Lean Server: A High-Performance Lean Server for Large-Scale Verification

提出Kimina Lean Server——一个面向大规模强化学习训练的高性能Lean 4验证服务器,通过服务端并行化和LRU缓存机制实现1.5-2倍的速度提升,已用于训练SOTA定理证明模型Kimina-Prover。

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

提出 Wiki-PRF,一套三阶段(处理-检索-过滤)的多模态 RAG 框架,通过强化学习训练 VLM 自主调用视觉工具和过滤检索结果,在 E-VQA 和 InfoSeek 上达到 SOTA。

Last Iterate Convergence in Monotone Mean Field Games

在非严格单调平均场博弈(MFG)中,提出基于 KL 散度的近端点(PP)方法实现渐近最后迭代收敛(LIC),并证明正则化镜像下降(RMD)以指数速率收敛到正则化均衡,两者结合的 APP 算法在标准基准上可靠收敛到非正则化均衡。

Learning from Demonstrations via Capability-Aware Goal Sampling

提出Cago方法,通过动态追踪智能体在专家演示轨迹上的达成能力,自适应采样处于能力边界的中间目标,构建隐式课程引导长视野稀疏奖励任务学习。

Learning Human-Like RL Agents through Trajectory Optimization with Action Quantization

提出 MAQ(Motion-Action Quantization)方法,通过 VQ-VAE 将人类动作离散化为有限的原语集合,然后在量化动作空间中进行轨迹优化,训练出行为模式更接近人类的 RL agent。

Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis

提出首个具有非渐近收敛保证的单循环Actor-Critic算法AC-SMFG,用于求解Stackelberg平均场博弈(SMFG),收敛速率达到 \(\widetilde{\mathcal{O}}(k^{-1/2})\)

Learning Interactive World Model for Object-Centric Reinforcement Learning

提出 FIOC-WM,通过对象级和属性级的两层分解学习世界模型中的物体交互结构,并基于交互原语训练层级策略,在多个机器人控制任务上实现了更高效的策略学习和组合泛化能力。

Learning Interestingness in Automated Mathematical Theory Formation

提出 Fermat——一个将数学理论形成建模为 MDP 的强化学习环境,以及 EvoAbstract——一个带抽象学习的 LLM 驱动进化算法,用于自动合成数学对象的"兴趣度"度量函数,在初等数论和有限域上显著超越硬编码基线。

Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization

提出Diversity-regularized Actor Critic(DrAC)算法,通过将不可解析的多模态策略(amortized actor和diffusion actor)统一为stochastic-mapping formulation,利用重参数化技巧直接进行策略梯度优化,并设计基于距离的多样性正则化替代传统熵正则化,在多目标导航和生成式RL等多样性关键任务中展现显著优势。

Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling

提出 MIStar——首个基于深度强化学习 (DRL) 的改进型启发式框架,用于求解柔性作业车间调度问题 (FJSP)。核心创新包括有向异构析取图表示、记忆增强异构图神经网络 (MHGNN) 和并行贪心搜索策略,在合成数据和公开 benchmark 上全面超越手工改进启发式和 SOTA 构造型 DRL 方法。

Learning to Clean: Reinforcement Learning for Noisy Label Correction

将噪声标签纠正问题建模为强化学习中的马尔可夫决策过程,提出 RLNLC 框架,通过 k 近邻嵌入空间构建策略函数判断哪些标签需纠正,并设计标签一致性奖励和跨子集对齐奖励指导纠正过程,在多个基准数据集上的实例依赖和对称噪声场景中均达到最优性能。

Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning

提出两种结构化时序先验(Memory-Length Prior和Gaussian Distributional Prior)嵌入Transformer世界模型的自注意力机制中,在部分可观测RL环境下,Gaussian Attention在Atari 100k基准上相对UniZero提升77%的人类归一化均分,且计算开销几乎为零。

Massively Parallel Imitation Learning of Mouse Forelimb Musculoskeletal Reaching Dynamics

基于 MIMIC-MJX 平台构建小鼠前肢肌肉骨骼模拟学习流水线,通过 JAX 加速的大规模并行 PPO(120 万步/秒)训练物理感知模仿学习策略,证明控制成本正则化能使模拟肌肉活动更好地预测真实 EMG 信号,并用基于 Takens 定理的非线性动力学方法从关节运动学预测肌肉激活。

Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning

提出 SUBSAMPLE-MFQ 算法,通过从 \(n\) 个智能体中随机采样 \(k\) 个进行均场 Q 学习,将多智能体强化学习的样本复杂度从 \(\text{poly}(n)\) 降低到 \(\text{poly}(k)\),且性能差距仅为 \(\tilde{O}(1/\sqrt{k})\)(与 \(n\) 无关),当 \(k = O(\log n)\) 时实现相对均场 MARL 的指数加速。

Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning

提出 Memo,一种基于 Transformer 的记忆增强框架,通过周期性生成摘要 token(summary tokens)压缩历史上下文,在保持甚至超越全上下文 Transformer 性能的同时,将推理时 KV 缓存缩小 8-10 倍,并展现出更好的长上下文泛化和流式推理鲁棒性。

Meta-World+: An Improved, Standardized, RL Benchmark

本文系统揭示 Meta-World 基准在不同版本间因奖励函数不一致导致的算法比较失真问题,并发布标准化新版本 Meta-World+,明确保留 V1/V2 两套奖励函数,新增 MT25/ML25 任务集,升级至 Gymnasium API,实现完全可复现的多任务和元强化学习评估。

MetaBox-v2: A Unified Benchmark Platform for Meta-Black-Box Optimization

MetaBox-v2 是对元黑箱优化(MetaBBO)基准平台的里程碑式升级,统一支持 RL/SL/NE/ICL 四大学习范式,复现 23 个基线算法,集成 18 个测试套件(1900+ 问题实例),并通过向量化环境和分布式测试实现 10-40 倍加速。

Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning

发现像素输入的深度 RL 网络中,编码器(卷积层 \(\phi\))与全连接层(\(\psi\))之间的"瓶颈连接"是阻碍网络缩放的根本原因,提出用全局平均池化(GAP)这一极简方法直接化解瓶颈,以更低计算成本获得与复杂方法(SoftMoE、稀疏训练)相当或更优的性能。

Mixing Expert Knowledge: Bring Human Thoughts Back to the Game of Go

提出 LoGos,通过混合领域专家数据(围棋)与通用长 CoT 推理数据进行冷启动微调 + GRPO 强化学习,使通用 LLM 在围棋中达到职业棋手水平的同时保持优秀的通用推理能力。

Models That Prove Their Own Correctness

本文提出 Self-Proving Models 框架,让模型通过交互式证明系统向验证算法证明其输出的正确性,并设计了 Transcript Learning (TL) 和 Reinforcement Learning from Verifier Feedback (RLVF) 两种学习方法,在 GCD 计算任务上实验验证 Annotated TL 可达 96% 的 Verifiability。

Modulation of Temporal Decision-Making in a Deep Reinforcement Learning Agent under the Dual-Task Paradigm

在简化版Overcooked环境中训练DRL智能体执行单任务(时间生产)和双任务(时间生产+数字比较),发现双任务智能体在四种目标时长下均显著过度生产时间——这一涌现行为与人类时间感知研究中双任务范式下的时间高估现象高度一致。

MTL-KD: Multi-Task Learning Via Knowledge Distillation for Generalizable Neural Vehicle Routing Solver

提出基于知识蒸馏的多任务学习框架MTL-KD,通过将多个RL单任务教师模型的策略知识蒸馏到一个重解码器学生模型中,实现了对多种VRP变体的高效统一求解,并在大规模问题上展现出卓越的泛化能力。

Multi-Agent Collaboration via Evolving Orchestration

提出"木偶师"(Puppeteer)式多 Agent 协作范式——一个中心化编排器通过 RL 学习在每个推理步骤动态选择激活哪个 Agent,在封闭域和开放域任务上同时提升性能和效率,并发现演化后的拓扑趋向更紧凑的环形结构。

Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach

将熵正则化的 max-min 多目标强化学习重新建模为两人零和正则连续博弈,提出 ERAM/ARAM 算法,通过镜像下降实现闭式权重更新和全局 last-iterate 收敛,在多种 MORL 环境中显著超越基线。

Near-Optimal Quantum Algorithms for Computing (Coarse) Correlated Equilibria of General-Sum Games

首次研究计算多玩家一般和博弈的相关均衡(CE)和粗相关均衡(CCE)的量子算法,通过量子化多尺度 MWU 方法和统一 QRAM 方案,实现 \(\tilde{O}(m\sqrt{n})\) 的近最优查询复杂度(在玩家数 m 和动作数 n 上),并证明了匹配的量子下界。

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

提出NoisyRollout,一种零额外训练成本的数据增强方法,在GRPO训练VLM时混合来自干净和适度扰动图像的rollout以增强策略探索多样性,仅用2.1K样本在5个域外基准上达到开源RL微调模型SOTA。

Non-convex Entropic Mean-Field Optimization via Best Response Flow

将Best Response Flow从凸函数泛函优化扩展到非凸情形,证明在充分大的熵正则化下,BR算子在 \(L^1\)-Wasserstein距离下成为压缩映射,保证非凸目标的唯一全局最小值存在性及指数收敛。

On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

本文为一般效用强化学习(RLGU)中的策略梯度方法建立了全局最优性理论保证:在表格设定下通过新的梯度支配不等式证明了全局收敛,在大规模状态-动作空间下提出基于最大似然估计(MLE)的占据度量近似算法 PG-OMA,样本复杂度仅依赖函数近似类的维度 \(m\) 而非状态-动作空间大小。

Online Optimization for Offline Safe Reinforcement Learning

提出 O3SRL 框架,将离线安全强化学习问题形式化为极小极大优化,通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子,避免了不稳定的离策略评估,在严格安全约束下实现高奖励。

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Open Vision Reasoner(OVR)通过"语言冷启动 + 大规模多模态 RL"两阶段训练范式,将语言模型中的认知行为(如回溯、验证)有效迁移到视觉推理中,基于 Qwen2.5-VL-7B 在 MathVision 上首次突破 50%(51.8%),成为同规模 SOTA。

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

提出 UEPO 框架,通过多种子动力学感知扩散策略、动态分歧正则化和基于扩散的数据增强三大核心组件,解决离线到在线强化学习中多模态行为覆盖不足和分布偏移问题,在 D4RL 基准上超越 Uni-O4。

Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinforcement Learning

提出REBMBO框架,将高斯过程(局部建模)、能量模型EBM(全局探索)和PPO强化学习(多步前瞻)统一为贝叶斯优化闭环,在高维/多峰黑盒优化中显著优于传统BO方法。

Oryx: a Scalable Sequence Model for Many-Agent Coordination in Offline MARL

本文提出 Oryx,一种面向离线合作 MARL 的可扩展序列模型算法,将基于 Retention 的 Sable 架构与自回归形式的 ICQ 离线正则化结合,通过双解码器输出策略和 Q 值并利用反事实优势估计,在 65 个数据集上超过 80% 达到 SOTA,并展示了在 50 智能体规模下的稳健扩展能力。

Parameter-Free Algorithms for the Stochastically Extended Adversarial Model

针对桥接对抗性和随机在线凸优化的 SEA 模型,首次开发无参数算法:在未知域直径 \(D\) 和/或 Lipschitz 常数 \(G\) 条件下,基于 Optimistic Online Newton Step (OONS) 实现与已知参数情况相当的 regret 界。

Parameter Efficient Fine-tuning via Explained Variance Adaptation

提出 Explained Variance Adaptation (EVA),通过对激活向量进行增量 SVD 来初始化 LoRA 矩阵,可证明地最大化期望梯度信号,并结合自适应秩分配机制在语言生成/理解、图像分类、强化学习等多领域建立了精度-效率的新 Pareto 前沿。

PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization

提出 PARCO 框架,通过 Communication Layers 实现智能体间协调、Multiple Pointer Mechanism 实现并行解码、Priority-based Conflict Handler 解决冲突,高效求解多智能体组合优化问题。

Periodic Skill Discovery

提出 Periodic Skill Discovery (PSD) 框架,通过将状态映射到圆形潜空间来自然编码周期性,实现无监督地发现具有不同周期的多样化运动技能。

Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options

在偏好强化学习中提出 M-AUPO 算法,利用 Plackett-Luce 排序模型处理多选项比较反馈,首次从理论上证明更大的子集规模直接改善样本效率。

Prompt Tuning Decision Transformers with Structured and Scalable Bandits

提出一种基于多臂老虎机的结构化prompt调优方法,通过将prompt分解为独立segment并利用预训练PDT作为特征提取器,将prompt搜索复杂度从组合爆炸降为线性,在多任务离线RL中显著提升冻结PDT骨干网络的推理性能。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

提出 AcTOL,通过视觉-语言排序损失和布朗桥约束来学习有序且连续的视觉-语言表征,无需刚性目标到达假设,在模拟和真实机器人操作任务上显著提升下游表现。

Quantifying Generalisation in Imitation Learning

本文提出 Labyrinth 基准环境,通过可控的迷宫结构变化实现训练与评估数据的严格分离,揭示了当前模仿学习方法在结构泛化上的严重不足(最佳方法在测试集仅 5% 成功率),为模仿学习的泛化评估提供了系统性工具。

Real-World Reinforcement Learning of Active Perception Behaviors

提出非对称优势加权回归(AAWR),在训练时利用额外特权传感器来估计更准确的优势函数,从而高效学习真实世界中的主动感知策略,在8个涵盖不同部分可观测程度的操控任务上均超越所有基线方法。

Reasoning Gym: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

发布包含100+过程生成推理任务的Reasoning Gym库,覆盖代数、算术、算法、逻辑、几何、图论、游戏等领域,每个任务支持无限数据生成和参数化难度控制,实验证明RLVR训练在域内/跨域均实现显著技能迁移且能提升MATH、GSM8K等外部基准表现。

Reinforcement Learning for Long-Horizon Multi-Turn Search Agents

展示 RL 训练的 14B 参数搜索 agent 在法律文档检索任务上通过多轮交互可以超越 frontier 模型(85% vs GPT o3 的 81%),关键在于精心设计的分段奖励结构和允许长 horizon 多轮交互。

Reinforcement Learning Teachers of Test Time Scaling

提出强化学习教师(RLT)框架,将问题和答案同时提供给教师模型,训练其生成有效的解释性推理链条,而非从零解题,从而用7B参数的小教师模型产出比数量级更大模型更优的蒸馏数据。

Reinforcement Learning with Action Chunking

提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

提出首个基于强化学习的多模态大模型后训练框架 RePIC,用于个性化图像描述生成,在多概念场景中显著优于基于 SFT 的方法。

Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs

将逆合成规划重构为树结构MDP中的最差路径(worst-path)优化问题——合成树的价值由最弱路径决定(任何一条死胡同路径将导致整棵树无效),提出InterRetro通过加权自模仿学习优化这一最差路径目标,在Retro*-190上达到100%成功率,路径长度缩短4.9%,仅需10%训练数据即达92%完整性能。

Reward-Aware Proto-Representations in Reinforcement Learning

系统发展了默认表示(DR)的理论基础——推导了 DP 和 TD 学习算法、分析了特征空间结构、提出了默认特征进行函数逼近——并在奖励塑形、期权发现、探索和迁移学习四个场景中展示了 DR 相比后继表示(SR)的奖励感知优势。

Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents

提出一种基于奖励层面(reward-based)的风险感知约束RL框架,使用优化确定性等价(OCE)风险度量同时覆盖目标和约束,建立了参数化强对偶性,并给出模块化算法——可包装标准RL求解器(如PPO)作为黑盒使用。

Risk-Averse Total-Reward Reinforcement Learning

提出了面向无折扣总奖励准则(TRC)的风险规避Q-learning算法(ERM-TRC和EVaR-TRC),利用ERM的可引出性(elicitability)将Bellman算子转化为随机梯度下降形式,并证明了算法的收敛保证。

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Tango 提出一种交替 RL 训练生成器和验证器的框架——验证器是生成式过程级 LLM(用自然语言逐步评判),仅用结果级正确性奖励训练(无需步骤标注),通过与生成器的共进化相互增强——在 7B/8B 级别模型上达到SOTA,AIME 2025 准确率相对 vanilla GRPO 提升 100%。

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Robot-R1 提出利用强化学习(GRPO)训练大视觉语言模型(LVLM)进行具身推理,通过将下一关键状态预测转化为多选题并用 RL 优化推理路径,仅凭 7B 参数在低级控制推理任务上超越 GPT-4o。

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

提出CART(Conservative Adversarially Robust Decision Transformer),首个在随机博弈中增强Decision Transformer对抗鲁棒性的方法,通过阶段博弈建模和NashQ值估计解决ARDT在随机状态转移下的过度乐观问题,实现更准确的极小极大值估计和更优的最差情况回报。

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

本文提出理性保持策略优化(RPO)框架和理性策略梯度(RPG)算法,通过引入操纵者智能体和对手塑造技术,在合作和一般和博弈场景中消除对抗优化导致的自毁行为,同时实现策略鲁棒化和多样化。

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning

提出RoiRL——一种基于离线迭代强化学习的轻量级自监督推理框架,通过加权对数似然目标函数替代在线RL(如TTRL),在不需要参考模型和真实标签的情况下实现LLM推理能力的自我提升,训练速度提高2.5倍且性能更优。

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Router-R1 将多 LLM 路由和聚合建模为序列决策过程,用 LLM 自身作为路由器交替执行"思考"和"路由"动作,通过 PPO 训练配合格式/正确性/成本三重奖励,在 7 个 QA 基准上超越所有路由器基线且可泛化到未见过的 LLM。

Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning

提出 RTZ-VI-LCB 算法用于离线鲁棒两人零和 Markov 博弈(RTZM G),通过乐观鲁棒值迭代 + Bernstein 风格惩罚,实现近最优样本复杂度 \(O(C_r^* \cdot H^4 \cdot S \cdot (A+B) / \varepsilon^2)\),较此前最优结果 \(O(H^5 \cdot S^2 \cdot AB / \varepsilon^2)\) 在状态空间和动作空间依赖上均有显著改善。

Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning

首次为分布鲁棒平均奖励强化学习(DR-AMDP)建立了有限样本收敛保证,提出两种算法(折扣归约法和锚定法),在KL和\(f_k\)-散度不确定集下均达到\(\widetilde{O}(|S||A|t_{\mathrm{mix}}^2\varepsilon^{-2})\)的近最优样本复杂度。

Scalable Neural Incentive Design with Parameterized Mean-Field Approximation

提出 AMID 算法,将多智能体激励设计(ID)问题形式化为参数化平均场博弈(PMFG),证明有限\(N\)智能体目标以\(\mathscr{O}(1/\sqrt{N})\)速率逼近无限种群极限,在多种拍卖场景大幅提升收益。

Scalable Policy-Based RL Algorithms for POMDPs

提出将 POMDP 近似为有限状态的 Superstate MDP(状态为截断历史),给出更紧的最优值函数差上界(随历史长度指数衰减),并首次证明标准 TD 学习 + 策略优化在此非马尔可夫采样下的有限时间收敛保证。

Self-Improving Embodied Foundation Models

本文提出一种面向具身基础模型的两阶段后训练方法:第一阶段通过行为克隆和 steps-to-go 预测进行监督微调,第二阶段利用 steps-to-go 预测生成的自奖励函数和成功检测器实现在线 RL 自我改进,仅需 1-3% 额外数据即可实现 1.5x 以上的成功率提升,并首次展示了机器人自主学习超出模仿数据分布之外的新技能。

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs

提出基于非马尔可夫 Feynman-Kac 模型的嵌套 SMC(Sequential Monte Carlo)算法,在连续 POMDP 中实现策略优化,天然捕获信息收集价值而无需手工启发式。

Sequential Multi-Agent Dynamic Algorithm Configuration

提出 Seq-MADAC 框架,将多超参数动态配置建模为上下文顺序多智能体 MDP,通过顺序优势分解网络(SADN)利用参数间的固有依赖关系,在多目标优化算法配置上超越现有 MARL 方法。

Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning

揭示了强化学习中后继度量(successor measure)本身并非近似低秩的,但"位移后继度量"(shifted successor measure)自然具有低秩结构;通过引入新的 Type II Poincaré 不等式量化所需位移量,为目标导向 RL 提供了有限样本理论保证和实践改进。

Simultaneous Swap Regret Minimization via KL-Calibration

提出 KL-Calibration 这一更强的校准度量,证明其等价于 log loss 的 swap regret,并通过非均匀离散化和新型随机取整方案实现 \(\tilde{\mathcal{O}}(T^{1/3})\) 的同时 swap regret 上界,覆盖比已有工作更广的 proper loss 类。

Solving Continuous Mean Field Games: Deep Reinforcement Learning for Non-Stationary Dynamics

提出DEDA-FP算法,首次在连续状态/动作空间的非平稳平均场博弈(MFG)中同时学习Nash均衡策略和种群分布,通过结合深度RL计算最优响应、监督学习表示平均策略、条件Normalizing Flow建模时变种群分布,实现了比现有方法快10倍以上的采样效率。

Solving Neural Min-Max Games: The Role of Architecture, Initialization & Dynamics

首次为两层神经网络参数化的零和博弈提供收敛保证,证明在适当过参数化、随机初始化和交替梯度下降上升(AltGDA)下,能以高概率收敛到 \(\epsilon\)-近似纳什均衡。

Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems

将神经科学中的环形吸引子模型集成到 DRL 的动作选择中,通过将动作映射到环上的空间位置并利用高斯信号注入 Q 值和不确定性,在 Atari 100K 上比基线提升 53%。

STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning

发现并形式化了偏好强化学习(PbRL)中的"阶段错位"问题——比较不同阶段的行为片段会产生无效反馈,提出STAIR方法通过对比学习获取时间距离来近似阶段差异,用四边形距离选择阶段对齐的查询,在多阶段任务中显著超越现有PbRL方法。

Strategic Costs of Perceived Bias in Fair Selection

通过博弈论模型揭示"感知驱动偏差"机制:在完全基于能力的选拔系统中,不同社会经济群体对选拔后价值的感知差异会导致理性的努力差异,从而在"公平"的流程中系统性地传播不平等。

Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning

提出SIHD框架,利用历史轨迹中的结构信息(结构熵)自适应构建多尺度扩散层次,用结构信息增益替代局部奖励预测作为条件引导信号,并引入结构熵正则化促进对离线数据中稀疏状态的探索,在D4RL基准上最高提升12.6%的决策性能。

Structured Reinforcement Learning for Combinatorial Decision-Making

提出 Structured Reinforcement Learning (SRL),将组合优化求解器作为可微层嵌入 actor-critic 的 actor 中,通过 Fenchel-Young 损失 + 高斯扰动实现端到端梯度传播,纯在线学习、无需专家数据,在6个工业级组合决策问题上匹配模仿学习、超越无结构 RL 最高 92%。

Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control

提出SoLS算法,通过不对称策略更新机制(成功时激进学习、失败时保守正则化)和成功转换回放(STR),实现基础模型在移动应用控制任务上的高效强化学习微调,在AndroidWorld上达到51.3%成功率。

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

首次将强化学习 (RL) 应用于真实世界软件工程任务(GitHub PR/Issue 修复),仅用基于规则的序列相似度奖励训练 Llama-3.3-70B,在 SWE-bench Verified 上达到 41.0% 解决率(中等规模模型 SOTA),且 RL 训练仅在 issue-solving 数据上进行,却涌现出在代码推理、数学、通用语言理解等域外任务上的泛化推理能力。

Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment

将个性化对话对齐建模为多轮马尔可夫决策过程,提出 RLPA 框架,让 LLM 通过与模拟用户的在线交互学习动态推断和维护用户画像,并据此生成个性化回复。

Temporal-Difference Variational Continual Learning

提出TD-VCL目标函数,将变分持续学习(VCL)中的学习目标重新表示为多个过去后验估计的加权组合,揭示了与强化学习中时序差分(TD)方法的深层联系,通过"分散"正则化压力有效缓解了近似误差的逐步累积问题。

TensorRL-QAS: Reinforcement Learning with Tensor Networks for Improved Quantum Architecture Search

提出 TensorRL-QAS 框架,通过用张量网络(MPS/DMRG)对强化学习量子架构搜索进行 warm-start,显著降低电路深度和 CNOT 门数量(最高 10 倍),同时加速训练(最高 98%),有效解决了 RL-QAS 在大规模量子系统上的可扩展性瓶颈。

The Burden of Interactive Alignment with Inconsistent Preferences

将用户与参与度驱动算法的交互建模为多领导者-单跟随者 Stackelberg 博弈,证明存在关键的前瞻视野阈值:超过该阈值的用户可实现对齐,否则反被算法对齐;同时证明引入低成本信号(如额外点击)可大幅降低对齐负担。

The Path Not Taken: RLVR Provably Learns Off the Principals

本文提出三门理论 (Three-Gate Theory) 解释 RLVR 的参数更新稀疏性假象,证明 RLVR 在权重空间的非主方向 (off-principal) 上学习,与 SFT 的优化机制本质不同,因此直接移植 SFT 时代的 PEFT 方法到 RLVR 是有缺陷的。

The Physical Basis of Prediction: World Model Formation in Neural Organoids via an LLM-Generated Curriculum

本文提出在人类神经类器官(organoids)中研究世界模型形成的框架,设计了三个渐进式虚拟环境(条件回避、捕食者-猎物、Pong),并引入 LLM 自动生成实验方案的元学习方法,结合多尺度生物物理评估策略量化生物学习的物理基础。

The World Is Bigger! A Computationally-Embedded Perspective on the Big World Hypothesis

从计算嵌入(computationally-embedded)的视角形式化了"大世界假说",证明被嵌入在通用局部环境中的智能体天然受限于自身容量,提出"交互性"(interactivity)作为持续适应能力的计算度量,并实验表明深度非线性网络难以维持交互性,而深度线性网络可随容量增加而提升交互性。

Thompson Sampling for Multi-Objective Linear Contextual Bandit

提出MOL-TS——首个具有worst-case Pareto regret理论保证的多目标线性上下文Bandit Thompson Sampling算法,通过定义"有效Pareto最优臂"概念和乐观采样策略,实现\(\widetilde{O}(d^{3/2}\sqrt{T})\)的regret上界,目标数\(L\)仅增加\(O(\log L)\)因子。

Thompson Sampling in Function Spaces via Neural Operators

将 Thompson 采样 (TS) 从有限维参数空间扩展到无限维函数空间,利用神经算子 (Neural Operators) 作为高斯过程后验的近似采样器,实现了对涉及偏微分方程 (PDE) 的功能优化问题的高效求解。

Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning

提出 TR-DRL 框架,利用机器人操作任务中的时间反转对称性——通过轨迹反转增强(完全可逆的转移)和时间反转引导的势函数奖励塑形(部分可逆的转移)——显著提升 DRL 在成对任务(如开门/关门)中的样本效率和最终性能。

To Distill or Decide? Understanding the Algorithmic Trade-off in Partially Observable Reinforcement Learning

通过一个理论模型(perturbed Block MDP)和模拟运动控制实验,系统研究了部分可观测 RL 中特权专家蒸馏 (privileged expert distillation) 与标准 RL(无特权信息)之间的算法权衡,发现权衡关键取决于隐状态动力学的随机性。

Towards Provable Emergence of In-Context Reinforcement Learning

本文从理论上证明了 Transformer 经过标准 RL 预训练后,其全局最优参数能够实现 in-context temporal difference (TD) 学习,为 in-context RL (ICRL) 现象提供了首个可证明的理论支撑。

Tractable Multinomial Logit Contextual Bandits with Non-Linear Utilities

首次为MNL上下文赌博机问题在非线性效用函数(含神经网络)下设计了计算可行统计最优的算法ONL-MNL,在不依赖NTK假设的情况下达到\(\widetilde{\mathcal{O}}(\sqrt{T})\)的遗憾上界。

Training Language Models to Reason Efficiently

通过在 RL 奖励中加入长度惩罚项——正确回答的奖励乘以 \((1 - \alpha \cdot \sigma(\text{norm\_len}))\),用单一超参数 \(\alpha\) 控制 token-准确率权衡曲线,仅 100 步 RL 训练即可让 7B 推理模型减少 50% token 使用量而准确率仅下降 <5%。

TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning

提出 TRiCo 框架,将半监督学习重构为教师-双学生-对抗生成器的三方博弈(Stackelberg 博弈),用互信息替代置信度做伪标签筛选,元学习教师自适应调节训练动态,在低标签场景下实现 SOTA 性能。

Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm

提出 TRRO 理论框架和 PIRO 实用算法,通过 Minorization-Maximization 过程保证 IRL 中奖励函数更新的单调改进,实现了逆强化学习领域类似于 TRPO/PPO 在正向 RL 中的稳定性保证。

Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits

提出FGTS-VA算法,首次实现了基于Feel-Good Thompson Sampling的方差感知上下文赌博机算法,其后悔界在模型维度上达到最优,匹配了基于UCB的最优方差依赖后悔界。

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

构建了首个面向具身多智能体合作的层次化基准VIKI-Bench(含智能体激活、任务规划、轨迹感知三个层级),并提出两阶段框架VIKI-R(CoT示范微调+多级奖励RL),在多种机器人形态和多视角视觉观测下实现显著超越基线的合作表现,RL阶段涌现出组合式协作模式。

VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play

本文提出 VolleyBots,一个多无人机排球竞技测试平台,融合了合作-对抗博弈、回合制交互与敏捷 3D 机动控制,基于 Isaac Sim 构建了从单体训练到多体竞技的任务课程体系,并通过分层策略在 3v3 任务中取得 69.5% 胜率,同时展示了零样本 sim-to-real 部署能力。

When Can Model-Free Reinforcement Learning be Enough for Thinking?

提出 Thought MDP 形式化框架来理解模型无关 RL 中"思考"行为的涌现条件:策略初始化是决定性因素,思考动作等价于智能体在行动前执行一步策略改进,且开源 LLM 满足思考涌现的必要条件。

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

受认知神经科学启发(人脑的推理与语言处理相对独立),在 LLM 的激活空间中识别并消除语言特定成分,实现语言与推理的解耦,从而在免训练条件下一致性地提升多语言推理性能。

Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts

提出 Context-Enhanced Bellman Equation (CEBE) 和 Context Sample Enhancement (CSE) 方法,通过利用环境动力学和奖励函数对上下文参数的一阶导数信息,在仅训练于单一上下文的情况下实现对未见上下文的零样本泛化。

Zeroth-Order Optimization Finds Flat Minima

首次从理论上证明标准零阶优化(两点梯度估计)具有隐式正则化效果——收敛到Hessian迹最小的平坦极小值(flat minima),在凸且充分光滑条件下给出了\(T = \mathcal{O}(d^4/\epsilon^2)\)的收敛复杂度保证。


🧩 多模态 VLM

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

提出 M-Attack,通过对源图像做随机裁剪后与目标图像在嵌入空间做局部-全局/局部-局部匹配,配合多 CLIP 模型集成,使对抗扰动自然聚集在语义关键区域形成清晰的语义细节,在 GPT-4.5/4o/o1 等商业黑盒 LVLM 上实现 >90% 的定向攻击成功率。

A Multimodal Benchmark for Framing of Oil & Gas Advertising and Potential Greenwashing Detection

构建了首个面向石油天然气行业视频广告的多模态框架分析基准数据集(706 个视频、13 种框架类型、50+ 实体、20 个国家),系统评估了 6 款 VLM 在检测 greenwashing 相关 framing 中的能力,发现 GPT-4.1 零样本在环境类标签上达 79% F1 但绿色创新仅 46%,揭示了隐式框架分析和文化背景理解仍是 VLM 的核心挑战。

ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking

提出ACT(Annotation with Critical Thinking)数据流水线,MLLM批量标注全部数据后由另一个MLLM作为批评者估计每条标注的错误概率,仅将高可疑样本交给人类审核,配合理论推导的ACT损失函数,在6个跨模态数据集上节省70-90%人工成本且下游性能差距<2%。

AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining

提出AdaLRS,一种即插即用的在线学习率搜索算法,通过监控损失下降速度(loss velocity)来自适应调整学习率,将学习率超参搜索的成本从多次独立训练降低到单次训练,实现~50%的训练成本节省。

Adapting Vision-Language Models for Evaluating World Models

提出 UNIVERSE(UNIfied Vision-language Evaluator for Rollouts in Simulated Environments),通过对 PaliGemma 2 进行轻量级投影头微调(仅 0.07% 参数),构建统一的世界模型 rollout 语义评估器,在动作识别和角色识别任务上达到与任务专属模型相当的性能并与人类判断高度对齐。

ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources

提出 ADMN(Adaptive Depth Multimodal Network),通过两阶段训练——(1) Multimodal LayerDrop 微调使 backbone 适应任意层配置,(2) QoI感知控制器动态分配层预算给各模态——在严格计算约束下根据每个模态的信息质量(QoI)自适应分配层数,匹配全量模型精度同时减少 75% FLOPs 和 60% 延迟。

Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning

提出 CLIC,通过拼接两张图像并基于跨图词汇交换生成 hard negatives,同时创建多个正样本描述,仅微调 CLIP 文本编码器就能同时提升组合推理能力(SugarCrepe++ SOTA)和下游检索性能,打破了之前方法中组合性与检索性不可兼得的困局。

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

提出细粒度 3D 具身推理任务(预测可操作元素的空间位置+运动类型+运动轴),通过将 3D 点云渲染为环视图并投影 affordance 候选,结合定制的 CoT 推理范式指导 MLLM 实现 SOTA,AP25 达 23.3%。

Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment

提出 BACL(Boundary-Aware Curriculum with Local Attention),通过可学习的边界感知负样本采样器(由易到难课程学习)+ 对比局部注意力损失(定位 token 级 mismatch),在 LAION-400M 上为 CLIP 带来 +32% R@1 提升,并在四个大规模基准上取得 SOTA。

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making

反转传统指令接地范式——不将 VLM 知识压缩到中间表征(符号技能或约束),而是将候选机器人轨迹渲染到多视角场景图像中,直接在 VLM 的原生高维表征空间中评估动作方案,实现零样本闭环机器人操作控制。

Approximate Domain Unlearning for Vision-Language Models

提出 Approximate Domain Unlearning (ADU) 新任务,通过 Domain Disentangling Loss (DDL) 和 Instance-wise Prompt Generator (InstaPG) 两个模块,让预训练 VLM 选择性遗忘指定域(如插画、素描)的识别能力,同时保持其他域(如真实照片)的分类精度,在四个多域数据集上大幅超越所有基线。

AQuaMaM: An Autoregressive, Quaternion Manifold Model for Rapidly Estimating Complex SO(3) Distributions

提出AQuaMaM——一种基于Transformer的自回归四元数流形模型,将单位四元数的三个投影分量建模为受几何约束的均匀分布混合,在SO(3)旋转流形上实现精确似然计算和快速采样,比IPDF推理速度快52倍、对数似然高14%,且采样分布与真实分布匹配极为精确。

Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

本文提出 DeepTumorVQA,一个针对腹部CT肿瘤的3D诊断级视觉问答基准,包含9,262个CT体积(370万切片)和395K专家级问题,系统评估了4个先进VLM的临床诊断能力,发现当前模型在测量任务上尚可但在病灶识别和推理上远未达到临床要求。

Attention! Your Vision Language Model Could Be Maliciously Manipulated

本文提出 Vision-language Model Manipulation Attack (VMA),一种结合一阶和二阶动量优化及可微变换机制的图像对抗攻击方法,能够精确操控VLM的每个输出token,可用于实施多种攻击(越狱、劫持、隐私泄露、DoS、海绵样本)同时也可用于版权保护水印注入。

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

提出 Balanced Token Pruning (BTP),通过联合考虑剪枝对当前层(局部)和后续层(全局)的影响,在浅层侧重多样性保留以维护下游表示质量、在深层侧重注意力选择以保持局部输出一致性,在 LLaVA/Qwen2.5-VL 等多个 LVLM 上仅保留 22% 视觉 token 即保持原模型 98% 性能。

Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging

提出 BTB3D,一种基于因果卷积编解码器 + 3D Haar 小波压缩 + 三阶段渐进训练的 3D CT tokenizer,在放射报告生成和文本条件 CT 合成两大下游任务上大幅刷新 SOTA,证明"更好的 token 比更大的语言模型更重要"。

Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability

UAT(Unsupervised Adaptive Thresholding)为早退 DNN 设计了可靠性函数来评估中间层输出质量,并用多臂赌博机(MAB)算法在推理时动态学习最优退出阈值,实现 1.7-2.1× 加速且性能损失 <2%,同时对分布偏移鲁棒。

Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment

这篇论文不再用合成图或封闭式选择题测偏见,而是用真实新闻图片中的社会线索来问开放式问题,再让 GPT-4o 作为评判员衡量回答的准确性、偏见和忠实度,最终证明很多 VLM 即使“看图很准”,依然会在性别、职业和种族线索上偷偷补进刻板印象。

BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning

BioCLIP 2 在 TreeOfLife-200M(2.14 亿图像/95.2 万物种)上用层级对比学习训练 ViT-L,零样本物种识别比 BioCLIP 提升 18%,并发现规模化带来的涌现性质——嵌入自动编码生态关系(如达尔文雀喙大小排列)且种内变异与种间差异正交。

Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression

提出 UltraDelta——首个无数据 delta 权重压缩流水线,通过方差引导的混合稀疏分配、分布感知压缩和迹范数引导缩放三个组件,在 LLM/NLP/视觉/多模态模型上实现最高 224× 的超高压缩比且性能不降甚至超越微调模型。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

提出 BridgeVLA,通过将 3D 点云投影为多视角 2D 图像并以 2D 热力图作为中间表示来对齐输入输出空间,实现了高效且有效的 3D 机器人操作学习。

Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning

提出 In-Context Representation Learning(ICRL),首个训练无关框架,将非文本模态基础模型(FM)的表征注入纯文本 LLM 进行少样本推理,通过 PCA 文本注入和最优传输嵌入对齐两种策略实现跨模态知识利用。

Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

提出 Qualcomm Interactive Cooking 基准和 LiveMamba 模型,首次系统评估多模态 LLM 在实时流式视频中提供分步任务指导(包括指令下发、完成检测和错误反馈)的能力。

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

提出CAPability,一个涵盖6大视角12个维度的综合视觉描述评测基准,通过人工标注近11K图像/视频的视觉元素(而非句子),同时评估描述的正确性(precision)和全面性(hit),并引入"知道但说不出"(\(K\bar{T}\))指标揭示MLLM在QA与caption任务之间的显著能力差距。

Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models

揭示 MLLM 中物体幻觉的表示层根因——数据集共现偏差导致的语义纠缠,提出双路因果解纠缠框架(Causal-Driven Projector + Causal Intervention Module),通过后门调整在 projector 和最终 Transformer 层分离共现物体表示,使 MME-Perception 提升 22.6%。

ChartMuseum: 测试大型视觉语言模型的图表视觉推理能力

提出ChartMuseum图表问答基准,包含1162个专家标注问题和184个来源的真实图表,首次系统区分视觉推理与文本推理能力,揭示当前最强模型Gemini-2.5-Pro仅63.0%而人类达93%,视觉推理性能比文本推理低35%-55%。

CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models

提出 CHOICE,一个面向遥感领域的大规模多层级 VLM 基准,包含 10,507 道全新采集题目,覆盖感知与推理 2 大维度、6 个子维度、23 个叶任务,首次实现对 VLM 遥感能力的系统化与客观化评估。

CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization

提出 CoIDO,一个双目标优化数据选择框架,通过联合优化数据重要性和多样性,仅用 20% 随机数据训练轻量评分器,即可从 LLaVA-665K 中选出 20% 子集达到全量微调 98.2% 的性能,同时计算开销为所有方法最低。

Context Informs Pragmatic Interpretation in Vision-Language Models

通过迭代参考游戏(iterated reference games)系统评估 VLM 的语用推理能力,发现模型在无上下文时表现远逊于人类,但在获得相关对话历史后能快速学习达到约 80% 准确率,揭示了 VLM 对上下文信息的强烈依赖性。

Continual Multimodal Contrastive Learning

本文首次形式化定义了持续多模态对比学习(CMCL)问题,提出双侧零空间梯度投影(DNS)方法,将新数据的梯度投影到不影响旧知识的子空间上,在 7 个数据集上实现了稳定性和可塑性的最佳平衡。

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

提出 CovMatch,通过将多模态对比学习的双层优化简化为跨协方差矩阵对齐的闭式解,首次实现图文双编码器的联合优化进行多模态数据集蒸馏,仅用 500 个合成图文对在 Flickr30K 上获得 38.4 平均检索精度(+6.8% 超越 SOTA LoRS),在极端数据高效场景下大幅超越冻结文本编码器的方法。

CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning

提出 CyIN 框架,通过 token 级和 label 级信息瓶颈(IB)构建信息化潜空间,结合循环跨模态翻译重建缺失信息,在单一统一模型中同时优化完整和不完整多模态学习。

DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding

本文提出 DanmakuTPPBench,首个融合时间、文本和视觉的多模态时间点过程(TPP)基准,包含从 B 站弹幕系统收集的 DanmakuTPP-Events(7,250 个视频序列,1080 万弹幕事件)和基于多 Agent 流水线构建的 DanmakuTPP-QA(10 种评估任务),揭示了当前 LLM/MLLM 在 TPP 理解上的显著差距。

DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding

构建首个多模态时间点过程基准DanmakuTPPBench:DanmakuTPP-Events提供7250个序列共1080万弹幕事件(时间-文本-视频三模态天然对齐),DanmakuTPP-QA通过多智能体pipeline自动生成10类推理问答,系统暴露了经典TPP模型和MLLM在多模态事件动态理解上的显著短板。

Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

提出 HoloV,一个即插即用的视觉 token 剪枝框架,通过在不同空间裁剪区域自适应分配剪枝预算,保留全局视觉上下文而非仅保留注意力高亮 token,在 LLaVA-1.5 上剪枝 88.9% token 仍保留 95.8% 原始性能。

DOTA: DistributiOnal Test-time Adaptation of Vision-Language Models

DOTA提出将测试时自适应从"缓存样本实例"范式转变为"持续估计测试数据分布"范式,通过在线高斯判别分析结合零样本预测概率估计类别分布,实现无梯度、抗遗忘的高效测试时自适应,在10个跨域基准上平均准确率超越所有基线。

DynamicVL: Benchmarking MLLMs for Dynamic City Understanding

提出 DVL-Suite 框架,包含 DVL-Bench 基准和 DVL-Instruct 指令微调数据集,覆盖 42 座美国城市、14,871 张高分辨率多时相遥感影像,系统评估 18 个 MLLM 在长期城市动态理解上的能力,并开发了 DVLChat 基线模型。

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

提出EPIC框架,通过渐进式一致性蒸馏(Token和Layer两个维度)解决视觉token压缩训练中特征空间扰动导致的学习困难,在不修改模型架构的前提下实现高效多模态LLM。

ElasticMM: Efficient MLLM Serving with Elastic Multimodal Parallelism

提出弹性多模态并行(EMP)范式和 ElasticMM 系统,通过模态感知负载均衡和弹性分区调度将多模态推理的不同阶段解耦到独立实例,相比 vLLM TTFT 降低最高 4.2 倍、吞吐量提升 3.2-4.5 倍。

READ: Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions

提出 READ 微调方法,通过两个辅助目标——(1) token-level 重建(冻结解码器从文本嵌入重建替代描述)和 (2) sentence-level 对齐(强制改述的嵌入一致)——增强 CLIP 文本编码器的组合推理能力,在 5 个组合推理基准上达到 SOTA(超 NegCLIP 4.5%,超 FSC-CLIP 4.1%)。

Enhancing Outcome Reward-Based RL Training of MLLMs with Self-Consistency Sampling

针对多模态多选题中"结果奖励 RL 训练导致不忠实推理轨迹"的问题,提出 Self-Consistency Sampling (SCS),通过截断-重采样和视觉扰动获得一致性奖励来惩罚虚假推理,搭载 RLOO 后在六个基准上平均提升 7.7 个百分点。

Enhancing Vision-Language Model Reliability with Uncertainty-Guided Dropout Decoding

提出Dropout Decoding——将视觉token投影到文本空间后量化其认知不确定性,选择性遮掩高不确定性视觉token并通过多组遮掩结果的集成投票增强输出可靠性,无需额外训练即可显著减少LVLM的对象幻觉。

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

本文通过三项核心音乐感知任务(切分节奏评分、移调检测、和弦辨识)系统性评估了多模态LLM在音频与MIDI两种输入下的表现,揭示了模型在符号推理上接近理想但在音频感知上存在显著缺陷的关键差距。

ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models

ExGra-Med 提出了一种多图对齐(multi-graph alignment)框架,通过联合对齐图像、指令响应和扩展上下文描述在潜空间中的图结构关系,仅用10%预训练数据即可匹配 LLaVA-Med 的100%数据性能,并在多个医学VQA任务上超越现有SOTA。

Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants

提出 Face-Human-Bench,首个系统评估多模态大模型人脸与人体理解能力的基准,包含三级能力分类体系(2个L1 × 10个L2 × 18个L3),开发集与测试集各 1800 题,支持中英双语,评测 25 个主流 MLLM 并揭示其与专家模型的显著差距。

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

FineGRAIN 提出了一个结构化的联合评测框架,通过定义27种细粒度失败模式和利用 VLM+LLM agentic pipeline 来同时评估文本到图像模型的 prompt 遵循能力和视觉语言模型的图像理解能力,揭示了两类模型在特定任务上的系统性缺陷。

First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training

提出 MM-UPT 框架,在 SFT 和 RL 之后引入第三阶段"无监督后训练",通过多数投票作为伪奖励信号结合 GRPO 实现 MLLM 的自我改进,在 MathVista 上将 Qwen2.5-VL-7B 从 66.3% 提升至 72.9%。

FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models

FlexAC 发现 MLLM 的联想推理行为主要编码在中间层,通过从幻觉响应中提取引导向量并在推理时注入中间层表示,实现忠实性与创造力的灵活调控——幻觉率降低 29%(CHAIR),创造力提升 5.8×(Creation-MMBench),且无需训练。

FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models

从信息流(Information Flow)视角重新理解VLM中视觉token冗余性的涌现机制,提出FlowCut框架通过层自适应剪枝比例、多标准融合评分和累积重要性跟踪实现与模型内在信息传播行为对齐的token剪枝,在LLaVA-1.5-7B上以88.9% token减少率超越SOTA 1.6%,LLaVA-NeXT-7B上以94.4%减少率超越4.3%。

FlySearch: Exploring how vision-language models explore

FlySearch 提出了一个基于 Unreal Engine 5 的 3D 户外真实感环境,评估 VLM 的探索能力,发现最先进的 VLM 在简单搜索任务上也无法可靠完成,且与人类的差距随任务难度增加而急剧扩大。

FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering

提出 FOCUS,一种无需训练的视觉裁剪方法,利用 MLLM 内部 KV-cache 中 value 特征的余弦相似度构建目标相关性图,高效定位问题相关的图像区域,在细粒度 VQA 上实现与 SOTA 可比的精度,同时计算效率提升 3-6.5 倍。

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

提出 ForceVLA,在 VLA 框架中将 6 轴力/力矩传感引入为一等模态,通过 FVLMoE(力感知混合专家)模块在动作解码阶段动态融合视觉-语言嵌入与实时力反馈,在 5 项接触密集操作任务上平均成功率提升 23.2%,个别任务达 80%。

GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images

提出 GEM,首个统一 ECG 时间序列、12 导联 ECG 图像和文本的多模态大语言模型,通过双编码器框架、跨模态对齐和知识引导的指令数据生成,实现了基于可量化生理特征的接地心电图诊断,诊断准确率提升 7.4%,可解释性提升 22.7%,接地能力提升 25.3%。

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

提出REVERSE框架,首次将生成调整和事后验证统一到单个VLM中:通过1.3M半合成样本的幻觉感知训练+推理时回溯重采样,使VLM能在生成过程中自动检测并修正幻觉,在CHAIR-MSCOCO上降低12%、HaloQuest上提升34%。

GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

提出 GeoRanker,一种距离感知排序框架,利用大视觉语言模型建模查询-候选之间的空间关系,通过多阶距离损失实现全球图像地理定位的 SOTA。

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

提出GLSim,一种无训练的LVLM物体幻觉检测方法,通过融合全局场景相似度(物体token与最后instruction token的余弦相似度)和局部视觉定位相似度(物体token与Visual Logit Lens定位的Top-K图像patch的余弦相似度),在MSCOCO上以83.7% AUROC超越SVAR 9%、Internal Confidence 10.8%。

GoalLadder: Incremental Goal Discovery with Vision-Language Models

提出 GoalLadder,利用 VLM 渐进式发现并排序候选目标状态,结合 ELO 评分系统抵抗噪声反馈,在学习的嵌入空间中定义距离奖励,仅凭单条语言指令就能训练 RL 智能体达到约 95% 的成功率。

Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment

提出 MAPLE 框架,利用现成 MLLM 的内在模态对齐能力自动构建偏好数据,通过 Relative Preference Alignment(RPA)损失引导跨模态表示学习,在细粒度检索任务上取得显著提升。

HAWAII: Hierarchical Visual Knowledge Transfer for Efficient VLM

提出 Hawaii 框架,通过混合 LoRA 适配器(MoLA)和分层知识蒸馏(HKD),将多个视觉专家的知识蒸馏到单个视觉编码器中,在不增加推理成本的前提下显著提升 VLM 的视觉理解能力。

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

首次揭示统一多模态大模型中理解能力普遍强于生成能力的现象,提出 HermesFlow 框架,通过同源偏好数据构建配对理解-生成偏好对,利用 Pair-DPO 和自博弈迭代优化,在不引入外部高质量数据的情况下同步提升理解与生成能力并缩小两者差距。

Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems

从熵最小化第一性原理推导出层次化自注意力(HSA)机制,为嵌套信号(多模态、多尺度数据)提供理论最优的注意力计算方法,并证明 HSA 是在保持层次约束下最接近标准 Softmax 注意力的 KL 散度最优解。

HoPE: Hybrid of Position Embedding for Long Context Vision-Language Models

首次从理论上分析多模态RoPE的频率分配策略对长上下文VLM的影响,提出HoPE,将最低频率设为零用于时间建模以保证语义偏好性质,配合动态时间缩放机制,在长视频理解任务上提升8.35%、检索任务上提升22.23%。

iFinder: Structured Zero-Shot VLM Grounding for Dash-Cam Video Reasoning

提出 iFinder,一个模块化免训练框架,将行车记录仪视频解耦为感知(结构化场景表示)与推理(LLM),通过层级数据结构和三块式提示策略使 LLM 获得可解释的时空推理能力,在四个驾驶视频基准上零样本超越端到端 V-VLM,事故推理准确率提升高达 39%。

In-Context Compositional Learning via Sparse Coding Transformer

受稀疏编码启发,将 Transformer 注意力机制重新解释为在编码字典和解码字典上的投影,通过稀疏系数显式表示组合规则,并利用提升方案(lifting scheme)将上下文任务的组合规则迁移到目标任务。

In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting

提出 EgoGazeVQA 基准和三种注视引导提示策略(文本/视觉/显著图),首次系统验证了眼动注视信号对提升 MLLM 第一人称视频意图理解的关键价值,Qwen2.5-VL-72B + GazeS 策略在平均准确率上提升 5.8 个百分点。

Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats

提出 AllPath,一个基于 Transformer 因果架构的多路径幻觉干预框架,首次发现 LVLM 的幻觉不来自单一因果路径而是 image-to-input-text、image-to-output-text、text-to-text 三条路径的交互,并且模型会根据问答对齐格式自适应选择不同路径;通过为每条路径设计轻量级关键 head 识别方法并自适应干预,在 POPE、MCQ-POPE、CHAIR、MME 四个不同格式 benchmark 上一致降低幻觉。

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

受 Eliciting Latent Knowledge (ELK) 框架启发,首次揭示 VLM 在 fusion layer 潜空间中存在可近似的安全决策边界,提出 JailBound 两阶段攻击框架(Safety Boundary Probing + Safety Boundary Crossing),通过联合优化图像和文本对抗扰动跨越该边界,在白盒和黑盒场景分别达到 94.32% 和 67.28% 平均攻击成功率,显著超越 SOTA。

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

VG LLM提出将3D视觉几何编码器(VGGT)集成到多模态大语言模型中,仅从视频输入(无需显式3D数据)即可提取和融合3D几何先验,在3D场景理解和空间推理任务上显著提升MLLM性能,4B模型在VSI-Bench上超越Gemini-1.5-Pro。

Learning Shared Representations from Unpaired Data

提出 SUE (Spectral Universal Embedding),首次证明几乎完全依赖非配对数据即可学习跨模态共享表示:通过独立的频谱嵌入从各模态随机游走中提取模态不变的"通用"结构,再用极少量配对样本(~100对)做 CCA 线性对齐 + MMD 非线性微调,在检索上超越使用同等配对数的对比学习 250%+。

Learning Skill-Attributes for Transferable Assessment in Video

提出CrossTrainer方法,通过发现跨运动通用的技能属性(如平衡、控制、手部定位)作为中间表示,训练多模态语言模型从视频中生成可操作反馈和水平评估,在跨运动零样本迁移中相对SOTA提升高达60%。

Learning to Instruct for Visual Instruction Tuning

提出 L2T(Learning to Instruct),仅通过将训练损失扩展到指令序列(不再只在回答上计算 loss)来改善视觉指令调优——无额外数据和几乎零计算开销,在 16 个多模态基准上获得高达 9% 的相对提升,captioning 提升 18%,同时缓解幻觉。

Learning to Steer: Input-dependent Steering for Multimodal LLMs

针对现有模型引导(steering)方法使用固定方向向量无法适配不同输入的局限,提出 L2S (Learn-to-Steer):先通过输入特定的对比提示生成理想的引导向量(P2S),再训练一个轻量 2 层 MLP 从输入上下文预测该向量,以极低开销实现了输入依赖的行为引导,在安全执行和幻觉缓解两个应用上显著优于静态 steering 基线。

MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification

提出MDReID框架,通过将模态特征解耦为模态共享(modality-shared)和模态特有(modality-specific)两部分,实现任意模态组合下的目标重识别(any-to-any ReID),在模态匹配和模态不匹配场景下均大幅超越现有方法。

Metacognitive Sensitivity for Test-Time Dynamic Model Selection

借鉴人类认知科学中的元认知灵敏度(meta-d')概念,提出一种测试时动态模型选择框架:用 meta-d' 量化模型"知道自己知不知道"的能力,结合即时置信度构成上下文向量,通过 contextual bandit 在线选择最优模型,在多数据集上超越单模型性能。

MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning

首次提出将跨模态不对齐样本作为有监督训练信号(而非噪声/干扰)来缓解多模态学习中的模态不平衡问题,设计 MIDAS 数据增强框架:通过置信度标注不对齐样本 + 弱模态加权 + 难样本加权三重机制,在四个多模态分类基准上显著超越现有方法。

Mint: A Simple Test-Time Adaptation of Vision-Language Models against Common Corruptions

发现 CLIP 在图像损坏下的性能退化根源在于嵌入方差坍缩——类内与类间方差同步缩小导致嵌入空间判别性丧失;提出 Mint,通过最大化伪标签类间方差(PL-inter)在线修复嵌入几何,仅凭均值累加器和梯度累加器两个极简组件即可在 BS=1 的在线场景下稳定提升 CLIP 在多种损坏基准上的分类精度,同时比最强 baseline 快 45 倍。

MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agriculture

MIRAGE 是首个基于真实农业专家咨询对话(35,000+条)构建的多模态基准,评估视觉语言模型在领域级实体识别、因果推理和"澄清还是回答"决策方面的能力,揭示了即使 GPT-4.1 识别准确率也仅 43.9% 的严峻挑战。

MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models

提出 MM-OPERA,一个包含 11,497 实例的开放式联想推理基准,通过远程物品关联(RIA)和上下文关联(ICA)两大任务评估 LVLM 的关联推理能力,配套设计了 LLM-as-a-Judge 评分策略和过程奖励评估方法,揭示当前最强 LVLM 仍显著落后于人类。

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

提出 MME-VideoOCR,一个包含 25 个任务、44 个场景、1464 个视频和 2000 个人工标注 QA 对的视频 OCR 综合评估基准,涵盖文本识别、理解和推理三个层次。评估 18 个 SOTA MLLM 揭示最强模型(Gemini-2.5 Pro)仅达 73.7%,跨帧理解任务低至 25% 以下。

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

构建首个全面的长上下文视觉语言模型(LCVLM)评估基准 MMLongBench——13,331 个样本覆盖 5 类下游任务、混合图像类型、5 级标准化输入长度(8K-128K tokens),评估 46 个模型后发现单任务性能是整体能力的弱代理,且强推理能力与长上下文性能正相关。

MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

首个系统评估多模态大语言模型 (MLLMs) 透视理解能力的基准,包含10个任务、3个维度、2711张图像和5083个问答对,揭示了43个SOTA模型在透视推理和鲁棒性方面的显著不足。

MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection

提出 MoniTor,一个基于记忆的在线评分队列方案,利用 LLM 进行免训练的在线视频异常检测(VAD),通过双层记忆机制、行为预测和标准评分队列引导 LLM 实现实时异常识别。

Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology

构建了包含 134,533 个星系的图像-光谱-红移多模态数据集(GalaxiesML-Spectra),适配多模态掩码自编码器(MMAE)同时进行图像和光谱的联合重建与红移回归,证明在测试时即使光谱完全缺失,仅用 25% 掩码图像即可实现优于 AstroCLIP 的红移预测散度 \(\sigma_{NMAD} = 0.016\)

Multimodal Bandits: Regret Lower Bounds and Optimal Algorithms

针对奖励函数至多有 \(m\) 个极值的多模态多臂赌博机问题,提出首个计算可行的算法求解 Graves-Lai 优化问题,实现渐近最优的遗憾界,并证明局部搜索策略是次优的。

Multimodal Negative Learning

提出多模态负学习(MNL)范式,通过让强势模态引导弱势模态抑制非目标类别(而非强制对齐目标类别),稳定决策空间并保留模态特有信息,理论上收紧了多模态融合的鲁棒性下界。

Nautilus: A Large Multimodal Model for Underwater Scene Understanding

构建了首个支持八种水下场景理解任务的大型多模态模型 Nautilus,通过物理先验驱动的视觉特征增强(VFE)模块显式修复水下图像退化,提升 LMM 在水下环境中的鲁棒性。

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

本文系统研究了在数据约束条件下原生多模态大语言模型(Native MLLM)的设计空间与缩放特性,发现视觉编码器与LLM之间存在正相关的最优缩放关系,并基于此提出了NaViL模型,仅用约6亿预训练图文对即可达到顶级MLLM的竞争性性能。

NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables

提出 NeedleInATable (NIAT) 基准,将表格中每个单元格视为"针",评估 LLM 对长结构化表格的细粒度感知能力,揭示现有模型在复杂下游任务上的高分可能依赖数据捷径而非真正的表格理解。

NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception

提出 NegoCollab 框架,通过引入协商者(Negotiator)在训练期间从多模态 agent 的局部表示中协商生成公共表示,有效消除异质协作 agent 之间的域差异,实现低训练成本的协同网联感知。

Omni-Mol: Multitask Molecular Model for Any-to-Any Modalities

提出 Omni-Mol,一个基于多模态 LLM 的统一分子理解与生成框架,通过构建 142 万样本的指令微调数据集、Gradient Adaptive LoRA (GAL) 和 Mixture-of-GAL-Experts (MoGE) 架构,首次在单一模型中统一学习 16 个分子任务(Mol2Mol/Mol2Text/Mol2Num/Text2Mol),以仅 2.2B 参数在 13 个任务上达到 SOTA。

On the Value of Cross-Modal Misalignment in Multimodal Representation Learning

提出潜变量模型将跨模态失配形式化为选择偏差和扰动偏差两种机制,理论证明MMCL学到的表征恰好捕获与两种偏差无关的不变语义子集,统一了"失配有害/有益"两种对立观点。

OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Models

提出 OpenHOI 框架,利用多模态大语言模型(MLLM)的常识推理能力来推断陌生物体的接触区域和抓取类型,实现开放世界的手物交互合成,无需针对每个物体收集训练数据。

PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

本文提出主动视觉推理(AVR)任务范式,构建了CLEVR-AVR仿真基准和AVR-152k数据集(含丰富CoT标注),训练PhysVLM-AVR模型在部分可观测交互环境中通过感知-推理-动作闭环迭代获取信息并正确回答问题,显著优于现有MLLM。

Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

发现VLM的决策推理能力可与视觉感知解耦——用文本描述替代图像时决策准确率不降反升;据此提出Praxis-VLM,在纯文本场景上通过多阶段GRPO与自适应reward训练决策推理能力,推理时零样本迁移到视觉输入,在三大决策benchmark上全面超越SFT基线,尤其在OOD场景泛化优势显著。

PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation

PrefixKV 发现不同层 KV 缓存的重要性分布差异显著,将逐层缓存大小确定问题形式化为全局前缀配置搜索,通过二分搜索找到最优信息保留阈值使每层保持最大上下文信息,在 20% 压缩率下仅有 0.49 PPL 下降且提供 1.8× 推理加速。

Reading Recognition in the Wild

提出了阅读识别新任务及首个大规模多模态"野外阅读"数据集(100小时),利用RGB、眼动和IMU三种互补模态的轻量级Transformer模型,在智能眼镜上实现实时阅读检测。

Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

本文提出GLOBE——一个基于GRPO强化学习训练的LVLM图像地理定位系统,通过构建推理导向数据集MP16-Reason(含定位可行性评估、视觉线索推理链和地理准确性标注),仅用33K样本就在多个基准上超越基于数百万样本训练的SOTA方法和大规模开源VLM。

Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion

提出"分类能力不均衡"视角理解多模态学习中的模态不平衡,设计 Sustained Boosting 算法(共享编码器 + 多可配置分类器,同时优化分类和残差误差)配合自适应分类器分配(ACA),理论证明跨模态 gap loss 以 \(\mathcal{O}(1/T)\) 收敛,在 CREMAD 等 6 个数据集上大幅超越 SOTA。

Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval

提出首个R1风格的推理型多模态检索框架Retrv-R1,通过信息压缩模块降低token消耗、细节检查机制保留困难候选的完整信息、课程式RL奖励兼顾效果与效率,在通用多模态检索benchmark上实现SOTA。

Revisiting Logit Distributions for Reliable Out-of-Distribution Detection

提出 LogitGap,一种新的 post-hoc OOD 检测评分函数,通过显式利用最大 logit 与其余 logit 之间的"间隔"来区分 ID 和 OOD 样本,并引入 top-N 选择策略过滤噪声 logit,理论和实验证明其在多种场景下超越 MCM 和 MaxLogit。

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

提出 RoboRefer,一个 3D 感知的推理型 VLM,通过 SFT + RFT 两阶段训练策略(含度量敏感的过程奖励函数),在空间指代任务中实现精确的单步空间理解和多步空间推理,在 RefSpatial-Bench 上超越 Gemini-2.5-Pro 达 17.4%。

RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness

本文从低秩分解的角度揭示了参数高效模块合并中"方向鲁棒性"是关键因素(而非全参数合并中的符号冲突),提出RobustMerge通过互补参数自适应缩放和跨任务归一化维持奇异值方向稳定性,在多模态生成任务上平均提升3.4%(已见任务)和4.5%(未见任务)。

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

提出 RTV-Bench 基准,包含 552 个视频和 4608 个 QA 对,通过多时间戳问答(同一问题在不同时间点答案不同)、层级问题结构多维评估三大设计,系统评测 MLLM 在实时视频流中的持续分析能力,揭示了在线模型优于离线模型、单纯增大模型或增加帧数收益有限等关键发现。

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

提出 RTV-Bench,一个面向多模态大模型(MLLM)实时视频连续分析能力的细粒度评测基准,包含552个视频和4608个QA对,通过多时间戳问答、层次化问题结构和多维度评估来全面测试模型在动态视频流中的感知、理解和推理能力。

Scene-Aware Urban Design: A Human-AI Recommendation Framework Using Co-Occurrence Embeddings and Vision-Language Models

提出一个人机协同的计算机视觉框架,使用Grounding DINO进行城市物体检测,基于ADE20K数据集构建共现嵌入捕捉真实空间配置,再通过VLM进行场景感知的第三物体推荐,并生成3D模型用于AR预览,旨在让居民参与微观城市设计。

SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodal LLMs

提出 SCOPE,一种联合建模显著性和覆盖率的视觉 Token 剪枝策略,通过迭代选择 SCOPE 得分最高的 Token 来保持语义完整性,在 9 倍 Token 缩减下保留 LLaVA-1.5 96% 的性能。

SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models

提出MSMU大规模定量空间推理数据集(700K QA对、250万数值标注)和深度位置编码(DPE)方法,使VLM在不引入3D点云的前提下获得强大的定量空间测量和理解能力,在MSMU-Bench上超越GPT-4o达26.91%。

Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models

针对多模态大模型在退化文档场景下的OCR幻觉问题,提出首个退化文档幻觉评测基准KIE-HVQA,并设计基于GRPO的多目标奖励强化学习框架,在7B参数模型上实现比GPT-4o高约28%的幻觉抑制准确率提升。

See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model

提出 See&Trek,一个无需训练和GPU的空间提示框架,通过最大语义丰富度采样和运动重建来增强 MLLM 的空间理解能力,在 VSI-Bench 上最高提升 3.5%。

Sherlock: Self-Correcting Reasoning in Vision-Language Models

首个系统研究VLM推理自纠正能力的框架:发现现有推理VLM几乎不能自纠正(<10%出现aha moment),提出Sherlock三阶段训练框架(SFT冷启动→离线轨迹级偏好学习→在线自我迭代)仅用20K标注数据超越使用100K-260K数据的LLaVA-CoT/Mulberry/LlamaV-o1。

SITCOM: Scaling Inference-Time COMpute for VLAs

SITCOM 提出了一种受模型预测控制(MPC)启发的推理时计算框架,通过学习的动力学模型对预训练 VLA 进行多步rollout仿真并利用奖励模型选择最优轨迹,将单步 VLA 转化为鲁棒的长程规划器,在 SIMPLER 环境中将任务完成率从 48% 提升至 72%。

Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Models

构建 Situat3DChange 数据集(174K 数据实例),统一了动态场景变化与情境感知理解的感知-行动范式,并提出 SCReasoner——一种高效的 3D MLLM 用于点云对比推理。

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

本文将稀疏自编码器(SAE)扩展到视觉-语言模型(如CLIP)上,提出了 MonoSemanticity score(MS)来定量评估神经元的单义性,并展示了通过操控 SAE 神经元可以直接引导多模态大模型(如 LLaVA)的输出,实现概念的插入与抑制。

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

提出 SpatialThinker,通过在线 RL 结合多目标密集空间奖励(格式→计数→准确性→空间定位的字典序门控)训练 MLLM 构建场景图并进行结构化空间推理,仅用 7K 样本超越 GPT-4o 在 3DSRBench 上 12.1%。

SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation

提出 SpatialTraceGen 框架,通过自动化验证器从大型教师模型蒸馏高质量多步工具使用推理轨迹,用于高效微调小型 VLM 的空间推理能力。

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

提出 SRPO(Self-Reflection enhanced reasoning with Group Relative Policy Optimization),一个两阶段反思感知 RL 框架:第一阶段用大模型生成反思数据做 SFT cold-start,第二阶段设计反思感知奖励函数在 GRPO 中强化简洁有效的自我反思能力,在 MathVista/MathVision/MMMU-Pro 等多模态推理基准上以 7B/32B 模型显著超越同规模 SOTA。

SSR: Enhancing Depth Perception in VLMs via Rationale-Guided Spatial Reasoning

提出 SSR 框架,将原始深度信息转化为结构化文本推理 rationale,并通过知识蒸馏压缩为紧凑潜在嵌入,以即插即用方式增强现有 VLM 的空间推理能力。

Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs

提出 Struct2D,一种感知引导的提示框架,通过将3D感知输出转化为结构化2D表示(BEV图像+对象标记+元数据),使MLLM无需显式3D输入即可完成复杂空间推理任务,并构建了200K QA对的大规模指令微调数据集 Struct2D-Set。

Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning

提出 MuMo 框架,通过结构化融合管线(SFP)将 2D 拓扑与 3D 几何融合为稳定的结构先验,再通过渐进注入(PI)机制非对称地整合到序列流中,在 29 个分子属性预测基准任务中平均提升 2.7%,在 22 个任务上排名第一。

Systematic Reward Gap Optimization for Mitigating VLM Hallucinations

提出 Topic-level Preference Rewriting(TPR),通过 topic 级别的细粒度语义控制系统性优化偏好数据中的 reward gap 配置,结合课程学习策略逐步提高负样本难度,在多个幻觉基准上实现约 93% 的幻觉减少。

T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with VLMs

提出T-Rex框架,根据任务复杂度动态选择最优的空间表示提取方案(点/向量/6D位姿),并设计Chain of Grounding (CoG)引导VLM逐步推理,实现无需训练的开放词汇机器人操纵。

Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

提出STS(Spectrum-Aware Test-Time Steering),一种轻量级测试时适应方法:通过文本嵌入的SVD分解提取低维语义子空间,学习少量系数在该子空间内对文本原型进行"转向"以适应域偏移,无需反向传播通过大编码器,推理速度比TPT快8倍、内存占用减少12倍,同时在OOD数据集上大幅超越现有TTA方法。

Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models

提出了一个端到端流水线,将自然语言输入通过3D生成式AI转化为网格模型,再利用VLM的零样本多模态推理自动分解为多组件3D模型(结构件+面板件),最终由机器人臂自动装配成物理对象,并支持用户通过对话反馈调整组件分配。

The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models

提出TTA-VLM benchmark,在统一实验条件下评估8种episodic和7种online测试时适应(TTA)方法在15个数据集上的表现,发现三个令人意外的结论:(1) 现有TTA方法相比早期TPT基线提升有限;(2) TTA与训练时微调方法协作效果差;(3) 准确率提升以牺牲校准、OOD检测和鲁棒性为代价。

To Think or Not To Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

系统研究了基于规则的强化微调(RFT)中显式思维过程的必要性,发现视觉感知任务中"不思考"的RFT(No-Thinking-RFT)往往优于传统的"先思考再回答"策略,并提出了自适应思维方法让模型根据自身能力和任务复杂度决定是否思考。

To See or To Read: User Behavior Reasoning in Multimodal LLMs

提出BehaviorLens基准框架,系统比较文本、散点图和流程图三种用户行为历史的表示方式对MLLM次购预测的影响,发现图像表示相比等效文本表示最高可提升87.5%的预测准确率,且无需额外计算开销。

TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

提出 TOMCAT,通过在测试时从无标签数据中累积文本和视觉双模态知识来动态更新组合原型,克服标签分布偏移问题,在四个 CZSL 基准上实现 SOTA。

Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs

提出 E3VQA 基准(首个多视角 VQA 基准)和 M3CoT 提示技术(融合三种互补视角的场景图),增强大型视觉语言模型 (LVLM) 的多视角场景理解能力,GPT-4o 提升 4.84%、Gemini 2.0 Flash 提升 5.94%。

Towards Evaluating Proactive Risk Awareness of Multimodal Language Models

提出PaSBench基准评估多模态语言模型的主动风险感知能力——要求模型在无用户提问的情况下主动观察环境并发出安全预警。评测36个模型发现最强模型(Gemini-2.5-pro)仅达71%准确率且45%的风险无法稳定检测,核心瓶颈是不稳定的主动推理能力而非知识缺失。

Training-free Online Video Step Grounding

提出BaGLM,一种无需训练的在线视频步骤定位方法,利用贝叶斯滤波将LLM估计的步骤依赖关系和LMM估计的步骤进度融入零样本LMM预测中,在三个数据集上超越现有需训练的离线方法。

TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models

TRoVe提出自动化方法发现时序VLM中导致系统性预测错误的静态特征偏差,通过结合"错误贡献分数"和"静态偏差分数"的双评分机制,在101个合成模型上以28.6%优势超越基线,并成功应用于7个真实VLM揭示新偏差。

Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition

提出 Uni-MuMER,通过三种数据驱动任务(Tree-CoT、Error-Driven Learning、Symbol Counting)对开源 VLM 进行统一多任务微调,在 CROHME 和 HME100K 数据集上大幅超越专用轻量模型和零样本商用 VLM。

Unified Reinforcement and Imitation Learning for Vision-Language Models

提出 RIL(Unified Reinforcement and Imitation Learning)训练框架,结合 GRPO 强化学习和 GAIL 对抗模仿学习,让小型 VLM(7B)通过学习大型 VLM(72B)的文本生成风格来大幅提升性能,无需增加推理延迟或"思考"过程。

Unifying Vision-Language Latents for Zero-Label Image Caption Enhancement

本文提出ViZer框架,通过统一视觉-语言潜空间对齐的训练范式,在无任何文本标注的情况下提升VLM的图像描述能力——仅使用原始图像数据就能让模型生成更接地、更描述性的caption。

UniTok: A Unified Tokenizer for Visual Generation and Understanding

提出 UniTok,一种统一视觉生成和理解的tokenizer,通过多码本量化(MCQ)突破离散token表示容量瓶颈,在ImageNet上实现0.38 rFID和78.6%零样本精度的双项记录,并可无缝集成到MLLM中同时启用生成和理解能力。

Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards

提出Chain-of-Step (CoS)推理框架,将VLM的推理链拆解为由Name+Thought+Reflection组成的结构化步骤,训练步骤级Process Reward Model (PRM)提供精细奖励信号,配合迭代DPO和step-level beam search系统性提升VLM推理能力——在InternVL-2.5-MPO-8B上6个benchmark平均73.4%(+4.0%),在LLaVA-NeXT-8B上平均64.2%(+12.1%),并揭示了"VLM推理中质量远比长度重要"这一与LLM领域相反的发现。

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

提出VAGEN框架,通过将VLM智能体的推理过程结构化为StateEstimation和TransitionModeling来构建内部世界模型,结合WorldModeling Reward和Bi-Level GAE实现高效的多轮RL训练,使3B模型(0.82)超越GPT-5(0.75)和Gemini 2.5 Pro(0.67)。

VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models

提出变分多模态提示学习框架VaMP,将文本侧提示建模为隐变量并通过变分推断进行实例级不确定性建模,结合类感知先验正则化隐空间,在少样本和域泛化设置下显著提升CLIP的下游适配能力。

Video-R1: Reinforcing Video Reasoning in MLLMs

受DeepSeek-R1启发,首次系统探索将R1范式(规则RL)应用于视频推理,提出T-GRPO算法显式鼓励模型利用时序信息,并构建图文混合训练数据集,在VSI-Bench上以37.1%准确率超越GPT-4o。

Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs

构建首个面向视频 LVLM 安全评估的综合基准 Video-SafetyBench,包含 2264 个视频-文本对覆盖 48 个细粒度不安全类别,通过可控视频生成管线和基于 LLM 置信度的 RJScore 指标,对 24 个 LVLM 进行大规模安全评测,揭示良性查询下视频攻击平均成功率达 67.2%。

VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

提出 VideoRFT,通过认知启发的多专家 CoT 数据构建流水线和新颖的语义一致性奖励,将强化微调(RFT)范式扩展到视频推理领域,分别构建 VideoRFT-CoT-102K(SFT 用)和 VideoRFT-RL-310K(RL 用)两个数据集,在 6 个视频推理基准上达到 SOTA。

VIPAMIN: Visual Prompt Initialization via Embedding Selection and Subspace Expansion

提出VIPAMIN——一种零额外参数的视觉prompt初始化策略,通过注意力引导的语义匹配(Matching)和正交子空间注入(Orthogonalizing)两个模块,解决自监督VPT中prompt注意力均匀化和子空间坍塌两大失效模式,仅需单次前向传播即在24个视觉任务上刷新SOTA。

Vision Function Layer in Multimodal LLMs

发现MLLM中视觉相关的功能解码分布在特定的窄层块中(Vision Function Layer),且跨模型家族呈现一致的层级顺序(识别→计数→定位→OCR),据此提出VFL-LoRA(仅用1/3参数匹配full-LoRA性能)和VFL-select(20%数据达98%全量性能)。

ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

针对VLM推测解码(speculative decoding)中草稿模型难以处理冗余视觉token的问题,提出ViSpec框架,通过视觉适配器压缩图像token+全局视觉特征注入+合成训练数据,首次在VLM推测解码中实现了显著加速(最高3.22×)。

Visual Instruction Bottleneck Tuning

首次将信息瓶颈(IB)原理应用于多模态大语言模型的端到端指令微调,提出Visual Instruction Bottleneck Tuning(Vittle),在LLM内部插入轻量瓶颈层学习最小充分表征,在30种分布偏移场景下一致提升鲁棒性,同时不牺牲标准基准性能。

Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs

提出 VISER(Visual Input Structure for Enhanced Reasoning),通过在图像上叠加等距水平线+数字标注构建空间分区,配合"逐行扫描"文本指令,将 LVLM 的并行视觉处理转化为串行逐区域解析,在不修改模型、不训练、单次查询的条件下,大幅缓解绑定问题并提升计数、视觉搜索、场景描述、空间关系等视觉推理性能。

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

提出VLA-Cache,一种免训练的VLA推理加速方法,通过跨帧识别并缓存静态视觉token的KV表示、过滤任务相关token并按层自适应调整复用比例,实现1.7倍加速且几乎不损失任务成功率。

VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning

提出VT-FSL框架,通过跨模态迭代提示(CIP)联合利用类名和支持图像驱动LLM生成精确文本描述并零样本合成语义一致图像,再通过核化体积对比学习(CGA)实现全局非线性跨模态对齐,在10个少样本学习基准上平均提升4.2%分类准确率。

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

提出 TriSense——一个三模态(视觉+音频+语音)大语言模型,通过 Query-Based Connector 自适应调节各模态权重实现鲁棒的视频时序理解,并构建了包含200万标注的 TriSense-2M 数据集支撑训练。

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

提出 WearVQA,首个专为可穿戴设备(智能眼镜)场景设计的 VQA 基准,包含 2520 个第一人称视角图像-问答三元组,系统覆盖 7 个视觉领域、10 种认知任务类型和 6 类可穿戴特有的图像质量问题,配套 96% 准确率的 LLM-as-a-judge 评估框架,揭示当前 SOTA 多模态模型在此场景下仅达 24-52% 准确率。

What Can RL Bring to VLA Generalization? An Empirical Study

本文系统研究了RL微调对VLA(视觉-语言-动作)模型泛化能力的影响,发现PPO是最有效的RL算法且显著优于DPO和GRPO,RL在语义理解和执行鲁棒性方面的OOD泛化远超SFT,同时在视觉鲁棒性上与SFT持平。

When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning

提出"模态破坏"(modality sabotage)这一诊断性失败模式概念,设计轻量级、模型无关的评估层,将每个模态视为独立代理并通过简单融合暴露"贡献者"与"破坏者",在多模态情感识别任务上揭示了系统性的模态可靠性差异。

When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations

发现大多模态模型(LMMs)在场景文字识别中存在"语义幻觉"问题(将无语义文本误识为语义合理的词),分析发现注意力集中于文本区域的Transformer层更不易幻觉,据此提出训练无关的ZoomText+Grounded Layer Correction框架,在TextHalu-Bench上提升约4-5%,在ST-VQA上提升约4%。

STRUCTURE: With Limited Data for Multimodal Alignment, Let the Structure Guide You

提出 STRUCTURE 正则化和基于表示相似度的层选择策略,仅用少量配对数据(数万对,不到常规方法的1%)即可实现冻结单模态基础模型的高质量跨模态对齐,在24个零样本分类和检索基准上平均提升51.6%和91.8%。

Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting

提出 CAW(Confidence-Aware Weighting),一种针对CLIP模型的对抗微调损失函数,通过置信度感知加权重点关注困难对抗样本,结合特征对齐正则化保留预训练语义知识,在AutoAttack下实现零样本鲁棒性SOTA,且内存占用更低。


🏥 医学图像

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks

提出 3D-RAD——首个大规模3D医学VQA基准,包含170K条CT影像问答数据,覆盖六类临床任务(含创新性的多时相诊断任务),并配套136K训练集,揭示了现有VLM在3D时序推理上的严重不足。

A Novel Approach to Classification of ECG Arrhythmia Types with Latent ODEs

将路径最小化 Latent ODE 的编码器与梯度提升决策树(GBDT)组合为两阶段 ECG 心律失常分类流水线,在 MIT-BIH 数据集上的 macro AUC-ROC 从 360Hz 的 0.984 仅降至 45Hz 的 0.976,展示了对采样频率变化的强鲁棒性。

A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking

提出首个统一视频融合框架 UniVF(基于多帧学习 + 光流特征 warping + 时序一致性损失),并构建首个覆盖四大融合任务(多曝光、多焦点、红外-可见光、医学)的视频融合基准 VF-Bench,在全部子任务上取得 SOTA。

A Variational Manifold Embedding Framework for Nonlinear Dimensionality Reduction

提出一种变分流形嵌入框架,将降维问题形式化为最优嵌入映射的优化问题(最小化先验分布与数据分布pullback之间的KL散度),在理论上统一了PCA与非线性降维方法,并利用变分法(Euler-Lagrange方程)和Noether定理为最优嵌入提供了可解释性约束。

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

针对现实药物发现中蛋白质 holo 结构不可用的问题,提出 AANet——通过三模态对比学习(配体-holo pocket-检测cavity)对齐表征并用交叉注意力聚合多个候选结合位点,在 apo/predicted 蛋白质结构上的盲筛性能远超 SOTA(DUD-E 上 EF1% 从 11.75 提升至 37.19)。

Active Target Discovery under Uninformative Prior: The Power of Permanent and Transient Memory

提出 EM-PTDM 框架,受神经科学双记忆系统启发,利用预训练扩散模型作为"永久记忆"并结合基于 Doob's h-transform 的轻量"瞬时记忆"模块,在无领域先验数据的条件下实现高效的主动目标发现,理论保证先验单调改进。

Amortized Active Generation of Pareto Sets

提出 A-GPS 框架,通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器(CPE)作为 PHVI 的隐式估计替代显式超体积计算,并通过偏好方向向量实现摊还式后验偏好条件化(无需重新训练),在合成基准和蛋白质设计任务上展示了优越的样本效率。

Atomic Diffusion Models for Small Molecule Structure Elucidation from NMR Spectra

提出 ChefNMR,首个基于 3D 原子扩散模型的端到端框架,仅从 1D NMR 光谱和化学式直接预测未知小分子(尤其是复杂天然产物)的分子结构,在合成和实验数据集上均达到 SOTA。

GraphFLA: Augmenting Biological Fitness Prediction Benchmarks with Landscape Features

GraphFLA 是一个高效的适应度景观分析框架——计算 20 个生物学意义的景观特征(粗糙度/上位性/可导航性/中性),在 5300+ 真实景观(ProteinGym/RNAGym/CIS-BP)上揭示模型性能高度依赖景观拓扑,如 VenusREM 在高可导航性景观上优于 ProSST 但在高上位性景观上弱于后者,处理百万突变体仅需 20 秒(vs MAGELLAN 5 小时)。

Autoencoding Random Forests

RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码,通过 k-NN 回归在叶节点空间中解码回原始特征,在 20 个表格数据集上重建质量排名 1.80(大幅优于 TVAE 3.38、AE 3.27),并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。

BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research

BarcodeMamba+ 是面向真菌 ITS DNA 条形码分类的 SSM 基础模型,通过预训练+微调范式充分利用海量未标注序列,并结合层次标签平滑、逆平方根加权损失和多头输出三项增强,在三个测试集所有分类层级上大幅超越 BLAST、CNN 和 Transformer 基线,种级准确率最高达 88.9%。

CrossNovo: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation

CrossNovo 融合自回归(AR)和非自回归(NAR)解码器,通过共享谱编码器 + 重要性退火 + 梯度阻断知识蒸馏,让 NAR 的双向全局理解增强 AR 的序列生成能力,在 9-Species 基准上氨基酸精度达 0.811(+2.6%)、肽段召回 0.654(+5.3%)。

Brain Harmony: A Multimodal Foundation Model Unifying Morphology and Function into 1D Tokens

首个统一脑结构形态(T1 sMRI)与功能动态(fMRI)的多模态脑基础模型,通过几何谐波预对齐和时序自适应 Patch Embedding(TAPE)将高维神经影像压缩为紧凑的 1D token 表示,在神经发育/退行性疾病诊断和认知预测任务上全面超越先前方法。

Bridging Graph and State-Space Modeling for Intensive Care Unit Length of Stay Prediction

提出 S2G-Net,将 Mamba 状态空间模型的时序编码与多视图图神经网络(GraphGPS)进行双路融合,用于 ICU 住院时长(LOS)预测,在 MIMIC-IV 数据集上全面超越序列模型、图模型和混合基线。

Care-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

发布 Care-PD——目前最大的面向帕金森病步态分析的多站点匿名 3D 网格数据集(9 个队列、8 个临床中心、362 名受试者、8477 段步行),并在 UPDRS 步态评分和运动预训练任务上提供系统性 benchmark,证明在 Care-PD 上微调可将 MPJPE 从 60.8mm 降至 7.5mm,F1 提升 17 个百分点。

CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research

提出 CGBench,一个基于 ClinGen 专家标注的临床遗传学 benchmark,从变异和基因策展角度评估 LLM 的科学文献推理能力,涵盖证据评分、证据验证和实验证据提取三个任务,发现推理模型在细粒度任务上表现最佳但在高层判断上不如非推理模型。

CodeCrash: Exposing LLM Fragility to Misleading Natural Language in Code Reasoning

提出 CodeCrash 压力测试框架,通过功能等价的结构扰动和误导性自然语言注入(注释/print/暗示),系统评估 17 个 LLM 的代码推理鲁棒性,揭示模型平均性能下降 23.2%,CoT 仅能挽回至 13.8%,并首次发现大推理模型(LRM)中的 "Reasoning Collapse" 现象。

Compressing Biology: Evaluating the Stable Diffusion VAE for Phenotypic Drug Discovery

首次系统评估 Stable Diffusion VAE(SD-VAE)在 Cell Painting 显微镜图像上的重建质量,发现 SD-VAE 在像素级和生物信号层面均能良好保留表型信息(FR 几乎无下降),且通用特征提取器 InceptionV3 在检索任务上与领域专用模型 OpenPhenom 持平甚至更优。

ConfRover: Simultaneous Modeling of Protein Conformation and Dynamics via Autoregression

ConfRover 提出自回归框架将蛋白质 MD 轨迹分解为逐帧条件生成 \(p(\mathbf{x}^{1:L}) = \prod_l p(\mathbf{x}^l | \mathbf{x}^{<l})\),通过编码器 + 因果 Transformer + SE(3) 扩散解码器的模块化架构,首次在单一模型中统一轨迹模拟、时间无关构象采样和构象插值三大任务,在 ATLAS 数据集上全面超越 MDGen。

Consistent Sampling and Simulation: Molecular Dynamics with Energy-Based Diffusion Models

本文发现扩散模型在采样和模拟之间存在不一致性问题(尤其在小扩散时间步),提出基于 Fokker-Planck 方程的正则化项来强制一致性,并结合时间分段的混合专家(MoE)策略,实现了在多个生物分子系统上一致且高效的采样与分子动力学模拟。

Convolutional Monge Mapping between EEG Datasets to Support Independent Component Labeling

本文扩展 CMMN(Convolutional Monge Mapping Normalization)方法,提出通道平均 PSD + \(\ell_1\) 归一化质心和 subject-to-subject 匹配两种策略,生成单一时域滤波器实现不同通道数的 EEG 数据集间域适应,在独立成分(IC)脑/非脑分类中 F1 从 0.77 提升至 0.84,超越 ICLabel(0.88→0.91)。

CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning

CureAgent 提出 Executor-Analyst 协作框架,将精确工具调用(TxAgent/Llama-8B 做 Executor)与高层临床推理(Gemini 2.5 做 Analyst)解耦,配合分层集成(Stratified Ensemble)的 Late Fusion 拓扑保留证据多样性,在 CURE-Bench 上达到 83.8% 准确率(无需端到端微调),揭示了上下文-性能悖论和动作空间维度灾难两个关键 scaling 发现。

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

提出 CheXStruct + CXReasonBench,一个基于胸部X光的结构化诊断推理评估框架,通过多路径、多阶段评估揭示现有 LVLM 在中间推理步骤上的严重不足。

DCA: Graph-Guided Deep Embedding Clustering for Brain Atlases

DCA(Deep Cluster Atlas)提出图引导深度嵌入聚类框架,结合预训练 Swin-UNETR 的体素级时空嵌入和 KNN 图空间正则化,通过 KL 散度对齐软分配与图谱聚类辅助标签,生成功能一致且空间连续的个性化脑图谱,在 HCP 数据集上同态性提升 98.8%、轮廓系数提升 29%,并在自闭症诊断、认知解码等下游任务中超越现有图谱。

De novo generation of functional terpene synthases using TpsGPT

TpsGPT 通过在 79K 萜烯合酶(TPS)序列上微调蒸馏版 ProtGPT2 Tiny(38.9M 参数),生成 28K 候选序列,经多阶段过滤(困惑度/pLDDT/EnzymeExplorer/CLEAN/InterPro/Foldseek)筛选出 7 条进化距离远(<60% 序列相似度)但结构保守的从头 TPS 序列,湿实验验证其中 2 条具有 TPS 酶活性——以不到 $200 GPU 成本实现功能酶从头设计。

Demo: Generative AI helps Radiotherapy Planning with User Preference

提出 Flexible Dose Proposer (FDP),通过两阶段训练框架(VQ-VAE 预训练 + 多条件编码)实现基于滑块的用户偏好交互式 3D 剂量分布预测,并集成到 Eclipse 临床治疗计划系统中,在头颈部癌症放疗场景中超越 Varian RapidPlan。

Demo: Guide-RAG: Evidence-Driven Corpus Curation for Retrieval-Augmented Generation in Long COVID

系统评估了六种 RAG 语料库配置用于长新冠(Long COVID)临床问答,发现将临床指南与高质量系统综述结合的 GS-4 配置在 faithfulness、relevance 和 comprehensiveness 三维度上一致优于单指南和大规模文献库方案,并提出 Guide-RAG 框架和 LongCOVID-CQ 评估数据集。

DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders

构建了 DermaCon-IN——首个以印度肤色为主的密集标注皮肤病图像数据集(5,450 张 / 3,002 患者 / 245 种诊断),提供三级层次诊断标签、47 个病灶描述符和 49 个解剖位置标注,并用 CNN/ViT/概念瓶颈模型进行基准评测。

DesignX: Human-Competitive Algorithm Designer for Black-Box Optimization

提出 DesignX,首个统一学习算法工作流生成和超参数动态控制两个子任务的自动算法设计框架,通过双 Transformer 智能体在 10k 合成问题上大规模预训练,在合成测试集和蛋白质对接/AutoML/UAV 路径规划等真实场景中超越人类手工设计的优化器。

DIsoN: Decentralized Isolation Networks for Out-of-Distribution Detection in Medical Imaging

提出 Decentralized Isolation Networks (DIsoN),通过训练二分类器将测试样本从训练数据中"隔离"来检测 OOD,并通过去中心化参数交换实现在不共享数据的情况下利用训练数据信息,在 4 个医学影像数据集 12 个 OOD 检测任务上取得 SOTA。

Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum

提出一种全自监督的噪声鲁棒表示学习框架,通过"去噪→噪声"的数据课程学习策略 + 去噪教师正则化,使 DINOv2 等 SSL 模型在推理时无需去噪器即可直接处理噪声输入,在 ImageNet-1k 极端高斯噪声下线性探测精度提升 4.8%。

Doctor Approved: Generating Medically Accurate Skin Disease Images through AI-Expert Feedback

提出 MAGIC 框架,通过将皮肤科专家定义的临床检查清单转化为 MLLM(如 GPT-4o)可执行的评估反馈,利用 DPO 或奖励模型微调扩散模型,生成临床准确的皮肤病图像用于数据增强,在 20 类皮肤病分类任务上提升 +9.02%,少样本场景提升 +13.89%。

Domain-Adaptive Transformer for Data-Efficient Glioma Segmentation in Sub-Saharan MRI

提出 SegFormer3D+,一种面向撒哈拉以南非洲异质 MRI 数据的域自适应 Transformer 架构,通过直方图匹配、影像组学分层采样、频率感知双路径编码器和双注意力机制,在仅 60 例标注数据微调下实现胶质瘤分割 mean Dice 0.81,超越 nnU-Net +2.5%。

Dual Mixture-of-Experts Framework for Discrete-Time Survival Analysis

提出双混合专家(Dual MoE)框架用于离散时间生存分析,结合特征编码器 MoE(建模患者亚组异质性)与风险网络 MoE(捕获时间动态),在 METABRIC 和 GBSG 乳腺癌数据集上提升 time-dependent C-index 最高 0.04。

DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs

DyG-Mamba 将连续状态空间模型(SSM)引入动态图学习,设计时间跨度感知的连续 SSM——用 Ebbinghaus 遗忘曲线启发的指数衰减函数建模不规则时间间隔,配合谱范数约束的输入依赖参数实现 Lipschitz 鲁棒性,在 12 个动态图基准上平均排名 2.42(vs DyGFormer 2.92),且保持 \(O(bdL)\) 线性复杂度。

Dynamic Causal Discovery in Alzheimer's Disease through Latent Pseudotime Modelling

将 BN-LTE(贝叶斯网络+潜在时间嵌入)应用于 ADNI 真实 AD 数据,推断随疾病伪时间演变的动态因果图,伪时间预测诊断 AUC 0.82 远超年龄 0.59,并揭示了新型生物标志物 NfL/GFAP 与传统 AD 标志物之间的动态因果关系。

EDBench: Large-Scale Electron Density Data for Molecular Modeling

构建了目前最大规模的电子密度(ED)数据集 EDBench(330 万分子,基于 B3LYP/6-31G** DFT 计算),并设计了涵盖预测、检索、生成三类任务的 ED 基准评估体系,首次系统评估了深度学习模型对电子密度的理解和利用能力。

EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis

提出 EndoBench,首个覆盖 4 种内窥镜场景、12 项临床任务、5 级视觉提示粒度的综合 MLLM 评估基准,包含 6,832 个经临床验证的 VQA 对,对 23 个 MLLM 的评估显示商用模型整体领先但仍落后人类专家。

Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling

提出 Energy Matching,通过学习一个时间无关的标量势能场统一流匹配与能量模型:远离数据流形时沿最优传输路径高效传输,靠近流形时过渡为 Boltzmann 平衡分布以建模似然,在 CIFAR-10 上 FID 3.34 大幅超越现有 EBM(>50%提升)。

EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging

提出将类条件 DDPM 扩散重放与弹性权重巩固(EWC)相结合的无样本持续学习框架,在 MedMNIST v2(8 个 2D/3D 任务)和 CheXpert 上实现了 AUROC 0.851,相比 DER++ 遗忘率降低超 30%,接近联合训练上界(0.869),同时完全无需存储患者原始数据。

Exploring and Leveraging Class Vectors for Classifier Editing

提出 Class Vector(类向量),通过计算预训练与微调模型在潜空间中类别质心的差异来捕获类别级适应,利用线性和独立性两个性质,通过简单向量算术实现分类器编辑(遗忘、环境适应、对抗防御),无需重训练即可完成潜空间注入,或用 <1.5K 参数在 1.5 秒内完成权重空间映射。

FairGRPO: Fair Reinforcement Learning for Equitable Clinical Reasoning

提出 FairGRPO,一种层级式公平强化学习算法,通过自适应重要性加权(基于群体表示量和任务难度)解决临床 AI 中的人群表现差异问题,在 7 个临床数据集(280K样本,5种模态)上将预测平价降低 27.2%、F1 提升 12.49%,并发布首个公平性优化的临床 VLLM——FairMedGemma-4B。

Faithful Summarization of Consumer Health Queries: A Cross-Lingual Framework with LLMs

提出结合 TextRank 抽取式句子选择和医学命名实体识别 (NER) 来引导 LLM 生成忠实医学摘要的框架,在英文 MeQSum 和孟加拉语 BanglaCHQ-Summ 数据集上通过微调 LLaMA-2-7B 实现质量和忠实性的一致提升,SummaC 达 0.57,人工评估 82% 摘要保留关键医学信息。

FAPEX: Fractional Amplitude-Phase Expressor for Robust Cross-Subject Seizure Prediction

提出 FAPEX 框架,通过可学习的分数阶神经帧算子 (FrNFO) 实现自适应时频分解,结合幅度-相位交叉编码和空间相关性聚合,在 12 个跨物种、跨模态的癫痫预测基准上全面超越 33 个基线方法。

Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling

提出 HiVE-MIL,一个层级视觉-语言 MIL 框架,通过构建统一异构图建模跨尺度层级关系(5× 和 20×)和同尺度多模态对齐,配合文本引导的动态过滤机制和层级对比损失,在 TCGA 肺/乳腺/肾癌三个数据集的 16-shot 设置下全面超越已有方法,Macro F1 最高提升 4.1%。

FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models

本文提出 FGBench,一个包含 625K 分子性质推理问题的数据集,专注于功能基团(functional group)级别的推理评估,通过三个维度(单功能基团影响、多功能基团交互、分子比较)系统揭示了当前 LLM 在细粒度化学推理能力上的严重不足。

FireGNN: Neuro-Symbolic Graph Neural Networks with Trainable Fuzzy Rules for Interpretable Medical Image Classification

提出 FireGNN,首次将可训练模糊规则嵌入 GNN 前向传播中,利用节点度、聚类系数和标签一致性三个拓扑描述子实现内生可解释的医学图像分类,在 5 个 MedMNIST 数据集和 MorphoMNIST 上取得优于标准 GCN/GAT/GIN 及辅助任务方法的性能。

Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

提出 Flow Density Control(FDC),将预训练流/扩散模型的微调从 KL 正则期望奖励最大化推广到任意分布效用函数 + 任意散度正则的通用框架,通过将非线性目标分解为一系列线性微调子任务实现,并提供收敛保证。

FOXES: A Framework For Operational X-ray Emission Synthesis

提出 FOXES,一个基于 Vision Transformer 的框架,将太阳多通道 EUV 观测图像翻译为软 X 射线(SXR)通量,整体 Pearson 相关达到 0.982,为远端太阳耀斑检测和更完整的耀斑目录构建奠定基础。

Fractional Diffusion Bridge Models

提出分数扩散桥模型(FDBM),将分数布朗运动(fBM)引入生成扩散桥框架,通过 Hurst 指数 \(H\) 控制轨迹的粗糙度和长程依赖性,在蛋白质构象预测和图像翻译任务上超越布朗运动基线。

From Black Box to Biomarker: Sparse Autoencoders for Interpreting Speech Models of Parkinson's Disease

将大语言模型可解释性研究中的稀疏自编码器(SAE)技术适配到语音帕金森病检测系统中,提出 Mask-based SAE 解决小数据集限制,发现模型预测主要基于低能量区域的频谱通量和频谱平坦度,并进一步揭示这些特征与 MRI 壳核体积显著相关,建立了从模型内部表征到临床生物标志物的桥梁。

Generalizable, Real-Time Neural Decoding with Hybrid State-Space Models

POSSM 提出了一种混合 SSM-注意力架构,结合 spike 级别 tokenization 和循环状态空间模型骨干,实现了可泛化的实时神经解码,在保持与 Transformer 可比的精度的同时,推理速度提升最高 9 倍。

Generating Multi-Table Time Series EHR from Latent Space with Minimal Preprocessing

提出 RawMed——首个以最小有损预处理合成多表时序 EHR 原始数据的框架:将事件文本化 → Residual Quantization 压缩至离散潜空间 → 自回归 Transformer 建模时序动态,在保真度、临床效用和隐私保护上全面超越现有基线。

Generative Distribution Embeddings: Lifting Autoencoders to the Space of Distributions for Multiscale Representation Learning

提出生成分布嵌入(GDE),将自编码器提升到分布空间——编码器作用于样本集合,解码器替换为条件生成模型,学习分布级别的表示,并在6个计算生物学任务上验证有效性。

Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings

提出 LD-FPG 框架,使用 Chebyshev 图神经网络将蛋白质全原子 MD 轨迹编码到低维潜在空间,再用 DDPM 在该空间中生成新的构象集合体(ensemble),首次实现了包含侧链所有重原子的蛋白质构象生成。

GeoDynamics: A Geometric State-Space Neural Network for Understanding Brain Dynamics on Riemannian Manifolds

提出GeoDynamics,将经典状态空间模型(SSM)从欧几里得空间推广到对称正定(SPD)流形,通过加权Frechet均值聚合和正交群平移实现流形上的状态演化,在脑连接组(AD/PD/ASD早期诊断)和人体动作识别上均取得SOTA。

GFlowNets for Learning Better Drug-Drug Interaction Representations

针对药物-药物相互作用(DDI)预测中严重的类别不平衡问题,本文提出将 GFlowNet 与变分图自编码器(VGAE)结合,通过奖励引导的生成采样为稀有交互类型生成合成样本,从而增强模型在罕见但临床关键的交互类型上的预测能力。

H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis

H-DDx 提出基于 ICD-10 分类层级的鉴别诊断评估框架——将预测和真实诊断扩展到祖先节点后计算层级 F1(HDF1),奖励"临床相关的近似正确"而非仅精确匹配,评估 22 个 LLM 后发现领域特化模型(MediPhi)在 HDF1 上从第 20 名升至第 2 名(Top-5 指标完全遮蔽其优势)。

ImageNet-trained CNNs are not biased towards texture: Revisiting feature reliance through controlled suppression

通过系统化的特征抑制框架(而非冲突选择实验)重新评估 CNN 的特征依赖性,发现 CNN 并非天然偏向纹理,而是主要依赖局部形状特征;且不同领域(CV/MI/RS)的特征依赖模式显著不同。

Interpreting GFlowNets for Drug Discovery: Extracting Actionable Insights for Medicinal Chemistry

为 SynFlowNet(基于合成反应模板的 GFlowNet)构建了一套多层次可解释性工具包,整合梯度显著性、反事实扰动、稀疏自编码器(SAE)和基序探针,揭示模型内部表征如何编码药物化学相关的理化性质和官能团信息。

Is Sequence Information All You Need for Bayesian Optimization of Antibodies?

本文系统比较了序列信息和结构信息在抗体贝叶斯优化中的作用,发现通过蛋白质语言模型(pLM)软约束,纯序列方法可以匹配结构方法的性能,质疑了结构信息在抗体贝叶斯优化中的必要性。

Iterative Foundation Model Fine-Tuning on Multiple Rewards

提出 IterativeRS(迭代 Rewarded Soups),通过在多目标专家策略的独立微调和策略合并之间交替迭代,统一了奖励组合和专家合并两类方法,在小分子设计、DNA 序列生成和文本摘要任务上均优于 MORLHF 和 Rewarded Soups。

JAMUN: Bridging Smoothed Molecular Dynamics and Score-Based Learning for Conformational Ensembles

提出 JAMUN,一种基于 Walk-Jump Sampling 框架的分子构象集成生成方法,通过在加噪的平滑流形上执行朗之万动力学并用 SE(3) 等变去噪器跳回原始分布,实现了比传统分子动力学快一个数量级的肽段构象采样,且具备对训练外系统的迁移能力。

JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model

提出JanusDNA,首个双向DNA基础模型,结合Mamba-Attention-MoE混合架构和Janus Modeling训练范式,以自回归的训练效率实现双向理解,在多个基因组基准上达到SOTA。

Large Language Models as Medical Codes Selectors: A Benchmark Using the International Classification of Primary Care

构建了一个 extract-retrieve-select 框架的医学编码基准,在 33 个 LLM 上评估 ICPC-2 编码选择能力,发现 28 个模型 F1>0.8,证明 LLM 无需微调即可有效自动化初级保健编码。

Learning Conformational Ensembles of Proteins Based on Backbone Geometry

提出 BBFlow,一种基于蛋白质骨架几何信息的流匹配生成模型,用于蛋白质构象集合采样,无需进化序列信息或预训练折叠模型,推理速度比 AlphaFlow 快一个数量级以上,且可扩展到多链蛋白质。

Learning Relative Gene Expression Trends from Pathology Images in Spatial Transcriptomics

提出 STRank 损失函数,将病理图像基因表达估计重新定义为排序分数估计任务,利用二项分布/多项分布建模表达计数的随机噪声特性,使模型能从包含批次效应和随机波动的空间转录组数据中学习到鲁棒的相对表达关系。

LLM-Assisted Emergency Triage Benchmark: Bridging Hospital-Rich and MCI-Like Field Simulation

基于MIMIC-IV-ED构建了一个开放的、LLM辅助策划的急诊分诊基准数据集,定义了医院丰富资源和大规模伤亡事件(MCI)模拟两种场景,提供基线模型和SHAP可解释性分析,推动分诊预测研究的可复现性和普及化。

LoMix: Learnable Weighted Multi-Scale Logits Mixing for Medical Image Segmentation

LoMix 提出通过组合突变模块(CMM)生成多尺度 logits 的"突变体"——4 种融合算子(加法/乘法/拼接/注意力加权)× 所有子集组合——配合 NAS 风格的 Softplus 可学习权重自动平衡各 logits 的贡献,在 Synapse 8 器官分割上 DICE 从 80.9% 提升到 85.1%(+4.2%),5% 训练数据下提升 +9.23%。

Magical: Medical Lay Language Generation via Semantic Invariance and Layperson-tailored Adaptation

提出 Magical,一种面向医学通俗语言生成(MLLG)的非对称 LoRA 架构,通过共享矩阵 A 上的语义不变性约束和多个独立矩阵 B 实现语义保真与多样化通俗风格生成,在减少 31.66% 可训练参数的同时超越所有 LoRA 变体。

Mamba Goes HoME: Hierarchical Soft Mixture-of-Experts for 3D Medical Image Segmentation

提出Mamba-HoME架构,将层次化Soft MoE(HoME)与Mamba SSM结合,通过两级token路由机制实现局部-全局特征建模,在CT/MRI/US三种模态的3D医学图像分割任务上超越现有SOTA方法,同时保持线性计算复杂度。

Manipulating 3D Molecules in a Fixed-Dimensional E(3)-Equivariant Latent Space

提出MolFLAE,一种学习固定维度、E(3)等变潜在空间的3D分子变分自编码器,通过引入可学习虚拟节点和贝叶斯流网络解码器,实现零样本分子编辑,包括原子数编辑、结构重构和性质插值,并在人类糖皮质激素受体(hGR)的药物优化中展示了实际应用价值。

MATCH: Multi-faceted Adaptive Topo-Consistency for Semi-Supervised Histopathology Segmentation

提出MATCH框架,通过将拓扑推理与半监督学习的"扰动鲁棒性"原则紧密耦合,利用跨随机扰动和时间训练快照的双层拓扑一致性,自适应识别可靠拓扑结构而无需人工阈值,显著降低了组织病理学图像分割中的拓扑错误。

MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks

提出 MedAgentBoard,一个系统评估多智能体协作、单 LLM 和传统方法在多样化医学任务上表现的综合基准,揭示多智能体协作并不总是优于强单模型或专用传统方法。

MedMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph

构建了一个融合MIMIC-CXR影像数据和UMLS临床概念的医学多模态知识图谱MedMKG,提出Neighbor-aware Filtering(NaF)图像筛选算法,并在链接预测、文本-图像检索和VQA三大任务上对24种基线方法进行了全面基准测试。

Mind the (Data) Gap: Evaluating Vision Systems in Small Data Applications

在 NeWT 生态分类基准上系统比较了 MLLMs(如 Gemini、Qwen2.5-VL)和视觉编码器+SVM 在"小数据区间"(10~1000 标注样本)的表现,发现 MLLMs 在 10-30 个样本后即触顶,而视觉方法持续近对数增长,呼吁社区重视小数据评估。

Mind the Gap: Aligning Knowledge Bases with User Needs to Enhance Mental Health Retrieval

提出一种基于"需求差距"分析的知识库增强框架,通过叠加真实用户数据(论坛帖子)与现有心理健康资源库来识别内容空白,并用定向增强策略以最少的文档增量达到接近完整语料库的 RAG 检索质量。

MIRA: Medical Time Series Foundation Model for Real-World Health Data

提出 MIRA,一个专为医学不规则时间序列设计的基础模型,通过连续时间旋转位置编码、频率特定 MoE 和 Neural ODE 外推模块,在 4540 亿个观测点上预训练,零样本预测性能在 OOD 和 ID 场景中分别平均降低 8% 和 6% 的误差。

Modeling X-ray Photon Pile-up with a Normalizing Flow

提出基于Normalizing Flow的仿真推断(SBI)框架,通过CNN提取空间分辨的X射线光谱特征并输入神经样条流,实现在存在光子堆叠效应(pile-up)情况下对天体物理源参数的精确后验估计,显著优于传统PSF核心剪除方法。

Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Models

提出 Mol-LLaMA,一个面向分子通用理解的大型分子语言模型,通过设计三类关键指令数据类型和 2D-3D 分子表示融合模块,在分子特征理解上超越 GPT-4o,具备可解释性和推理能力。

MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology

提出MTBBench——首个同时覆盖多模态、纵向时序和交互式Agent工作流三个维度的临床基准,模拟分子肿瘤委员会(MTB)的决策流程,评估并增强AI Agent在肿瘤学精准医疗中的多模态纵向推理能力。

Multi-Objective Reinforcement Learning with Max-Min Criterion: A Game-Theoretic Approach

将max-min多目标强化学习重新表述为两人零和正则化连续博弈,提出ERAM/ARAM算法,利用镜像下降实现简洁的闭式权重更新,保证全局最后迭代收敛,在交通信号控制等任务中显著优于已有方法。

Multimodal 3D Genome Pre-training

提出MIX-HIC——首个面向3D基因组的多模态基础模型,通过跨模态交互块和跨模态映射块融合Hi-C接触图和表观基因组信号,在超过127万对样本上预训练,在Hi-C预测、染色质环检测和CAGE-seq表达预测三个下游任务上全面超越SOTA。

Multimodal Bayesian Network for Robust Assessment of Casualties in Autonomous Triage

提出基于专家知识驱动的贝叶斯网络决策支持框架,融合多个计算机视觉模型的输出来评估伤亡人员状况,无需训练数据且支持不完整信息推断,在DARPA Triage Challenge中将分诊准确率从14%提升至53%,诊断覆盖率从31%提升至95%。

Multimodal Disease Progression Modeling via Spatiotemporal Disentanglement and Multiscale Alignment

提出 DiPro 框架,通过区域感知的时空解耦(分离静态解剖与动态病理特征)和多时间尺度对齐(局部-全局融合 CXR 与 EHR),解决了纵向胸部X光序列的冗余问题和跨模态时间错位挑战,在疾病进展识别和 ICU 预测任务上达到 SOTA。

Multiscale Guidance of Protein Structure Prediction with Heterogeneous Cryo-EM Data

CryoBoltz利用冷冻电镜(cryo-EM)密度图通过多尺度引导机制(全局→局部)引导预训练扩散结构预测模型(Boltz-1)的采样轨迹,无需重新训练即可生成与实验数据一致的多构象原子模型。

MuSLR: Multimodal Symbolic Logical Reasoning

提出首个多模态符号逻辑推理任务MuSLR及其基准测试集MuSLR-Bench(1,093个实例,涵盖7个领域、35种原子符号逻辑、推理深度2-9),并设计模块化框架LogiCAM,通过前提选择、推理类型识别和符号推理三个模块将GPT-4.1的CoT性能提升14.13%。

NeurIPT: Foundation Model for Neural Interfaces

NeurIPT是一个面向多样化脑机接口(BCI)应用的EEG基础模型,通过振幅感知掩码预训练(AAMP)、渐进式专家混合(PMoE)架构、3D电极空间编码和脑叶内/跨脑叶池化(IILP)四大创新设计,在八个下游BCI任务上实现了SOTA性能。

One Small Step with Fingerprints, One Giant Leap for De Novo Molecule Generation from Mass Spectra

通过将 MIST 作为质谱-指纹编码器、MolForge 作为指纹-结构解码器,并采用先验调整阈值策略,在 MassSpecGym 基准上实现了从质谱从头生成分子结构的十倍性能提升(top-1 准确率从 2.3% 提升至 31%)。

Online Feedback Efficient Active Target Discovery in Partially Observable Environments

提出 DiffATD,利用扩散模型的逆向过程构建 belief 分布来平衡探索与利用,在部分可观测环境中无需任何监督训练即可高效发现目标区域,适用于医学影像、物种发现和遥感等多领域。

Ordinal Label-Distribution Learning with Constrained Asymmetric Priors for Imbalanced Retinal Grading

提出 CAP-WAE(Constrained Asymmetric Prior Wasserstein Autoencoder),通过非对称先验、序数边距正交紧凑损失和方向感知序数损失三重创新,解决糖尿病视网膜病变分级中长尾分布和序数结构的挑战,在多个 DR 基准上达到 SOTA。

Orochi: Versatile Biomedical Image Processor

提出 Orochi——首个面向底层生物医学图像处理的通用基础模型,通过任务相关联合嵌入预训练(TJP)和多头层级 Mamba 架构,在配准、融合、复原和超分辨率四大任务上以轻量微调(<5% 参数)即可达到或超越专用 SOTA 模型。

Pancakes: Consistent Multi-Protocol Image Segmentation Across Biomedical Domains

提出 Pancakes 框架,给定来自未见过领域的生物医学图像集合,自动生成多个合理分割协议(protocol)的标签图,且同一协议下不同图像的标签具有语义一致性——同一标签在所有图像中指代相同的解剖结构。

PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

提出PatientSim——基于真实MIMIC临床数据和四维人格轴(性格、语言能力、病史记忆水平、认知混乱程度)的LLM患者模拟器,生成37种独特人格组合,在8个LLM上评估事实准确性和人格一致性,由4名临床专家验证平均质量得分3.89/4。

Pharmacophore-Guided Generative Design of Novel Drug-Like Molecules

提出一种药效团引导的分子生成框架,在强化学习模型(FREED++)的奖励函数中同时最大化药效团相似度和最小化结构相似度,生成既保留生物活性特征又具有高结构新颖性的候选药物分子。

PhysioWave: A Multi-Scale Wavelet-Transformer for Physiological Signal Representation

提出 PhysioWave,一种基于可学习小波分解和频率引导掩码的多尺度 Transformer 架构,首次为 EMG 和 ECG 构建大规模预训练基础模型,并通过多模态融合框架在单模态和多模态生理信号任务上取得 SOTA 性能。

PolyPose: Deformable 2D/3D Registration via Polyrigid Transformations

提出PolyPose,一种基于多刚体变换(polyrigid)的可变形2D/3D配准方法,利用"骨骼是刚体"这一解剖学先验,将复杂3D形变场参数化为多个刚体变换在切空间 \(\mathfrak{se}(3)\) 中的加权组合,无需正则化和超参数调优即可从少至两张X光片实现精确的3D体积配准。

Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models

这篇立场论文系统综述了LLM在非结构化临床转录文本主题分析中的应用现状,发现评估方法高度碎片化,并提出以有效性(Validity)、可靠性(Reliability)、可解释性(Interpretability)三维度为核心的标准化评估框架。

Posterior Sampling by Combining Diffusion Models with Annealed Langevin Dynamics

提出将扩散模型与退火 Langevin 动力学结合的算法,仅需 \(L^4\) 精度的 score 估计即可在(局部)对数凹分布下实现多项式时间的后验采样,首次为带暖启动的逆问题求解提供理论保障。

Prior-Guided Flow Matching for Target-Aware Molecule Design with Learnable Atom Number

提出 PAFlow,基于流匹配框架的 3D 分子生成模型,通过蛋白-配体交互预测器引导向量场和可学习原子数预测器,在 CrossDocked2020 上实现 -8.31 Avg. Vina Score 的新 SOTA,大幅超越已有方法。

PROSPERO: Active Learning for Robust Protein Design Beyond Wild-Type Neighborhood

提出 ProSpero,一个主动学习框架,通过冻结的预训练生成模型(EvoDiff)在代理模型引导下的推理时采样、针对性掩码策略和生物约束的 SMC 采样,在代理模型可能失配的条件下仍能发现高适应性且新颖的蛋白质序列。

Protein Design with Dynamic Protein Vocabulary

提出 ProDVa 方法,将天然蛋白质片段作为"动态词汇"引入生成式蛋白质设计,通过文本编码器+蛋白质语言模型+片段编码器的三组件架构,利用不到 0.04% 的训练数据即可设计出功能对齐且结构可折叠的蛋白质序列,在 pLDDT>70 比例上超越 SOTA 模型 Pinal 达 7.38%。

QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training

QoQ-Med 构建了覆盖 9 个临床模态(1D ECG + 6 类 2D 影像 + 2 类 3D 扫描)的多模态临床基础模型,提出域感知相对策略优化(DRPO)——通过层级温度缩放(域间 × 域内 K-means 聚类)解决模态/难度不平衡问题,在 261 万指令调优对上训练后平均 F1 达 0.295(vs GRPO 0.193,+52.8%),8 个模态中 6 个最优。

Quantifying the Role of OpenFold Components in Protein Structure Prediction

本文提出系统方法评估 OpenFold/AlphaFold2 中 Evoformer 各组件对蛋白质结构预测精度的贡献,发现 MSA 列注意力和 MLP Transition 层是最关键的组件,且多个组件的重要性与蛋白质序列长度显著相关。

RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis

提出检索增强诊断框架RAD,通过从多源医学语料中检索疾病指南并注入多模态模型的特征提取和跨模态融合全流程,同时引入双轴可解释性评估体系,在四个不同解剖部位的数据集上达到SOTA。

RadZero: Similarity-Based Cross-Attention for Explainable Vision-Language Alignment in Chest X-ray

提出 RadZero 框架及核心组件 VL-CABS(基于相似度的视觉语言交叉注意力),在胸部X光上实现可解释的、细粒度的视觉语言对齐,支持零样本分类、定位和分割多任务。

RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis

首个公开的多任务腕骨常规X光数据集RAM-W600,包含1048张影像,支持腕骨实例分割和SvdH骨侵蚀评分两大任务,并提供全面的基准测试。

Random Search Neural Networks for Efficient and Expressive Graph Learning

提出随机搜索神经网络(RSNN),用随机深度优先搜索(DFS)替代随机游走来采样图结构,在稀疏图上仅需\(O(\log|V|)\)次搜索即可实现完整边覆盖,配合通用序列模型可达到通用逼近能力,在分子和蛋白质基准上以最多16倍更少的采样量持续超越RWNN。

RAxSS: Retrieval-Augmented Sparse Sampling for Explainable Variable-Length Medical Time Series Classification

提出RAxSS框架,将检索增强机制引入随机稀疏采样(SSS)流水线,通过窗口内相似度加权聚合替代均匀平均,在保持变长医学时间序列分类性能的同时提供从"哪里"到"为什么"的可解释性证据链。

Revisiting End-to-End Learning with Slide-level Supervision in Computational Pathology

重新审视计算病理中切片级监督的端到端(E2E)学习,首次揭示稀疏注意力MIL在E2E训练中导致的优化困难,提出ABMILX通过多头注意力和全局注意力校正模块解决该问题,使E2E训练的ResNet在多个基准上超越SOTA基础模型。

Robust or Suggestible? Exploring Non-Clinical Induction in LLM Drug-Safety Decisions

通过基于Persona的评估框架发现,ChatGPT-4o和Bio-Medical-Llama-3-8B在药物不良事件预测中会受到临床无关的社会人口属性(教育、保险、住房等)系统性影响,展现出显式和隐式两种偏差模式。

Scaling Laws and Pathologies of Single-Layer PINNs: Network Width and PDE Nonlinearity

对单层PINN在典型非线性PDE上建立了经验缩放定律,发现了双重优化失败:宽度缩放病理(误差不随宽度下降)和复合病理(非线性加剧此失败),证明优化而非近似容量是主要瓶颈。

Securing the Language of Life: Inheritable Watermarks from DNA Language Models to Proteins

提出 DNAMark 和 CentralMark 两种水印方案,针对 DNA 语言模型生成的序列嵌入鲁棒水印:前者利用同义密码子替换实现功能不变水印,后者实现从 DNA 到蛋白质的可遗传水印。

Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation

提出 DISCOVR,一种自监督双分支框架,通过在线语义聚类蒸馏将图像编码器的细粒度空间语义传递到视频编码器的时序表示中,在六个跨胎儿/儿科/成人心脏超声数据集上实现了异常检测、分类和分割的全面领先。

Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data

提出 FGNO(Flow-Guided Neural Operator),将 Flow Matching 与算子学习结合用于时间序列自监督预训练,通过 STFT 实现分辨率不变的函数空间学习,并将流时间(flow time)和网络层作为控制特征粒度的"旋钮",在生物医学任务上显著优于 MAE 等基线。

Self Iterative Label Refinement via Robust Unlabeled Learning

提出一种迭代式管道方法,利用鲁棒的无标签-无标签(UU)学习框架来精炼LLM生成的伪标签,仅需极少人工标注即可在分类和生成式安全对齐任务中超越GPT-4o和DeepSeek-R1的自我精炼方法。

Semantic and Visual Crop-Guided Diffusion Models for Heterogeneous Tissue Synthesis in Histopathology

提出 HeteroTissue-Diffuse(HTD),一种双条件 Latent Diffusion 模型,通过同时以语义分割图和真实组织裁剪块(visual crop)作为条件来生成异质性病理图像,在 Camelyon16 上将 Fréchet Distance 从 430 降至 72(6 倍改善),合成数据训练的 DeepLabv3+ 分割 IoU 与真实数据仅差 1-2%,并通过自监督聚类扩展到 11765 张无标注 TCGA 全幻灯片图像。

Sequential Attention-based Sampling for Histopathological Analysis

提出 SASHA 框架,结合层次注意力多实例学习 (HAFED) 与深度强化学习 (RL),仅采样 10-20% 的高分辨率 patch 即可达到全分辨率 SOTA 方法的分类性能,推理速度提升 4-8 倍,WSI 压缩率超 16 倍。

Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs

提出MedQA-Followup框架系统评估医学LLM的多轮鲁棒性,发现模型在单轮扰动下表现尚可(浅层鲁棒性),但在多轮追问中准确率可从91.2%暴跌至13.5%(深层脆弱性),且间接上下文操纵比直接错误建议更具破坏力。

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

提出 SMMILE——首个由 11 位医学专家驱动的多模态医学上下文学习(ICL)基准,包含 111 道问题(517 个图文问答三元组)覆盖 6 个医学专科和 13 种成像模态,系统性揭示了当前 MLLM 在医学多模态 ICL 上的严重不足以及上下文示例质量和顺序对性能的关键影响。

SpecMER: Fast Protein Generation with K-mer Guided Speculative Decoding

SpecMER 将投机解码引入蛋白质序列生成,用 K-mer 引导的批量选择策略从 draft 模型的多个候选中选取最符合进化保守性的序列供 target 模型验证,在保持分布一致性的同时实现 24-32% 加速,且生成序列的 NLL 和 pLDDT 结构置信度显著优于无引导的 baseline。

STAMP: Spatial-Temporal Adapter with Multi-Head Pooling

STAMP 为时间序列基础模型(TSFM)设计了仅 750K 参数的轻量空间-时间适配器,通过三组位置编码(token/空间/时间)+ 交叉 GMLP 混合 + 多头注意力池化,使冻结的 TSFM(如 MOMENT 385M)在 8 个 EEG 数据集上与 29M 参数的 EEG 专用模型(CBraMod)竞争或超越,在 BCIC-IV-2a 上 Kappa 比 CBraMod 高 193%。

STARC-9: A Large-scale Dataset for Multi-Class Tissue Classification for CRC Histopathology

提出 STARC-9 大规模结直肠癌组织分类数据集(63 万张图片、9 类组织)及其构建框架 DeepCluster++,通过自编码器特征提取 + K-means 聚类 + 等频分箱采样确保形态多样性,在该数据集上训练的模型显著超越 NCT 和 HMU 训练的模型。

Steering Generative Models with Experimental Data for Protein Fitness Optimization

系统性地评估了引导蛋白质生成模型(离散扩散模型和语言模型)进行适应度优化的各种策略,发现使用少量标注数据(~200条)的即插即用引导方法(特别是 DAPS)优于基于 RL 的微调方法,并提出了集成不确定性的 Thompson 采样策略用于自适应优化。

Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface

提出 Surf2CT,一种级联式 3D Flow Matching 框架,首次实现仅从外部体表扫描和人口学数据(年龄、性别、身高、体重)合成完整的高分辨率 3D CT 体积,无需任何内部成像输入。

The Biased Oracle: Assessing LLMs' Understandability and Empathy in Medical Diagnoses

系统评估 GPT-4o 和 Claude-3.7 在医疗诊断沟通中的可读性和共情能力,发现两者均产生超标的阅读难度(9-13 年级 vs 推荐的 6-8 年级),情感共情随诊断类型和患者教育水平显著变化,且 LLM-as-Judge 存在严重自我偏见(GPT 对自身共情评分膨胀 ~0.3 分)。

The Boundaries of Fair AI in Medical Image Prognosis: A Causal Perspective

FairTTE是首个系统研究医学影像中时间-事件(TTE)预测公平性的综合框架,利用因果分析量化五种偏差来源,通过训练超过20000个模型揭示了现有公平性方法的局限性,特别是在分布偏移下公平性难以维持的根本挑战。

THUNDER: Tile-level Histopathology image UNDERstanding benchmark

提出 THUNDER,一个面向数字病理学基础模型的 tile 级别综合基准,支持 23 个基础模型在 16 个数据集上的高效比较,覆盖下游任务性能、特征空间分析、鲁棒性和不确定性评估。

Toward a Vision-Language Foundation Model for Medical Data: Multimodal Dataset and Benchmarks for Vietnamese PET/CT Report Generation

构建首个越南语 PET/CT 图像-报告数据集 ViMed-PET(2,757 例全身 PET/CT 体积 + 完整临床报告),通过数据增强策略和三阶段微调流程显著提升 VLM 在医学报告生成和 VQA 任务上的表现,并提出基于临床关键信息的评估指标。

Towards Multiscale Graph-based Protein Learning with Geometric Secondary Structural Motifs

提出SSHG(Secondary Structure-based Hierarchical Graph)框架,基于蛋白质二级结构motif构建两级层次化图表示(残基级内部图+motif级全局图),用两阶段GNN分别学习局部和全局特征,理论证明保持最大表达力的同时在酶分类和配体亲和力预测上同时提升精度和降低计算成本。

Towards Self-Supervised Foundation Models for Critical Care Time Series

基于双轴Transformer(BAT)架构,在多个ICU数据集上进行自监督预训练,构建重症监护时间序列基础模型,在小数据集场景下显著优于监督学习基线。

Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling

提出 UAE-3D,一种多模态变分自编码器,将3D分子的原子类型、化学键和3D坐标压缩到统一的近无损潜在空间中,消除了处理多模态和等变性的复杂性,使通用 Diffusion Transformer 即可实现 SOTA 的3D分子生成。

Uncertainty-Aware Multi-Objective Reinforcement Learning-Guided Diffusion Models for 3D De Novo Molecular Design

提出不确定性感知的多目标强化学习框架,引导 3D 分子扩散模型(EDM)同时优化药物相关性(QED)、合成可及性(SAS)和结合亲和力(binding affinity),通过代理模型的预测不确定性动态塑造奖励函数,在三个基准数据集上一致超越基线,并通过分子动力学模拟和 ADMET 验证候选分子的药物潜力。

Unified All-Atom Molecule Generation with Neural Fields

提出 FuncBind 框架,利用神经场(Neural Fields)将分子表示为连续原子密度函数,构建统一的条件生成模型,能够同时处理小分子、大环肽和抗体 CDR 环三种药物模态的靶标条件生成。

UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation

提出UniMRSeg,一种统一的模态缺失分割框架,通过层次化自监督补偿机制(HSSC)——从输入级模态重建、特征级对比学习到输出级一致性约束——用100%共享参数在所有可能的模态组合下实现最优平均性能和最小性能波动。

UniSite: The First Cross-Structure Dataset and Learning Framework for End-to-End Ligand Binding Site Detection

提出首个以UniProt(唯一蛋白质)为中心的配体结合位点数据集UniSite-DS,以及首个端到端的结合位点检测框架UniSite,通过集合预测损失和双射匹配直接预测多个可能重叠的结合位点,同时引入IoU-based AP作为更准确的评估指标。

Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM

揭示了即使精确遗忘(从头重训练去除数据影响)也存在隐私泄露风险:攻击者利用遗忘前后两个模型检查点的差异,通过逆向模型引导和 token 过滤策略,可显著提升已删除数据的提取成功率,在某些场景下提取率翻倍。

Unpaired Image-to-Image Translation for Segmentation and Signal Unmixing

提出 Ui2i 模型,在 CycleGAN 基础上通过 UNet 生成器、近似双向谱归一化替代特征归一化、通道-空间注意力和尺度增强,实现高内容保真度的无配对图像翻译,成功用于 IHC→H&E 域适应核分割及单通道免疫荧光信号解混两大生物医学任务。

Variational Autoencoder with Normalizing Flow for X-ray Spectral Fitting

将归一化流 (NF) 嵌入自编码器架构中,对黑洞 X 射线双星的 NICER 光谱数据进行快速物理参数推断和完整后验分布估计,比传统 MCMC 方法快约 2000 倍,且精度可比拟。

VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

提出 VQ-Seg,首次将向量量化引入半监督医学图像分割,用量化扰动模块(QPM)替代传统 dropout 实现更可控的特征扰动,并结合双分支架构和基础模型引导对齐来弥补量化信息损失。

Why Masking Diffusion Works: Condition on the Jump Schedule for Improved Discrete Diffusion

揭示了掩码扩散模型优越性的根本原因——它内建了已知的跳转时间分布,由此提出Schedule-Conditioned Diffusion (SCUD)框架,将此优势推广到任何离散扩散模型,结合结构化前向过程在图像和蛋白质数据上超越掩码扩散。


📦 模型压缩

4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

提出层级化的4D高斯压缩框架4DGCPro,通过感知加权的层级高斯表示、运动感知自适应分组和端到端熵优化训练,在单一模型内实现多码率渐进式体积视频流媒体,可在移动设备上实时解码和渲染,RD性能超越现有SOTA。

A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings

提出 A-Thought——基于 A 搜索算法的 CoT 压缩框架,通过双向重要性评分(BIS)衡量每个推理步骤对问题和答案的相关性,结合路径级 A* 搜索在指数级搜索空间中高效找到最紧凑的推理路径,在 512 token 预算下将 QwQ-32B 准确率提升 2.39 倍,在 4096 token 预算下减少约 50% 输出 token 且几乎不损失准确率。

A Granular Study of Safety Pretraining under Model Abliteration

本文系统地研究了 model abliteration(一种推理时激活空间编辑攻击)对不同数据驱动安全预训练阶段的影响,发现仅依赖 refusal 训练的安全机制极易被攻破,而 组合多种安全信号(safe-only 过滤 + 改写 + metatag + refusal)可使安全行为分散到更广泛的表征空间、从而更难被单一方向投影移除。

A Partition Cover Approach for Tokenization

将分词(tokenization)问题重新建模为分区覆盖(partition cover)优化问题,证明其为NP-hard,并提出多项式时间的贪心算法GreedTok,在压缩率和1B参数LLM预训练下游任务上均优于BPE。

A Simple Linear Patch Revives Layer-Pruned Large Language Models

LinearPatch 通过在层剪枝界面插入一个融合了 Hadamard 变换和通道缩放的轻量对称矩阵,修复了剪枝造成的激活幅度失配问题,在 LLaMA-3-8B 上无训练保留 94.15% 性能,30 分钟蒸馏后达 95.16%。

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

提出 Low-Rank Clone (LRC),通过可学习低秩投影矩阵将 teacher 权重压缩为 student 权重(软剪枝),同时对齐 attention 和 FFN 的中间激活(激活克隆),仅用 20B tokens 训练的 1.7B 模型即超过用 36T tokens 训练的 Qwen3-1.7B(64.98 vs 63.17),实现 1000 倍训练效率提升

Accurate and Efficient Low-Rank Model Merging in Core Space

提出 Core Space Merging 框架——通过在低秩 LoRA 矩阵的公共参考基空间中进行模型合并,无信息损失地将合并操作从 \(m \times n\) 全尺寸空间压缩到 \(Tr \times Tr\) 紧凑空间(\(T\) 为任务数,\(r\) 为 LoRA 秩),在 Llama 3 8B 上达到 SOTA 合并精度同时计算成本降低数个数量级。

Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

发现现有 KV cache 驱逐方法对所有注意力头均匀分配预算忽略了头间注意力集中度的巨大差异,提出 Ada-KV——首个 head-wise 自适应预算分配策略,将稀疏头的预算重新分配给分散头,理论证明最小化驱逐损失上界,在 29 个数据集上即插即用地提升现有方法。

Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees

提出R-AutoEval+框架,通过在testing-by-betting框架中引入自适应权重机制动态调节对LLM评判器合成数据的依赖程度,首次在有限样本下同时保证评估可靠性和采样效率不低于仅用真实数据的方法,在LLM量化、prompt选择和推理预算分配三个场景中验证了理论优势。

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

通过理论分析 ODE 和 SDE 求解器的互补弱点(ODE 积累不可消除的梯度误差,SDE 在少步时离散化误差放大),提出 AdaSDE——在每个去噪步引入可学习随机系数 \(\gamma_i\) 控制噪声注入强度,通过轻量蒸馏优化,在 5 NFE 下实现 CIFAR-10 FID 4.18、FFHQ FID 8.05 的 SOTA。

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

提出 AdmTree——一种自适应层次化上下文压缩框架,通过信息密度驱动的动态分段构建叶 gist token,再用二叉语义树底向上聚合实现多粒度语义保留,解决了显式方法丢失局部细节和隐式方法位置偏差的双重问题,在 LongBench 上比 SOTA 基线 Activation Beacon 高 10%+。

AI-Generated Video Detection via Perceptual Straightening

提出 ReStraV 方法,基于"感知拉直"假说(真实视频在神经表示空间形成更直的轨迹),利用 DINOv2 特征空间中的时间曲率和步距统计量训练轻量分类器检测 AI 生成视频,在 VidProM 上达到 97.17% 准确率和 98.63% AUROC,推理仅需 ~48ms。

All You Need is One: Capsule Prompt Tuning with a Single Vector

提出 Capsule Prompt-Tuning (CaPT),发现现有 task-aware soft prompts 实际上与输入 tokens 缺乏交互("attention 孤岛"),而将 instance-aware 信息融入单个 capsule prompt 可以作为"attention anchor"激活对关键结构信息的注意力,以极低参数量(如 Llama3.2-1B 上仅 0.003% 参数)实现超越多 prompt 方法的性能。

ATLAS: Autoformalizing Theorems through Lifting, Augmentation, and Synthesis of Data

ATLAS 提出了一个基于概念仓库、专家迭代+知识蒸馏、以及两种新颖增强策略的数据生成框架,构建了117K定理陈述的平行语料库,微调 Llama3.1-8B-Instruct 后在所有自动形式化基准上达到 SOTA。

AutoJudge: Judge Decoding Without Manual Annotation

AutoJudge 自动化了 Judge Decoding 中"重要 token"的标注——通过半贪心搜索替换不匹配 token 并检查答案是否改变来标注重要性,训练逻辑回归分类器预测 token 重要性,使投机解码每轮接受 40+ token(vs 标准 ~20),在 GSM8K 上加速 1.5× 且准确率损失 <1%。

BaRISTA: Brain-Scale Informed Spatiotemporal Representation of Human Intracranial EEG

BaRISTA 系统探索 iEEG Transformer 的空间编码尺度(电极/脑区/脑叶),发现脑区级编码 + 空间掩码重建在语言任务解码上达 86.2% AUC(vs PopT 79.5%),编码尺度选择的影响 > 掩码策略选择,且跨被试泛化性好。

Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs

本文发现 LLM 的数值幻觉根源于预训练语料中符合 Benford 定律的数字频率分布——数字 1 出现概率 ~30% 而数字 9 仅 ~5%,这种偏差被 FFN 后期层的特定"数字选择性神经元"内化,提出数字选择性分数(DSC)定位偏差神经元并通过剪枝 0.01% 的神经元修正 1.36-3.49% 的错误预测。

Beyond Higher Rank: Token-wise Input-Output Projections for Efficient Low-Rank Adaptation

TopLoRA 从输入-输出投影角度分析 LoRA 的表达能力,发现所有 token 共享同一投影矩阵是关键瓶颈,提出通过可学习的 token 级对角矩阵 \(\Sigma_X\) 动态调整 LoRA 权重(\(\Delta W_X = B\Sigma_X A\)),在不增加秩的前提下实现细粒度适配,跨任务一致优于 LoRA 2-3%。

Beyond Random: Automatic Inner-Loop Optimization in Dataset Distillation

提出 AT-BPTT(自适应截断 BPTT),将 DNN 训练分为早/中/晚三阶段并自适应调整截断策略和窗口大小,在 CIFAR-10/100/Tiny-ImageNet/ImageNet-1K 上平均提升 3-17%,同时实现 3.9× 加速和 63% 内存节省。

Bézier Splatting for Fast and Differentiable Vector Graphics Rendering

Bézier Splatting 将 Gaussian Splatting 框架与 Bézier 曲线结合,沿曲线均匀采样 2D Gaussian 点,通过 α-blending 渲染实现可微矢量图形,前向 30× / 反向 150× 加速(相比 DiffVG),同时保持或超越 LIVE 等方法的图像质量。

Binary Quadratic Quantization: Beyond First-Order Quantization for Real-Valued Matrix Compression

BQQ 提出二次二值量化——用二值矩阵的乘积(而非线性组合)表示权重矩阵,突破传统一阶量化的表达能力限制,通过扩展 AMFD(退火均场下降)到 PUBO 问题求解混合整数优化,在 2-bit 无数据 ViT 量化上实现从 10.83% 到 58.25% 的准确率飞跃。

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

提出 BioBench——一个统一 9 个生态视觉任务、4 个分类界、6 种图像模态、310 万张图像的基准,证明 ImageNet top-1 准确率仅解释 34% 的生态任务方差,在 >75% 精度的前沿模型中 30% 的排名是错误的。

C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models

提出 C-LoRA,通过引入轻量级上下文模块使 LoRA 低秩矩阵的分布依赖于输入数据,实现样本级的异方差不确定性估计,在少样本微调场景中显著改善校准质量。

CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs

CAS-Spec 通过 Dynamically Switchable Inference Acceleration (DSIA) 策略(如不同程度的 layer sparsity)从目标模型自身构建多级 draft 模型层级,配合 Dynamic Tree Cascade (DyTC) 算法基于在线 acceptance rate 和延迟预测自适应路由 draft 模型和分配 draft 长度,在完全 training-free 的条件下实现 1.1×-2.3× 的无损推理加速,DyTC 比 cascade 和 tree baseline 分别提升 47% 和 48%。

ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference

ChunkKV 将 KV cache 压缩的基本单元从离散 token 提升为语义 chunk(连续 token 组),通过 chunk 级 attention score 聚合来选择保留哪些语义完整的片段,并利用 chunk 带来的高跨层索引相似性实现 layer-wise index reuse,在 10% 压缩率下比 SnapKV/PyramidKV 提升最高 8.7%,吞吐量提升 26.5%。

CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs

提出 CodeGEMM,一种以 codebook 为中心的 GEMM kernel,通过预计算 centroid 与 activation 的内积并缓存为 Psumbook,替代传统反量化流程,在 2-bit 量化 LLM 上实现 1.83×(8B)到 8.93×(70B)的端到端加速。

Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers

提出 REFORM 推理框架,通过"压缩—检索—重算"三阶段流水线高效处理超长上下文(百万级 token),在 RULER 和 BABILong 上相比最强基线分别提升 52% 和 34%,同时降低 30% 推理时间和 5% 峰值显存。

Correlation Dimension of Auto-Regressive Large Language Models

本文将分形几何中的关联维度(Correlation Dimension)引入LLM分析,通过度量next-token对数概率向量之间的递归结构来量化文本的层次化复杂度,揭示了LLM预训练的三阶段演化、幻觉倾向指示以及多种文本退化模式的统一检测能力——这些是困惑度(perplexity)无法捕捉的。

Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning

提出 DEAL 框架,通过小波核特征过滤保留 LoRA 低秩矩阵中的历史知识核心特征,结合受控知识更新模块和非对称正则化,实现 LLM 在小样本持续微调中学新不忘旧。

DeltaFlow: An Efficient Multi-frame Scene Flow Estimation Method

提出 DeltaFlow (ΔFlow),通过体素帧间差分(Δ scheme)提取运动线索,实现特征尺寸不随帧数增长的多帧场景流估计,在 Argoverse 2/Waymo/nuScenes 上达到 SOTA 且比次优多帧方法快 2 倍。

Dense Backpropagation Improves Training for Sparse Mixture-of-Experts

提出 Default MoE 方法,用指数移动平均(EMA)近似非激活 expert 的输出,使 MoE router 获得稠密梯度更新,在不显著增加计算开销的情况下提升稀疏 MoE 的训练性能。

Dependency Parsing is More Parameter-Efficient with Normalization

揭示依存句法/语义分析中 biaffine scoring 缺乏归一化导致模型过参数化,通过简单的 \(1/\sqrt{d}\) 缩放即可在减少高达 85% BiLSTM 参数的同时匹配甚至超越原始性能。

Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers

DCR 通过确定性退火权重 α(t) 混合 teacher 和 student 模块输出,消除了随机门控(如 BERT-of-Theseus)带来的梯度方差,在冷启动模块替换场景下实现更快收敛和更强的特征对齐。

Disentangling Latent Shifts of In-Context Learning with Weak Supervision

WILDA 将 ICL 视为弱监督信号,用 teacher-student 框架将示例引发的潜在偏移编码进轻量 LoRA 适配器,实现无需重复 prompting 的高效推理,且 student 通过伪标签修正和覆盖扩展超越 teacher(弱到强泛化)。

Distillation Robustifies Unlearning

揭示了"蒸馏能使遗忘变得鲁棒"的核心发现——将遗忘后的模型蒸馏到随机初始化的学生网络中能有效丢弃潜在能力,并基于此提出UNDO方法(Unlearn-Noise-Distill-on-Outputs),通过对遗忘模型权重加噪再蒸馏,建立了计算量与鲁棒性之间的可调权衡,在合成任务和WMDP基准上接近从头重训的黄金标准。

DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment

DP-LLM 发现每层的量化敏感度在解码步间动态变化,提出基于 relative error 的动态逐层精度选择机制,在运行时根据输入为每层分配精度(h-bit 或 l-bit),实现了优于静态混合精度的性能-延迟权衡。

DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning

DRAGON 提出无需微调基座模型的系统性 LLM 遗忘框架:通过双层检测模块识别需遗忘的 prompt,再由专门微调的 guard 模型生成 CoT 推理指令实现上下文干预,在保持模型通用能力的同时有效删除隐私/有害知识。

DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs

提出 DuoGPT,一种将激活稀疏(activation sparsity)重新解释为动态结构化权重稀疏、并与非结构化权重剪枝相结合的双稀疏(dual-sparse)框架,通过扩展 OBC 框架引入激活感知校准和稠密模型输出残差修正项,在不需要重训练的情况下实现 LLM 解码阶段的显著加速与内存节省。

Elastic ViTs from Pretrained Models without Retraining

SnapViT 提出一种后训练结构化剪枝方法:结合自监督梯度的局部 Hessian 和进化算法估计的全局跨模块相关性,无需重训练或标签即可在一次运行中生成连续稀疏度的弹性 ViT 子网络,在 A100 上仅需不到 5 分钟。

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

EMLoC 通过对原始模型做 activation-aware SVD 构建轻量级 emulator 进行 LoRA 微调,并提出 LoRA 校正算法弥补 emulator 与原模型的不对齐,使得微调内存开销降至与推理持平,在单张 24GB GPU 上即可微调 38B 模型。

Enhancing Semi-supervised Learning with Zero-shot Pseudolabels

ZeroMatch 提出两阶段框架将基础模型的零样本伪标签与半监督学习相结合:先用知识蒸馏初始化学生模型,再以辅助 KD loss 防止灾难性遗忘的方式执行 SSL 训练,在 6 个视觉/NLP 基准上一致超越标准 SSL 和零样本增强方法。

Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video

定义"第一视角流式视频主动理解"新任务——给定ego-streaming视频,AI助手在恰当时机主动回答多样化、随事件演变的问题,同时保持感知与推理的同步。提出ESTP-Bench评估框架、ESTP-F1指标,以及含数据引擎、多阶段训练和主动动态压缩的完整技术pipeline(VideoLLM-EyeWO),在ESTP-Bench上比最强baseline MiniCPM-V高11.8%。

FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic

FALQON 通过将 LoRA 适配器直接融合 (meld) 到 FP8 量化的骨干权重中,消除了单独 LoRA 路径引入的小矩阵量化开销,结合高效梯度计算和行级代理更新机制,实现了相比现有量化 LoRA 方法约 3 倍的训练加速。

FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing

提出 FastLongSpeech,通过迭代融合策略压缩冗余语音表征和动态压缩训练转移短语音能力到长语音场景,使 LSLM 无需长语音训练数据即可高效处理长语音,在长语音 QA 上实现最优性能且推理效率提升 70%。

Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization

MaO 提出了一种针对小目标图像检索(SoIR)的新方法,通过多目标预训练和基于注意力的特征优化,将多个目标的表示融合为单一全局描述符,在多个基准上大幅超越现有检索方法。

FiRA: Can We Achieve Full-Rank Training of LLMs Under Low-Rank Constraint?

提出 Fira,首个在低秩约束下实现全秩训练(全秩梯度+全秩权重)的 LLM 训练框架,通过观察到低秩与全秩训练中优化器的缩放因子高度相似,用低秩缩放因子近似校正子空间外梯度,配合 norm-growth limiter 防止 loss spike,在预训练和微调中均超越 LoRA 和 GaLore。

FirstAidQA: A Synthetic Dataset for First Aid and Emergency Response in Low-Connectivity Settings

构建 FirstAidQA,一个包含 5500 条合成急救问答对的数据集,基于认证急救教材用 ChatGPT-4o-mini 生成,经人工验证,旨在支撑低连接/离线环境下急救 AI 系统的微调训练。

Gated Integration of Low-Rank Adaptation for Continual Learning of Large Language Models

提出 GainLoRA,为持续学习中每个新任务的 LoRA 分支引入门控模块生成自适应集成系数,通过正交约束使新分支对旧任务的输出趋近于零,从而有效缓解灾难性遗忘。

Geometric Data Valuation via Leverage Scores

提出基于统计杠杆分数(leverage scores)的几何数据估值方法,作为 Data Shapley 值的高效代理,满足对称性、效率性和虚拟玩家等公理,并通过 ridge leverage 扩展解决维度饱和问题,提供 \(O(\varepsilon)\) 近似最优的理论保证。

Geometry of Decision Making in Language Models

通过在 28 个开源 Transformer 模型上大规模测量各层隐藏表示的内在维度(Intrinsic Dimension, ID),揭示了一致的"低-高-低"维度变化模式:早期层在低维流形上操作,中间层扩展空间,后期层再压缩至与决策相关的低维表示。

Global Minimizers of ℓp-Regularized Objectives Yield the Sparsest ReLU Neural Networks

证明了对于单隐层 ReLU 网络,最小化 \(\ell^p\)\(0 < p < 1\))路径范数的全局最优解恰好对应于最稀疏的数据插值网络,从而将组合优化的稀疏插值问题重新表述为连续可微的优化任务。

GoRA: Gradient-Driven Adaptive Low Rank Adaptation

提出 GoRA,利用预计算梯度信息在训练前同时完成自适应秩分配和权重初始化——基于参数敏感度分配各层 rank,用梯度伪逆初始化 \(B\) 矩阵使初始输出近似一步梯度下降,统一解决 LoRA 的两大瓶颈。

Graph Your Own Prompt

提出图一致性正则化(GCR)框架,通过在网络任意深度插入无参数的图一致性层(GCL),将中间特征的关系图与基于预测的类感知语义图对齐,以自我提示的方式促进语义一致的特征学习,在不修改架构和不增加参数的前提下提升分类泛化性能。

GraSS: Scalable Data Attribution with Gradient Sparsification and Sparse Projection

提出 GraSS 与 FactGraSS 两阶段梯度压缩算法,利用逐样本梯度的固有稀疏性实现亚线性时间与空间复杂度(\(O(k')\)),在十亿参数模型上比 SOTA 基线 LoGra 快 165%,同时保持数据归因质量。

Graver: Generative Graph Vocabularies for Robust Graph Foundation Models Fine-tuning

提出 Graver 框架,通过 ego-graph 解耦提取可迁移子图词汇、graphon 专家建模词汇分布、MoE-CoE 路由选择性增强 support 样本,解决 GFM 少样本微调中因结构不匹配导致的不稳定性问题。

Hankel Singular Value Regularization for Highly Compressible State Space Models

通过在训练中正则化 SSM 层的 Hankel 奇异值核范数促使其快速衰减,使训练后模型可用平衡截断压缩至原始阶数的 10% 而保持精度,并利用旋转矩阵块对角参数化将 Gramian 计算从 \(\mathcal{O}(n^3)\) 降至 \(\mathcal{O}(n^2)\)

Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs

发现 LLM 注意力机制中一个被忽视的局部 Key-Value 不对称性——相邻 Key 具有同质性(相似注意力权重),而相邻 Value 呈异质分布——据此提出 AsymKV 无训练压缩框架:基于同质性合并 Key + 基于基数归一化的无损 Value 表示,在 LongBench 上超越 H2O 达 5 分

Hyperbolic Dataset Distillation

提出 HDD 方法,首次将双曲空间引入数据集蒸馏,通过在 Lorentz 双曲空间中匹配原始和合成数据的 Riemannian 质心来替代欧氏空间的分布匹配,利用双曲几何的层级加权特性让"更具代表性"的底层样本获得更高权重,在多个数据集上持续提升 DM/IDM 基线准确率。

Inference-Time Hyper-Scaling with KV Cache Compression

提出"推理时超缩放"(Inference-Time Hyper-Scaling)范式:通过高效压缩KV缓存,在相同计算/内存预算下生成更长或更多并行推理序列,显著提升推理模型在数学、代码、科学推理等任务上的准确率。

KeyDiff: Key Similarity-Based KV Cache Eviction for Long-Context LLM Inference in Resource-Constrained Environments

提出 KeyDiff——一种无需注意力分数的 KV cache 驱逐策略,通过保留与其他 key 余弦相似度最低(即几何上最独特)的 key 来维护 cache,在严格内存约束的逐块推理场景下以 8K cache 在 LongBench 上仅损失 ≤0.04% 精度,同时端到端推理延迟减少最高 30%。

KINDLE: Knowledge-Guided Distillation for Prior-Free Gene Regulatory Network Inference

提出 KINDLE 三阶段框架,通过知识蒸馏将先验引导的教师模型中学到的基因调控知识迁移到无先验的学生模型,在不依赖任何外部先验知识的情况下实现了基因调控网络(GRN)推断的 SOTA 性能。

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

KTAE 提出了一种不依赖额外模型的 token 级优势估计算法,通过 Fisher 精确检验和信息增益量化每个 token 与正确推理结果的统计关联,将细粒度 token 重要性叠加到 GRPO/DAPO 的 rollout 级优势上,在5个数学推理基准上超越基线并显著缩短生成长度。

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

提出 KVzip,一种查询无关的 KV Cache 驱逐方法,通过利用 LLM 自身从缓存的 KV 对中重建原始上下文来量化每个 KV 对的重要性,实现 3-4× 的 KV Cache 压缩率和约 2× 的 FlashAttention 解码延迟降低,同时在多查询场景下显著优于现有查询感知方法。

LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions

LayerIF 提出用影响函数(Influence Functions)逐层量化 LLM 的训练质量,通过聚合各层的正向影响分数得到数据驱动的层重要性估计,并将其应用于 LoRA-MoE 专家分配和层级稀疏剪枝两个下游任务,在 Mistral-7B 和 Gemma-7B 上分别获得 1.61% 和 0.90% 的准确率提升。

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression

GLVQ 提出为 LLM 权重的每个分组学习专属的格(lattice)码本(由可学习生成矩阵定义),配合分组特异的 μ-law companding 变换适应重尾分布,在 2-bit 量化下 Llama-2-70B 的 Wikitext-2 困惑度达到 3.36,大幅领先 QuIP#(3.91)和 QTIP(3.78)。

Learning to Better Search with Language Models via Guided Reinforced Self-Training

提出 Guided-ReST,通过将最优解作为子目标逐步融入模型自生成的搜索轨迹中,生成高质量训练数据并蒸馏更高效的搜索策略,在Countdown和代码自修复任务上显著提升搜索效率和准确率。

Learning to Factorize and Adapt: A Versatile Approach Toward Universal Spatio-Temporal Foundation Models

提出 FactoST-v2,一个因式分解的时空基础模型框架,将通用时间预训练与领域特定空间适配解耦,以线性复杂度实现跨领域零样本/少样本/全样本时空预测。

Less is More but Where: Dynamic Token Compression via LLM-Guided Keyframe Prior

提出 DyToK,一种无需训练的视频 token 动态压缩方法,利用 VLLM 深层注意力中固有的 query 条件关键帧先验,为不同帧自适应分配 token 预算,实现即插即用式的效率-精度最优权衡。

Linear Attention for Efficient Bidirectional Sequence Modeling

提出 Lion 框架,首次系统性地将线性 Transformer 扩展到双向序列建模,统一了完整线性注意力、双向 RNN 和分块并行三种等价表示形式,训练速度比 SSM 快 10 倍且匹配 softmax Transformer 性能。

LittleBit: Ultra Low-Bit Quantization via Latent Factorization

提出 LittleBit 框架,通过低秩潜空间矩阵分解 + 二值化 + 多尺度补偿机制,实现低至 0.1 BPW(每权重比特)的极端 LLM 压缩,将 Llama2-13B 压缩到不足 0.9GB,在子1比特领域大幅超越 STBLLM。

Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving

提出Loquetier框架,通过虚拟化模块(Virtualized Module)和分段多LoRA乘法内核(SMLM),将多个LoRA适配器的微调和推理统一到单一运行时中,实现推理任务3.0×吞吐率提升和统一任务46.4×更高的SLO达成率。

LT-Soups: Bridging Head and Tail Classes via Subsampled Model Soups

提出 LT-Soups,一个两阶段模型融合框架,通过在不同不平衡比例的子采样数据上训练多个模型并进行权重平均,在长尾分布的全频谱上实现头部类和尾部类的均衡性能。

Matryoshka Pilot: Learning to Drive Black-Box LLMs with LLMs

提出 Matryoshka Pilot (M-Pilot),用轻量级白盒 LLM 作为控制器,通过生成中间引导(任务分解、高层计划、用户画像)来驱动黑盒 LLM 在推理、规划和个性化等复杂长程任务上的性能,并通过迭代 DPO 实现自我改进。

Memory-Efficient Training with In-Place FFT Implementation

提出 rdFFT——首个真正原地(in-place)的实数域快速傅里叶变换框架,通过隐式复数编码方案消除中间缓冲区,实现训练时零额外内存开销的 FFT/IFFT 计算,内存效率最高提升 1500 倍以上。

Mingle: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

提出测试时持续模型合并(TTCMM)新范式及Mingle框架,通过低秩专家混合架构和自适应零空间约束门控机制,在测试时利用少量无标签样本实现模型动态合并,在多个基准上以7-9%的优势超越SOTA,同时将遗忘降至接近零。

Mitigating Semantic Collapse in Partially Relevant Video Retrieval

针对部分相关视频检索(PRVR)中的语义坍塌问题,提出文本相关性保持学习和跨分支视频对齐(CBVA)方法,在文本和视频嵌入空间中分别解决坍塌现象,显著提升检索准确率。

Mixture of Noise for Pre-Trained Model-Based Class-Incremental Learning

提出学习有益的"混合噪声"来抑制预训练模型在增量学习中的参数漂移,通过在任务间进行动态权重混合噪声实现 SOTA 性能,特别在 50 步增量设置下表现突出。

ModHiFi: Identifying High Fidelity Predictive Components for Model Modification

提出 Subset Fidelity 度量和 ModHiFi 框架,通过理论证明 Lipschitz 连续网络的局部重构误差线性上界全局误差,无需训练数据、损失函数或梯度,仅用合成数据即可识别模型中的高保真 (HiFi) 组件,统一实现结构化剪枝和类别遗忘两大任务。

Multi-Task Vehicle Routing Solver via Mixture of Specialized Experts under State-Decomposable MDP

提出 State-Decomposable MDP (SDMDP) 框架将多种 VRP 变体重新表述为基础状态空间的笛卡尔积,再通过 Mixture-of-Specialized-Experts Solver (MoSES) 用专用 LoRA 专家实现基础策略的潜在空间复用,高效处理 16 种 VRP 变体。

MUSTAFAR: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference

提出 MUSTAFAR 框架,系统性地证明了非结构化稀疏性在 KV 缓存剪枝中的优越性(Key 和 Value 均可达 70% 稀疏度且不损精度),并设计了基于 bitmap 的稀疏格式和自定义注意力内核,实现了端到端推理吞吐量 2.23 倍加速。

Navigating Simply, Aligning Deeply: Winning Solutions for Mouse vs. AI 2025

在NeurIPS 2025 Mouse vs. AI竞赛中,本文展示了轻量级两层CNN在视觉鲁棒性任务上大幅超越深度网络的反直觉发现,同时证明深层ResNet架构在神经对齐任务上更具优势,揭示了行为鲁棒性与生物合理性之间的根本张力。

Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users

在实际部署的 LLM 健康教练系统上进行离线策略评估(OPE),发现统一的高工具使用策略虽提升平均奖励但损害特定用户子群,并通过模拟器验证了早期信息增益探索(好奇心奖励)可加速用户特征识别和提升任务成功率。

On the Creation of Narrow AI: Hierarchy and Nonlocality of Neural Network Skills

研究创建窄域(narrow)AI 系统面临的两大挑战:任务的层级依赖使得某些窄域技能必须在宽分布上训练才能学会;技能的非局部性使得剪枝无法精确分离想要保留和舍弃的能力——但剪枝+恢复训练仍优于蒸馏和从头训练。

On the Hardness of Approximating Distributions with Tractable Probabilistic Models

本文证明了用可处理概率模型(如分解概率电路)在有界f-散度下近似任意分布是NP-hard的,并证明了在近似建模条件下分解PC和(确定性+分解)PC之间存在指数级大小差距,揭示了近似放宽并不能缓解精确建模中的复杂度瓶颈。

One-Step Diffusion-Based Image Compression with Semantic Distillation

提出OneDC——首个一步扩散生成式图像编解码器,将超先验(hyperprior)替代文本作为扩散模型的语义引导并通过语义蒸馏增强其表示能力,实现了比多步扩散编解码器节省39%码率、解码加速20倍的SOTA感知质量。

Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making

提出在线专家混合(OMoE)框架,包含 UCB 逐步消除和在线加权多数投票两种算法,理论上保证无遗憾(no-regret),并应用于 LLM 专家的在线动态聚合。

Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation

将数据集蒸馏重新表述为最优传输(OT)距离最小化问题,通过三阶段(OT引导扩散采样、标签-图像对齐软重标注、OT logit匹配)实现细粒度分布几何对齐,在ImageNet-1K IPC=10上比之前SOTA提升至少4%。

Order-Level Attention Similarity Across Language Models: A Latent Commonality

提出 Order-Level Attention (OLA)——对 Attention Rollout 的阶次分解,发现不同语言模型在同阶 OLA 上存在显著相似性 (OLAS),并且 OLA 隐式编码了句法知识,基于此提出 TOA 实现首个无需训练的跨LM适配器迁移。

ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization

提出 ParetoQ——首个统一 1/1.58/2/3/4 比特量化的框架,通过系统研究训练策略(全精度预训练 vs. QAT 分配)和量化函数设计(提出 SEQ 量化器),发现 2-bit 和 1.58-bit 量化在精度-模型大小折中上优于传统 4-bit,且各比特位宽均达到 SOTA。

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

提出 PermLLM,首个可学习通道排列(LCP)框架,通过Sinkhorn归一化将离散排列矩阵松弛为可微分的软排列矩阵实现端到端优化,结合块级排列策略大幅降低计算开销,有效提升N:M稀疏LLM的性能。

PPG-Distill: Efficient Photoplethysmography Signals Analysis via Foundation Model Distillation

PPG-Distill提出一种针对PPG信号的知识蒸馏框架,通过预测级、特征级和Patch级(形态+节律)蒸馏,将大型PPG基础模型的知识迁移到轻量学生模型,在保持性能(最高提升21.8%)的同时实现7倍推理加速和19倍内存压缩。

Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment

从信息论角度推导高斯化权重的最优比特分配,提出 Q-Palette 分数位量化器集合和混合方案量化框架,在 LLM 推理中实现近最优的量化性能和推理加速。

QSVD: Efficient Low-Rank Approximation for Unified Query-Key-Value Weight Compression

提出QSVD方法,通过对QKV联合权重矩阵的SVD分解共享下投影矩阵来减少KV缓存和计算开销,结合基于重要性评分的自适应秩分配和量化技术,在VLM上实现超过10%的精度提升且硬件成本更低。

QuadEnhancer: Leveraging Quadratic Transformations to Enhance Deep Neural Networks

提出一种轻量级的二次增强器(QuadEnhancer),通过在每个线性层引入稀疏化的二次交互项,以极少的额外参数和计算开销显著提升现有神经网络架构的性能。

Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization

识别现有逐层 PTQ 方法忽略量化误差跨层累积和增长的关键瓶颈,提出 QEP 框架通过误差传播和补偿显式纠正累积误差,在极低比特(INT2/INT3)下实现大幅性能提升。

RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling

提出 RAT(Recurrence And aTtention),一种基于 Chunk 的中间架构——在 Chunk 内使用线性 RNN 建模局部依赖、Chunk 间使用 softmax 注意力实现全局访问。L=16 时单层解码速度提升 9 倍、最大吞吐量提升 10 倍,且性能与标准注意力持平;与滑动窗口注意力交替使用的混合变体在几乎所有 benchmark 上最优。

RCCDA: Adaptive Model Updates in the Presence of Concept Drift under a Constrained Resource Budget

提出 RCCDA,一种基于 Lyapunov 漂移惩罚框架的轻量级模型更新策略,在数据分布随时间漂移(concept drift)场景下,仅利用历史推理损失信息和可调阈值,就能贪心最优地决定何时重训模型,同时可证明地满足严格资源预算约束。

Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation

揭示了长尾数据集蒸馏中软标签存在来自蒸馏模型和蒸馏图像的双重纠缠偏差,提出 ADSA 自适应软标签对齐模块,通过logit空间的后处理校准消除偏差,作为即插即用模块可无缝集成到现有蒸馏方法中,在 ImageNet-1k-LT 上将尾部类准确率提升高达11.8%。

Recurrent Attention-based Token Selection for Efficient Streaming Video-LLMs

提出 rLiVS(Recurrent LLM-informed Visual Selection),一种无需训练的通用流式视频理解方法,通过LLM注意力权重选择关键视觉token(仅保留~6%)、循环复用历史token、基于字幕的检索问答三重设计,在流式视频基准上取得SOTA。

RefLoRA: Refactored Low-Rank Adaptation for Efficient Fine-Tuning of Large Models

RefLoRA 通过在每次迭代中选择最优的低秩分解形式(最小化损失上界),解决了 LoRA 因分解不唯一性导致的权重更新不一致和不平衡问题,在几乎不增加计算开销的前提下加速收敛并提升微调性能。

Reject Only Critical Tokens: Pivot-Aware Speculative Decoding

PAD 提出了基于效用匹配(而非分布匹配)的推测解码新范式:训练一个轻量分类器识别"关键 token"(pivot token),仅拒绝会导致最终输出效用下降的 draft token,从而在 GSM8K 上实现 2.46× 加速且几乎不损失准确率。

REOrdering Patches Improves Vision Models

揭示了视觉模型中 patch 排列顺序对长序列模型性能有显著影响,并提出 REOrder 框架通过信息论先验和强化学习自动发现最优 patch 排列,在 ImageNet-1K 上提升高达 3.01%,在 FMoW 上提升 13.35%。

REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning

REP 通过轻量代理模型的快速提示选择、自适应 Token 合并(AToM)和自适应层丢弃(ALD)三种互补技术,将基于提示的无排练持续学习方法的训练时间减少最高 51%、内存降低最高 41%,精度损失微乎其微。

ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization

提出 ReplaceMe,一种无训练的深度剪枝方法:用少量校准数据估计线性变换来近似被剪枝的 Transformer 块组,该变换可融合到相邻层权重中不增加参数,在 LLaMA-2-7B 上实现 25% 剪枝率并保留约 90% 性能。

Representation Consistency for Accurate and Coherent LLM Answer Aggregation

提出 Representation Consistency (RC),通过分析 LLM 生成多个候选答案时内部激活的一致性来改进答案聚合:同一答案的多条推理路径如果内部表示高度一致则更可能正确,结合稀疏自编码器的稀疏变体 RC-S 效果最优,在 4 个 LLM 和 4 个推理数据集上一致优于 Self-Consistency。

Restoring Pruned Large Language Models via Lost Component Compensation

RestoreLCC 提出了一种面向剪枝 LLM 的定向恢复策略:通过对比探测定位关键注意力头,利用 SVD 分解提取剪枝丢失的激活成分,将其作为可优化的偏置向量注入回剪枝模型,在不影响稀疏性和推理速度的前提下显著恢复性能。

Revisiting Semi-Supervised Learning in the Era of Foundation Models

系统性研究发现传统 SSL 方法在 VFM 时代效益有限——仅用有标签数据的 PEFT 即可匹敌 SSL——由此提出 V-PET:集成多种 PEFT 方法和多种 VFM 的伪标签来实现简洁高效的半监督学习。

Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA

提出 RoLoRA,通过交替优化 LoRA 的 down-projection (A) 和 up-projection (B) 矩阵,解决联邦学习中 LoRA 聚合不精确和表达力受限的问题,在 RoBERTa-Large 和 Llama-2-7B 上显著优于 FedAVG of LoRA 和 FFA-LoRA。

Robustifying Learning-Augmented Caching Efficiently without Compromising 1-Consistency

提出 Guard 框架,一种轻量级鲁棒化方法,将广泛的学习增强缓存算法的鲁棒性提升至 \(2H_{k-1}+2\),同时保持 1-一致性和 O(1) 的额外请求开销。

S2M-Former: Spiking Symmetric Mixing Branchformer for Brain Auditory Attention Detection

提出 S2M-Former,一种脉冲驱动的对称混合 Branchformer 框架,通过空间-频率双分支的互补学习和轻量化 1D token 表示,在 EEG 听觉注意力检测任务上以仅 0.06M 参数实现了 SOTA 级精度,同时将能耗降低至双分支 ANN 模型的 1/5.8。

Ensemble++: Scalable Exploration via Ensemble

提出 Ensemble++,通过共享因子矩阵的增量更新机制,仅需 \(\Theta(d\log T)\) 的集成大小即可实现与精确 Thompson Sampling 相当的遗憾界,并自然扩展到非线性/神经网络场景。

Single-Teacher View Augmentation: Boosting Knowledge Distillation via Angular Diversity

提出Angular-KD,通过在单个教师模型上附加多个轻量线性分支并引入两种角度多样性损失(约束型视角间角度多样性损失和视角内角度多样性损失),从单教师生成多样化监督信号,以低成本替代多教师蒸馏方案,在多个KD基准上取得SOTA表现。

Skrull: Towards Efficient Long Context Fine-tuning through Dynamic Data Scheduling

针对长上下文监督微调(Long-SFT)中长短序列混合导致的训练效率低下问题,提出动态数据调度器Skrull,通过分布感知的上下文并行(DACP)和全局数据调度(GDS)两个组件,在真实Long-SFT场景中实现平均3.76倍(最高7.54倍)的训练加速。

Smooth Regularization for Efficient Video Recognition

提出一种基于高斯随机游走(GRW)的平滑正则化技术,通过对视频识别模型中间层嵌入施加时序平滑约束(惩罚高加速度变化),在轻量级模型上实现3.8%–6.4%的准确率提升,在相应FLOP约束下刷新Kinetics-600 SOTA。

Spark Transformer: Reactivating Sparsity in FFN and Attention

提出 Spark Transformer 架构,通过 Statistical Top-k 算子在 FFN 和注意力机制中同时实现高水平激活稀疏性(FFN 仅 8% 神经元激活、每个 token 最多关注 256 个 token),在保持与 Gemma-2 相当质量的同时实现 2.5× FLOPs 降低和高达 1.79× 的推理加速。

SpecAttn: Speculating Sparse Attention

SpecAttn 提出一种无需训练的方法,利用投机解码中草稿模型已计算的注意力权重来预测验证模型的重要 token,通过 KL 散度层映射 + 免排序 top-p 核选择 + 动态 KV 缓存剪枝,实现 78.4% 的 KV 缓存访问减少,困惑度仅增加 15.29%,显著优于现有稀疏注意力方法。

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

提出"泛化之后特化"框架,基于线性表示假设(LRH)从理论和实验两方面解释了测试时训练(TTT)在分布内数据上的有效性:基础模型全局欠参数化导致概念叠加干扰,TTT通过局部特化将模型容量重新分配给与测试任务相关的少数概念,从而在不增加模型规模的情况下提升预测性能。

Spiking Brain Compression: Post-Training Second-Order Compression for Spiking Neural Networks

提出 Spiking Brain Compression(SBC),一种基于 Van Rossum 距离的二阶后训练一次性压缩框架,专为脉冲神经网络(SNN)设计,通过替代膜电位(SMP)Hessian 实现高效的模块级剪枝和量化,在 ImageNet 规模下首次压缩 SEW-ResNet152 和 Spike-Driven Transformer。

Synergy between the Strong and the Weak: Spiking Neural Networks Are Inherently Superior in Temporal Processing

本文发现 SNN 可以在时间维度上天然解构为多个子模型,通过对比各时间步子模型的输出置信度识别"强"与"弱",提出 Strong2Weak 和 Weak2Strong 两种自蒸馏方案,无需额外教师模型即可显著提升 SNN 性能,尤其在神经形态数据集上提升高达 5.36%。

The Graphon Limit Hypothesis: Understanding Neural Network Pruning via Infinite Width Analysis

提出"Graphon极限假说":当网络宽度趋于无穷时,不同剪枝方法产生的二值掩码序列在cut距离下收敛到各自独特的graphon极限,并在此基础上推导出Graphon NTK来分析稀疏网络训练动态,从理论层面解释了为什么不同剪枝方法在相同稀疏度下表现迥异。

The Structure of Relation Decoding Linear Operators in Large Language Models

揭示 Transformer 语言模型中的线性关系解码器(LRE)并非编码细粒度关系,而是提取共享的粗粒度语义属性(如"国家"、"性别"),并利用阶-3 张量网络将大量关系解码矩阵压缩数个数量级。

Tighter CMI-Based Generalization Bounds via Stochastic Projection and Quantization

通过在 CMI(条件互信息)框架中引入随机投影有损压缩,推导出更紧的泛化界,解决了经典 CMI 界在 SCO 反例上失效的问题,并证明记忆化对良好泛化并非必要。

TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs

提出TokenSqueeze方法,通过自适应推理深度选择、步内语言精炼(基于KL散度约束)和长度感知的偏好优化三阶段流程,仅用模型自生成数据实现推理链50%的token压缩而不损失准确率。

Toward Efficient Inference Attacks: Shadow Model Sharing via Mixture-of-Experts

提出基于 Mixture-of-Experts 的影子模型共享方案,通过在多种推理攻击任务间共享影子模型的特征提取层、仅训练任务特定的轻量专家模块来降低影子模型的整体训练成本,同时保持或提升攻击性能。

Towards Effective Federated Graph Foundation Model via Mitigating Knowledge Entanglement

首次提出联邦图基础模型(FedGFM)范式,融合联邦图学习的分布式协作能力与图基础模型的跨域泛化能力,通过 AncDAI(锚点域感知初始化)和 AdaDPP(自适应域敏感提示池)两个模块缓解知识纠缠问题,在8个跨任务跨领域数据集上超越20个基线。

Towards Unsupervised Open-Set Graph Domain Adaptation via Dual Reprogramming

提出 GraphRTA 框架,通过模型重编程(基于梯度的权重剪枝)和图重编程(目标图结构与特征优化)双重机制,解决无监督开放集图域适应中已知类分类与未知类识别难题,无需人工设定阈值。

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning

提出Perturb-and-Merge (P&M)框架,将模型合并机制引入持续学习范式:训练时沿任务向量方向添加随机扰动以平滑损失面,推理时通过闭式最优系数对历史模型和当前任务模型做凸组合合并,结合LoRA实现内存高效的SOTA持续学习性能。

Traversal Verification for Speculative Tree Decoding

提出 Traversal Verification,一种从叶节点到根节点的自底向上验证算法,通过考虑整条路径的序列级概率而非单 token 概率来决定接受/拒绝,理论证明无损性和单链最优性,在多种树结构和任务上一致提升接受长度 2.2%-5.7%。

Twilight: Adaptive Attention Sparsity with Hierarchical Top-p Pruning

提出 Twilight,借鉴 top-p 采样(nucleus sampling)的思想替代固定预算 top-k 做注意力稀疏——动态选择注意力权重累积达 p% 的最少 Token,自适应不同注意力头的分布特征,在保持精度的同时比 SOTA 稀疏注意力再提速 1.4x。

Understanding Differential Transformer Unchains Pretrained Self-Attentions

深入分析 Differential Transformer(差分注意力)的内部机制,揭示差分操作等效于一种鲁棒的注意力去噪过程——它"解放"了受 softmax 归一化约束的预训练自注意力,使注意力权重更自由地分配到真正重要的 Token 上。

Uni-LoRA: One Vector is All You Need

提出 Uni-LoRA 统一框架,证明各种 LoRA 变体(Tied-LoRA、VeRA、VB-LoRA 等)的参数缩减策略本质上是对全参数空间 \(\mathbb{R}^D\) 到低维子空间 \(\mathbb{R}^d\) 的投影差异,并设计了一种等距随机分组投影矩阵——只需训练一个向量即可重建整个 LLM 的 LoRA 参数,实现极致参数效率。

Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching

本文提出 Approximate Likelihood Matching (ALM),一种基于二值化 f-散度的原则性跨分词器蒸馏方法,首次实现了跨根本不同分词器(如子词→字节级)的有效蒸馏和纯蒸馏。

VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models

提出 VESSA,一种利用短物体中心视频进行无监督微调的方法,通过自蒸馏框架配合 LoRA 和不确定性加权损失,在不需要标注数据的情况下将视觉基础模型适配到目标域,在 33 个 VFM × 22 个数据集上持续提升下游分类性能。

Vision-centric Token Compression in Large Language Model

Vist 提出了一种以视觉为核心的慢-快双路径 token 压缩框架,将远端长文本渲染为图像后用轻量视觉编码器压缩,配合概率引导的视觉增强(PVE)训练目标,在 11 个 ICL 基准上以 2.3× 更少的 token 实现同等精度,FLOPs 降低 16%、显存减少 50%。

VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models

VQToken 提出了首个基于向量量化的视频 token 极限压缩框架,通过自适应离散化将连续 ViT embedding 聚类为紧凑码本,并用 token hash 函数保留时空位置信息,在 NextQA-MC 上仅用原始 0.07% 的 token(约 13 个)实现了仅 0.66% 的精度损失。

When Worse is Better: Navigating the Compression-Generation Trade-off in Visual Tokenization

本文通过scaling law系统研究了视觉tokenizer压缩率与生成质量的权衡关系,发现对小模型而言更激进的压缩(虽然重建更差)反而有利于生成,并提出因果正则化Tokenization(CRT)方法在stage 1训练中嵌入自回归归纳偏置,实现2-3倍计算效率提升,以775M参数和256 token/image匹配LlamaGen-3B的2.18 FID。

zip2zip: Inference-Time Adaptive Tokenization via Online Compression

提出 zip2zip,将经典 LZW 在线无损压缩算法深度集成到 LLM 的推理流程中,通过在解码过程中持续将高频共现 Token 合并为可复用的"hypertoken"来动态扩展词表,配合动态嵌入层和压缩空间语言建模训练,仅需 10 GPU-hours 的 LoRA 微调即可使现有 LLM 获得推理时自适应分词能力,实现输入输出序列长度缩减 15-40%、端到端解码延迟降低最高 40%,且下游任务性能几乎无损。


📐 优化/理论

A Single-Loop First-Order Algorithm for Linearly Constrained Bilevel Optimization

针对下层问题带耦合线性约束的双层优化问题,提出单循环一阶算法 SFLCB,通过罚函数 + 增广拉格朗日重构消除 Hessian 依赖,将迭代复杂度从 \(O(\epsilon^{-3}\log(\epsilon^{-1}))\) 改进至 \(O(\epsilon^{-3})\)

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

提出首个针对基于采样的测试时缩放方法的理论框架,将推理误差分解为估计误差和模型误差,揭示了Self-Consistency收敛慢、Perplexity模型误差大的局限,并提出RPC方法融合两者优势,在7个基准上以50%的采样成本达到同等推理性能。

A Unified Approach to Submodular Maximization Under Noise

本文提出一个统一的元算法框架,能将任何满足"鲁棒性"条件的精确子模最大化算法作为黑盒,自动转换为持久噪声值预言机下保持近似比(仅损失 \(o(1)\))的算法,首次实现了非单调子模函数在拟阵约束和无约束设置下的最优近似比。

A Unified Stability Analysis of SAM vs SGD: Role of Data Coherence and Emergence of Simplicity Bias

通过线性稳定性分析框架,证明了"平坦极小值⇒好泛化"和"SGD偏好简单函数"是同一枚硬币的两面——数据一致性(coherence)同时控制着两者,且SAM通过更严格的稳定性条件进一步放大了简单性偏好。

Adaptive Algorithms with Sharp Convergence Rates for Stochastic Hierarchical Optimization

提出Ada-Minimax和Ada-BiO两个自适应算法,通过将动量归一化技术与新型在线噪声估计策略结合,首次在无需预知梯度噪声水平的情况下,为非凸-强凹极小极大和非凸-强凸双层优化达到sharp收敛率Õ(1/√T + √σ̄/T^{1/4})。

An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds

AdaRHD 是首个无需预知问题参数(强凸常数、Lipschitz 界、流形曲率)的黎曼双层优化自适应算法——通过逆累计梯度范数策略自适应选择步长,在三阶段框架中逐步求解下层问题/线性系统/上层更新,收敛速率 \(O(1/\epsilon)\) 匹配非自适应方法,对初始步长选择鲁棒性远超 RHGD。

Asymptotically Stable Quaternionic Hopfield Structured Neural Network with Supervised Projection-based Manifold Learning

提出四元数值监督学习 Hopfield 结构神经网络 (QSHNN),通过周期性投影策略保持权重矩阵的四元数结构一致性,并基于 Lyapunov 理论证明了不动点的存在唯一性和渐近稳定性,轨迹曲率有界保证机器人路径规划的平滑性。

Auto-Compressing Networks

Auto-Compressing Networks(ACN)用长程前向连接(所有层输出直接汇聚到最终输出)替代短残差连接,使得梯度的 Direct Gradient 成分远强于 Forward Gradient,隐式地将信息压缩到早期层——ViT 仅需 6 层达到标准 12 层性能,BERT 节省 75% 层数,还额外获得噪声鲁棒性(+6.4%)和持续学习抗遗忘(-18%)。

Automated Algorithm Design via Nevanlinna-Pick Interpolation

提出基于频域鲁棒控制理论中 Nevanlinna-Pick 插值的自动化算法设计框架,用于求解带等式约束的强凸优化问题,获得了矩阵乘法次数与收敛速率之间的最优权衡。

AutoOpt: A Dataset and a Unified Framework for Automating Optimization Problem Solving

AutoOpt 构建了首个优化问题图像到代码的端到端框架——11554 张优化公式图像(手写+印刷)的 AutoOpt-11k 数据集 + M1 混合编码器(ResNet+Swin→mBART)图像转 LaTeX(BLEU 96.70)+ M2 DeepSeek-Coder LaTeX 转 PYOMO + M3 双层分解求解器,框架级成功率 94.20%。

Better NTK Conditioning: A Free Lunch from ReLU Nonlinear Activation in Wide Neural Networks

证明 ReLU 激活函数对宽神经网络有一个此前未被注意的"免费"益处:(a) 在模型梯度特征空间中产生更好的数据分离(相似输入的角度在梯度空间中被放大),(b) 由此导致 NTK 矩阵条件数严格减小(相比线性网络)。深度进一步放大此效应——在无限宽然后无限深的极限下,所有数据对在梯度空间中等角分离(~75.5°),NTK 条件数收敛到仅依赖数据量 \(n\) 的固定值 \((n+4)/3\)

Beyond Õ(√T) Constraint Violation for Online Convex Optimization with Adversarial Constraints

研究带对抗约束的在线凸优化 (COCO),通过引入可调参数 \(\beta\) 实现 \(\tilde{O}(T^\beta)\) 遗憾与 \(\tilde{O}(T^{1-\beta})\) 约束违反之间的精确权衡,突破了此前 \(\tilde{O}(\sqrt{T})\) 约束违反的已知最优界。

Brain-like Variational Inference

提出 FOND 框架(Free energy Online Natural-gradient Dynamics),从自由能最小化的第一原理推导出脉冲神经网络推断动力学,并实现 iPVAE(迭代泊松 VAE),在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

本文提出 PrefCleanBench,首个系统评估 13 种偏好数据清洗方法在 LLM 对齐中效果的综合基准,覆盖多种数据集、模型架构和优化算法,揭示了数据预处理在负责任 AI 开发中被忽视但至关重要的角色。

Composing Global Solutions to Reasoning Tasks via Algebraic Objects in Neural Nets

提出 CoGS 框架,证明二层二次激活网络在 Abelian 群乘法推理任务上的权重空间具有半环代数结构,损失函数中的 Sum Potential 是环同态映射,由此可从仅满足部分损失的局部解通过环加法和环乘法代数地组合出全局最优解,约 95% 的梯度下降解与理论构造精确匹配。

Composing Global Solutions to Reasoning Tasks via Algebraic Objects in Neural Nets

揭示两层二次激活网络在 Abelian 群推理任务上训练时权重空间具有半环代数结构,提出 CoGS 框架通过环运算将部分解组合为全局最优解,约 95% 梯度下降解与理论构造精确匹配。

Constrained Network Slice Assignment via Large Language Models

探索用LLM(Claude系列)解决5G网络切片资源分配的约束优化问题,提出零样本LLM直接分配和LLM引导整数规划两种方法,发现LLM单独使用可产生合理的初始分配但可能违反约束,与ILP求解器结合则能实现100%完备性和均衡利用率。

Contribution of Task-Irrelevant Stimuli to Drift of Neural Representations

理论证明在线学习中任务无关刺激的统计特性(方差和维度)是表示漂移的重要驱动因素,在 Oja 规则、Similarity Matching、自编码器和监督两层网络中均观察到漂移率 \(D \propto \lambda_\perp^2 (n-m)\),且学习噪声诱导的漂移具有各向异性几何特征,与高斯突触噪声的各向同性漂移定性不同。

Covariances for Free: Exploiting Mean Distributions for Training-free Federated Learning

提出 FedCOF,仅利用客户端上传的类均值(class means)即可在服务器端无偏估计类协方差矩阵,从而在零训练、极低通信开销的条件下初始化全局分类器,性能媲美甚至超越需要传输二阶统计量的 Fed3R。

DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization

DartQuant 提出基于分布校准的旋转矩阵优化方法,通过 Whip 损失将激活值分布推向均匀分布以减少量化误差,并用 QR-Orth 替代昂贵的流形优化器,在 70B 模型上实现 47× 加速和 10× 内存节省,首次在单张 3090 GPU 上完成大模型旋转校准。

Deep Taxonomic Networks for Unsupervised Hierarchical Prototype Discovery

Deep Taxonomic Networks 提出一种基于完全二叉树混合高斯先验的深度潜变量模型,通过变分推断自动从无标签数据中发现层次化分类体系和各级原型聚类,无需预设类别数量,并在多个数据集上大幅超越 TreeVAE 等基线。

Do Neural Networks Need Gradient Descent to Generalize? A Theoretical Study

本文在矩阵分解(神经网络理论的经典测试平台)上证明了 Guess & Check(随机抽参数直到拟合训练集)的泛化能力随宽度增加而退化(首次证明存在 G&C 可证明劣于梯度下降的典范情况),但随深度增加而改善,揭示了宽度和深度对泛化的截然不同作用。

Doubly Robust Alignment for Large Language Models

DRPO 借鉴因果推断中的双重稳健估计方法,提出一种偏好优化算法,当偏好模型或参考策略任一正确指定时即可保持一致性,在理论和实验上均优于 PPO/DPO 及其变体。

DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

DynaAct 将 LLM 推理中的动作空间构建建模为子集选择问题,通过兼顾效用和多样性的子模函数在每步动态构建紧凑动作空间,在 6 个基准上显著优于 rStar、RAP 等方法,MATH-500 上比 rStar 高 6.8%。

Effective Policy Learning for Multi-Agent Online Coordination Beyond Submodular Objectives

提出 MA-SPL 和 MA-MPL 两个多智能体在线协调算法,通过"基于策略的连续扩展"技术突破次模性限制,首次在次模和弱次模目标函数上均实现最优 \((1 - c/e)\) 近似比,支持时变目标和仅局部反馈的实际约束。

Efficient Adaptive Experimentation with Noncompliance

提出 AMRIV——首个面向带非依从性(noncompliance)的自适应实验的半参数高效、多重鲁棒的ATE估计器,结合方差最优的工具变量分配策略和序贯推断保证。

Efficient Adaptive Federated Optimization

FedAda2/FedAda2++ 提出在联邦学习中实现高效的服务器-客户端联合自适应优化:客户端本地预条件器从零初始化(无需服务器传输),并可选地用 SM3 等内存高效优化器压缩本地统计量,在理论上保持与完整联合自适应相同的 \(O(T^{-1/2})\) 收敛率,实测通信成本与 FedAvg 一致。

Efficient Federated Learning against Byzantine Attacks and Data Heterogeneity via Aggregating Normalized Gradients

提出 Fed-NGA 算法,通过对客户端上传的梯度做归一化后加权平均来实现聚合,以 \(\mathcal{O}(pM)\) 的极低时间复杂度同时抵御 Byzantine 攻击与数据异质性,并在非凸损失函数下首次证明了特定温和条件下的零最优性间隙收敛。

Emergence and Scaling Laws in SGD Learning of Shallow Neural Networks

本文对浅层神经网络在线 SGD 学习加法模型(多个单指标函数叠加)的过程进行了精确分析,证明了每个教师神经元的学习呈现尖锐相变(emergence),而大量相变曲线的叠加自然产生平滑的幂律 scaling law。

Escaping Saddle Points without Lipschitz Smoothness: The Power of Nonlinear Preconditioning

本文提出统一的充分条件连接 \((L_0,L_1)\)-光滑性与各向异性光滑性两种广义光滑框架,证明非线性预条件梯度法(含梯度裁剪)在此放松条件下保持鞍点规避性质,并给出扰动变体以多项对数维数依赖达到二阶稳定点。

Estimation of Stochastic Optimal Transport Maps

提出适用于随机OT映射的传输误差指标 \(\mathcal{E}_p\)(由优化间隙与可行性间隙组成),在无需Brenier映射存在或唯一性的最小假设下,构造了计算高效的rounding估计器达到近最优收敛率 \(\tilde{O}(n^{-1/(d+2p)})\),并推广至Hölder连续核与对抗污染场景,建立了首个通用OT映射估计理论。

Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing

本文提出一个结合 LLM 与进化算法的系统性评估框架,用于评估 LLM 在 2D 装箱问题上生成和优化启发式算法的能力,GPT-4o 在 2 轮迭代内即达到最优解,将平均箱数从 16 降至 15,空间利用率从 0.76-0.78 提升至 0.83。

Exact and Linear Convergence for Federated Learning under Arbitrary Client Participation is Attainable

本文引入随机矩阵和时变图作为建模工具,将联邦学习的客户端参与和本地更新过程统一为矩阵乘法形式,并提出 FOCUS 算法(基于 push-pull 策略),在任意客户端参与和数据异构下首次实现精确收敛与线性收敛速率。

Exploring Landscapes for Better Minima along Valleys

本文提出优化器适配器"E",通过在梯度更新中加入梯度差分的指数移动平均 \(\mathbf{a}_k = \text{EMA}(\mathbf{g}_k - \mathbf{g}_{k-1})\) 使优化器能在到达局部极小值后继续沿损失景观的"山谷"探索更低更平坦的极小值,适配后的 ALTO 在大批量训练中平均提升 2.5% 测试准确率。

Extragradient Method for \((L_0, L_1)\)-Lipschitz Root-finding Problems

本文在 \(\alpha\)-对称 \((L_0,L_1)\)-Lipschitz 条件下(放松经典 \(L\)-Lipschitz 假设)为 extragradient (EG) 方法提出自适应步长策略 \(\gamma_k = 1/(c_0 + c_1\|F(x_k)\|^\alpha)\),建立了强单调(线性收敛)、单调(次线性收敛)和 weak Minty(局部收敛)三类根问题的首个完整收敛保证。

Faster Algorithms for Structured John Ellipsoid Computation

针对对称凸多面体 \(P = \{x \in \mathbb{R}^d : -\mathbf{1}_n \leq Ax \leq \mathbf{1}_n\}\) 的 John 椭球计算问题,提出两个快速算法:基于 sketching 的近输入稀疏度算法 \(\widetilde{O}(\text{nnz}(A) + d^\omega)\) 每次迭代,和基于树宽的算法 \(O(n\tau^2)\) 每次迭代,均显著优于已有最优 \(O(nd^2)\)

FedQS: Optimizing Gradient and Model Aggregation for Semi-Asynchronous Federated Learning

提出 FedQS,首个同时优化半异步联邦学习(SAFL)中梯度聚合和模型聚合策略的框架,通过将客户端分为四类并自适应调整训练策略,在准确率、收敛速度和稳定性上全面超越基线。

FedRTS: Federated Robust Pruning via Combinatorial Thompson Sampling

将联邦动态剪枝重新建模为组合多臂赌博机(CMAB)问题,提出基于 Thompson Sampling 的拓扑调整机制 TSAdj,通过概率性决策替代确定性决策来获得更鲁棒的稀疏模型拓扑,同时显著降低通信开销。

From Average-Iterate to Last-Iterate Convergence in Games: A Reduction and Its Applications

提出 A2L (Average to Last-iterate) 黑箱规约,对效用函数关于自身策略和对手联合策略均线性的博弈,能将任意非耦合学习动力学的平均迭代转换为新动力学的末迭代,由此在多人零和多矩阵博弈中取得 \(O(\log d / T)\) 梯度反馈和 \(\tilde{O}(d^{1/5}T^{-1/5})\) bandit 反馈的 SOTA last-iterate 收敛率。

From Information to Generative Exponent: Learning Rate Induces Phase Transitions in SGD

系统刻画了在学习高斯单指标模型时,学习率如何在"information exponent 主导"和"generative exponent 主导"两个样本复杂度体制之间引发相变,并提出了一种新的逐层交替 SGD 算法,无需复用样本即可突破 CSQ 下界。

From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning

本文首次在非线性特征学习设定(线性 CNN → 两层 ReLU CNN)下严格分析了 weak-to-strong 泛化现象,揭示了数据匮乏和数据丰富两种机制下的不同行为:前者通过良性过拟合实现泛化(或因有害过拟合失败),后者通过早停的标签纠正实现泛化(但过训练会退化)。

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

在幂律核回归模型中建立了 Functional Scaling Law (FSL),通过引入"内在时间"概念统一刻画任意学习率调度下的完整 loss 轨迹,并推导出常数/指数衰减/WSD 三种调度在数据受限和计算受限条件下的显式 scaling 关系,理论解释了 WSD 优于纯衰减的经验现象。

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

本文论证 LLM 的泛化能力和幻觉产生源于同一机制——脱语境推理(OCR),并在单层注意力模型上理论证明:分解参数化 \((W_O, W_V)\) 因梯度下降的核范数隐式偏差而能执行 OCR,而合并参数化 \(W_{OV}\) 因 Frobenius 范数偏差而不能,且 OCR 是样本高效的(仅需 \(m_{\text{train}}>0\))。

Gradient Descent as Loss Landscape Navigation: a Normative Framework for Deriving Learning Rules

提出将学习规则视为在(部分可观测的)损失景观中的最优导航策略,通过变分法求解连续时间最优控制问题,在统一框架下推导出梯度下降、动量、自然梯度、Adam及持续学习策略。

Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data

本文首次完整刻画了归一化最速下降(NSD)和归一化动量最速下降(NMD)在多分类线性可分数据上的隐式偏差:这些算法以 \(\mathcal{O}(1/\sqrt{t})\) 的速率收敛到相应 \(p\)-范数的最大 margin 解,涵盖 Spectral Descent(谱范数)和 Muon 作为特例,并扩展至 Adam(max-范数 margin)。

Improving the Straight-Through Estimator with Zeroth-Order Information

本文提出 FOGZO(First-Order-Guided Zeroth-Order Gradient Descent),将 STE 梯度作为偏置源注入零阶梯度估计中,在保留 STE 的计算效率的同时利用零阶信息纠正 STE 的偶发错误方向,仅多 2 次前向传播即在 DeiT、ResNet、LLaMA 上实现 1-22 点的精度/困惑度改善。

In Search of Adam's Secret Sauce

本文通过训练 1500+ 语言模型的大规模实验发现:(1) Signum 虽能缩小 96% 的 SGD-Adam 差距,但仍比 Adam 慢 25%;(2) 设 \(\beta_1 = \beta_2\) 是 Adam 的近最优简化;(3) 在 \(\beta_1 = \beta_2 = \beta\) 下 Adam 可被重新解读为基于在线高斯变分推断估计梯度均值和方差的信噪比自适应 Signum。

Isotropic Noise in Stochastic and Quantum Convex Optimization

本文引入各向同性随机梯度预言机(ISGO)概念——噪声在每个方向上都以高概率有界——并设计随机切平面算法达到 \(\tilde{O}(R^2\sigma_I^2/\epsilon^2 + d)\) 的查询复杂度,较 SGD 在某些参数区间改进 \(d\) 倍,作为推论获得了 sub-exponential 噪声下的新 SOTA 复杂度,并通过量子各向同性化子程序改进了量子随机凸优化的维度依赖。

Kernel Learning with Adversarial Features: Numerical Efficiency and Adaptive Regularization

提出在再生核希尔伯特空间(RKHS)中将对抗扰动从输入空间转移到特征空间的新范式,使内层最大化可精确求解,并通过迭代加权核岭回归高效优化,同时自适应正则化无需调参即可匹配交叉验证性能。

Large Language Bayes

将 LLM 和概率编程语言(PPL/Stan)数学地"胶合"成联合分布 \(p(z,x,m|t) = p(m|t)_{\text{LLM}} \cdot p(z,x|m)_{\text{PPL}}\),用户只需提供非形式化的问题描述和数据,系统自动从 LLM 采样候选形式模型、做贝叶斯推断、通过边际似然加权平均,无需用户编写概率模型。

Large Stepsizes Accelerate Gradient Descent for Regularized Logistic Regression

证明了在线性可分数据上对 \(\ell_2\) 正则化逻辑回归使用大步长 GD(进入 Edge of Stability 区间),可将步复杂度从经典的 \(\widetilde{O}(\kappa)\) 加速到 \(\widetilde{O}(\sqrt{\kappa})\),在小正则化下匹配 Nesterov 动量的加速率。

Layer-wise Update Aggregation with Recycling for Communication-Efficient Federated Learning

提出 FedLUAR:基于梯度-权重比的层级优先级度量选择低优先级层复用上一轮梯度(而非丢弃),在仅 17% 通信开销下保持与 FedAvg 几乎相同的精度。

Learning at the Speed of Physics: Equilibrium Propagation on Oscillator Ising Machines

首次将 Equilibrium Propagation(EP)完整映射到振荡器 Ising Machine(OIM)硬件上,利用 GHz 物理动力学实现无反向传播的局部学习,在 MNIST/Fashion-MNIST 上达到 97.2%/88.0% 精度,并展示在参数量化和噪声下的鲁棒性。

Learning from Interval Targets

研究仅有区间标签(上下界)的回归问题,建立了基于假设类平滑性的非渐进泛化界(不依赖小 ambiguity degree 假设),并提出 minmax 学习框架利用平滑约束限制最坏情况标签,在 18 个真实数据集上显著优于无约束方法。

Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis

证明正交多索引模型 \(f_*(\mathbf{x}) = \sum_{k=1}^P \phi(\mathbf{v}_k^* \cdot \mathbf{x})\) 可通过两阶段在线 SGD 以 \(\tilde{O}(dP^{L-1})\) 样本复杂度学习(\(L\) 为链接函数最低高阶 Hermite 阶),远优于仅用最低阶信息的 \(\tilde{O}(Pd^{L-1})\)——关键在于先用 2 阶项恢复子空间,再用 \(L\) 阶项恢复方向,联合利用不同阶的 Hermite 分量。

Learning Parameterized Skills from Demonstrations

提出 DEPS,一种端到端从专家示范中发现参数化技能的算法,通过三层层次策略(离散技能选择→连续参数选择→底层动作)和信息瓶颈设计,学习可解释且可泛化的技能抽象,在LIBERO和MetaWorld上显著优于基线。

Learning Provably Improves the Convergence of Gradient Descent

首次严格证明了基于unrolling的Learn to Optimize (L2O)框架(Math-L2O)的训练收敛性,利用NTK理论建立了线性收敛速率,并提出确定性初始化策略确保L2O可证明地改善梯度下降算法的收敛性能,实验验证相比标准GD提升超50%的最优性。

Learning Quadratic Neural Networks in High Dimensions: SGD Dynamics and Scaling Laws

对高维情形下二次激活函数两层神经网络的梯度训练进行了精确分析,针对数据由 \(f_*(x) \propto \sum_{j=1}^r \lambda_j \sigma(\langle \theta_j, x \rangle)\) 生成的设定,在宽度 \(r \asymp d^\beta\) 和系数幂律衰减 \(\lambda_j \asymp j^{-\alpha}\) 下,推导出预测风险关于优化时间、样本量和模型宽度的缩放律。

Learning Reconfigurable Representations for Multimodal Federated Learning with Missing Data

提出 PEPSY 框架,通过学习客户端侧的嵌入控制来编码数据缺失模式,将全局聚合表示重新配置为适应各客户端本地上下文的数据完整特征,在多模态联邦学习中处理模态缺失和特征缺失两类问题。

Learning Single-Index Models via Harmonic Decomposition

提出以球谐函数(spherical harmonics)代替 Hermite 多项式作为单指标模型(SIM)的自然基底,利用旋转对称性刻画任意球对称输入分布下学习 SIM 的样本与计算复杂度,构造了两族最优估计器(张量展开 + 在线 SGD),并揭示了高斯情形之外出现的样本-运行时间权衡现象。

Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs

提出一种基于图神经网络(GNN)的稀疏近似逆(SPAI)预条件子学习方法,利用 SPAI 的局部性与 GNN 消息传递的天然兼容性,并引入尺度不变损失函数(SAI loss),在 GPU 上实现 40%-53% 的求解时间缩减(68%-113% 加速)。

Learning Theory for Kernel Bilevel Optimization

首次为核双层优化(KBO)建立了有限样本泛化界,证明目标函数值和梯度的插入估计误差均以\(\mathcal{O}(1/\sqrt{m}+1/\sqrt{n})\)的参数速率一致收敛,并将该理论应用于双层梯度下降算法的统计精度分析。

Learning to Insert for Constructive Neural Vehicle Routing Solver

提出 L2C-Insert,首个基于学习的插入式构造范式用于神经组合优化,通过允许在部分解的任意合法位置插入节点(而非仅追加到末尾),显著提升 TSP/CVRP 的构造质量和灵活性。

Least Squares Variational Inference

提出 LSVI(Least Squares Variational Inference),一种无梯度、基于普通最小二乘回归的变分推断方法,在指数族内通过对温控 log-target 做 OLS 回归来迭代求解最优变分近似,对高斯族有高效的 \(O(d^3)\)(全协方差)或 \(O(d)\)(平均场)实现。

MAR-FL: A Communication Efficient Peer-to-Peer Federated Learning System

提出 MAR-FL 系统,通过 Moshpit All-Reduce 机制和动态分组聚合,将 P2P 联邦学习的通信复杂度从 \(O(N^2)\) 降至 \(O(N \log N)\),同时保持对网络抖动的鲁棒性。

MDNS: Masked Diffusion Neural Sampler via Stochastic Optimal Control

提出 Masked Diffusion Neural Sampler (MDNS),基于连续时间马尔可夫链(CTMC)的随机最优控制理论,通过对齐路径测度来训练离散神经采样器,在状态空间基数高达 \(10^{122}\) 的 Ising/Potts 模型上准确采样,大幅超越现有学习型基线。

MeCeFO: Enhancing LLM Training Robustness via Fault-Tolerant Optimization

MeCeFO 提出了一种面向 LLM 训练的容错优化算法,当计算节点故障时通过跳连接、选择性激活重计算和低秩梯度近似三个技术将额外开销降到最低,在高频故障下仅有 4.18% 的吞吐量下降。

Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains

提出记忆增强势场理论(MAPFT),在随机最优控制中维护一个动态记忆模块来检测并编码状态空间的拓扑特征(局部最小值、低梯度区等),通过动态修改价值函数景观实现非凸环境下的自适应控制,在 Humanoid-v4 等任务上比最优 RL 方法(SAC)提升 27% 累积奖励,且局部最优逃逸率从 ~30% 提升到 ~72%。

MESS+: Dynamically Learned Inference-Time LLM Routing in Model Zoos with Service Level Guarantees

MESS+是首个将LLM请求路由形式化为带SLA约束的随机优化问题的框架,通过在线学习的请求满足度预测器+虚拟队列机制动态选择模型,在3个推理和5个问答基准上以满足SLA约束的前提下实现平均2倍的成本节省,并提供成本最优性和约束满足的理论保证。

MOBO-OSD: Batch Multi-Objective Bayesian Optimization via Orthogonal Search Directions

提出MOBO-OSD算法,通过在逼近的个体极小值凸包(CHIM)上定义正交搜索方向来生成多样化的Pareto最优解,结合Pareto前沿估计和批量选择策略,在合成与真实基准上持续超越SOTA多目标贝叶斯优化方法。

Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent

从梯度下降训练动力学出发,严格证明了单层多头 Transformer 通过 CoT 过程可学会树路径查找的前向和后向推理任务,并揭示不同注意力头会自主专业化以协调解决多阶段子任务。

Multiplayer Federated Learning: Reaching Equilibrium with Less Communication

提出多人联邦学习(MpFL)框架,将FL中的客户端建模为博弈论中的理性玩家,并设计PEARL-SGD算法通过局部更新减少通信开销,同时收敛到Nash均衡。

Natural Gradient Descent for Improving Variational Inference Based Classification of Radio Galaxies

研究使用自然梯度下降优化器 iVON 替代标准 SGD 来优化变分推断中的 BNN 参数,在射电星系分类中获得更好的不确定性校准,同时保持与 HMC 和 BBB-VI 相当的预测性能。

Natural Gradient VI: Guarantees for Non-Conjugate Models

在 mean-field 参数化下,为非共轭模型的自然梯度变分推断(NGVI)建立了三个关键理论结果:变分损失的相对光滑性条件、带非欧投影的修正 NGVI 的全局收敛到驻点保证、以及在额外结构假设下的隐藏凸性和快速全局收敛保证。

Near-Exponential Savings for Mean Estimation with Active Learning

提出 PartiBandits 算法,结合基于分歧的主动学习与 UCB 风格的分层抽样,在辅助信息 \(X\) 对目标变量 \(Y\) 有预测力时,实现了均值估计的近指数级标签节省。

Neural Thermodynamics: Entropic Forces in Deep and Universal Representation Learning

建立一套"神经热力学"理论,证明 SGD 训练中由随机性和离散时间更新产生的涌现熵力会系统性地打破神经网络参数的连续对称性并保留离散对称性,导致类似热力学能量均分的梯度平衡现象,从而 (a) 首次理论证明 Platonic 表征假说(不同模型学到相似表征),(b) 调和深度学习优化中"趋向尖锐"与"趋向平坦"的矛盾观察。

NeuSymEA: Neuro-symbolic Entity Alignment via Variational Inference

提出 NeuSymEA,一个基于变分 EM 算法的神经符号推理框架,将符号规则推理与神经网络嵌入统一在马尔可夫随机场中进行实体对齐,在 DBP15K 上实现了显著的性能提升和低资源鲁棒性。

Non-Stationary Bandit Convex Optimization: A Comprehensive Study

系统研究了非平稳环境下的Bandit凸优化问题,提出两个算法(TEWA-SE和cExO),统一建立了三种非平稳度量(切换数S、总变差Δ、路径长度P)下的遗憾上下界,多个设定下达到极小极大最优。

On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts

首次对带 softmax 门控的受污染混合专家(contaminated MoE)模型进行极小极大参数估计分析,提出"可区分性"概念刻画预训练模型与 prompt 的关系,证明可区分时 MLE 达到参数级 \(\tilde{O}(n^{-1/2})\) 最优速率,不可区分时速率显著变慢。

Online Two-Stage Submodular Maximization

首次提出在线两阶段子模最大化(O2SSM)问题,针对加权阈值势函数(WTP)设计了 RAOCO 算法,通过分数松弛+随机管道舍入实现多项式时间运行下的次线性 \((1-1/e)^2\)-regret 保证,同时改进了离线问题的近似比。

Optimal Rates for Generalization of Gradient Descent for Deep ReLU Classification

证明了深度ReLU网络上梯度下降的泛化速率达到 \(\widetilde{O}(L^4(1+\gamma L^2)/(n\gamma^2))\),首次在深度ReLU网络上同时实现:(1) 对样本量 \(n\) 的最优 \(1/n\) 依赖,(2) 对深度 \(L\) 仅多项式依赖。

Optimality and NP-Hardness of Transformers in Learning Markovian Dynamical Functions

从优化理论角度分析 Transformer 学习马尔可夫动态函数的 ICL 能力:推导单层线性自注意力的全局最优解(闭式表达),证明从扩展参数空间恢复 Transformer 参数是 NP-hard 的,并揭示多层 LSA 等价于预条件多目标优化。

Optimistic Online-to-Batch Conversions for Accelerated Convergence and Universality

提出乐观在线到批量(O2B)转换框架,将乐观性从在线算法中释放到转换机制本身,使简单的在线梯度下降就能实现 \(O(T^{-2})\) 加速收敛率,并首次通过 O2B 转换实现强凸光滑目标的最优收敛,同时达到对光滑性的通用性。

Oracle-Efficient Combinatorial Semi-Bandits

提出两种oracle高效框架(自适应和调度式),将组合半老虎机问题中的oracle调用次数从线性 \(\Theta(T)\) 降低到双对数 \(O(\log\log T)\),同时保持近最优的遗憾界。

OrthoGrad Improves Neural Calibration

本文首次系统研究了OrthoGrad(⊥Grad)——一种逐层将梯度投影到与权重正交方向上的几何约束优化方法——在神经网络校准任务中的效果。实验表明在CIFAR-10低数据场景下,OrthoGrad在不降低准确率的情况下显著改善校准指标(熵、损失、置信度),并证明了简化版本在标准假设下的收敛性。

Personalized Subgraph Federated Learning with Differentiable Auxiliary Projections

提出FedAux框架,通过可微分的辅助投影向量(APV)将节点嵌入映射到一维空间并用高斯核进行软排序聚合,APV既作为局部子图的紧凑隐私保护摘要用于服务器端相似度计算,又参与客户端的联合优化,实现了个性化的子图联邦学习。

Perturbation Bounds for Low-Rank Inverse Approximations under Noise

首次给出在加性噪声下低秩逆近似 \(\|(\tilde{A}^{-1})_p - A_p^{-1}\|\) 的非渐近谱范数扰动界,利用轮廓积分技术得到依赖特征间隙、谱衰减和噪声对齐的锐界,比经典全逆界改进高达 \(\sqrt{n}\) 倍。

Preference Learning with Response Time: Robust Losses and Guarantees

将用户决策的响应时间信息融入偏好学习框架中,通过 Neyman 正交损失函数将奖励模型学习的误差从指数级缩减到多项式级。

Probing Neural Combinatorial Optimization Models

首次系统性地将探针(probing)方法引入神经组合优化(NCO)模型的研究,提出CS-Probing工具来分析模型表示中编码的决策知识、归纳偏置和泛化机制,并发现关键嵌入维度可用于提升模型泛化性能。

Problem-Parameter-Free Decentralized Bilevel Optimization

提出 AdaSDBO,一种完全无需问题参数先验知识的去中心化双层优化算法,通过基于累积梯度范数的自适应步长实现 \(\tilde{O}(1/\sqrt{T})\) 收敛率。

PROFIT: A Specialized Optimizer for Deep Fine Tuning

PROFIT 将微调视为时间维度上的多任务学习问题,通过将新任务梯度对"回归平衡点"方向做正交化投影,实现了无需额外数据或参数的抗遗忘微调优化器。

Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry

本文揭示了稀疏自编码器(SAE)架构与其能发现的概念结构之间存在根本性的对偶性——每种SAE隐式假设了特定的概念组织方式,当假设不匹配时会系统性地遗漏概念。据此提出了SpaDE,一种考虑非线性可分性和维度异质性的新SAE。

Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner

通过将Shampoo预条件矩阵分解为特征值和特征基两部分,揭示了学习率嫁接(grafting)实质上是弥补特征值的陈旧性和缩放偏差,并提出了特征值校正和自适应特征基更新频率来替代这些启发式技巧。

Quantitative Convergence of Trained Single Layer Neural Networks to Gaussian Processes

为梯度下降训练的浅层神经网络提供了在任意正训练时间 \(t \geq 0\) 下向高斯过程收敛的显式定量上界,证明了二次Wasserstein距离以 \(O(\log n_1 / n_1)\) 的速率多项式衰减。

Rao-Blackwellised Reparameterisation Gradients

提出 R2-G2 估计器作为重参数化梯度的 Rao-Blackwell 化版本,证明 Bayesian MLP 的局部重参数化是其特例,并将低方差梯度的优势推广到一系列概率模型。

Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees

揭示了现有NCO方法严重过拟合固定约束紧度(如CVRP的固定车辆容量C=50),提出变约束紧度训练方案和多专家模块(MEM),使模型能有效处理从极紧到极松的全范围约束。

Revisiting Orbital Minimization Method for Neural Operator Decomposition

重新审视源自计算化学的经典轨道最小化方法(OMM),提供了简洁的线性代数一致性证明,揭示其与Sanger规则、流式PCA等的深层联系,并将其推广为训练神经网络进行正半定算子谱分解的通用框架。

Robust Estimation Under Heterogeneous Corruption Rates

本文研究了异质污染率下的鲁棒估计问题——每个样本以不同的已知概率被污染——对有界分布和高斯分布的均值估计及线性回归建立了紧的极小极大率,发现最优估计器可以简单地丢弃污染率超过某阈值的样本。

Second-Order Optimization Under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity

首次系统研究重尾噪声条件下二阶随机优化的理论基础,建立了紧的样本复杂度下界,提出了基于梯度和 Hessian 裁剪的归一化SGD算法(Clip NSGDHess),并证明其近似达到信息论极限。

Set Smoothness Unlocks Clarke Hyper-stationarity in Bilevel Optimization

本文提出"集合光滑性"(set smoothness)这一新的结构性质,证明它在非凸-PŁ双层优化中自然成立,并据此揭示超目标函数隐藏的弱凸/弱凹结构,首次建立了非光滑超目标函数Clarke稳定点的可计算性保证。

Sharper Convergence Rates for Nonconvex Optimisation via Reduction Mappings

提出 Reduction Mapping 框架,利用最优解集的流形结构(由过参数化或对称性产生)重参数化优化问题,证明这能改善曲率性质并理论上加速基于梯度方法的收敛。

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful

本文系统研究了小批量(甚至batch size=1)在语言模型预训练和微调中的表现,提出了基于"token半衰期"固定的Adam β₂缩放规则,发现小批量不仅训练稳定,还使vanilla SGD具备与自适应优化器相当的竞争力,并建议避免使用梯度累积。

Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes

提出基于后验采样的 coreset 选择框架,通过在 BatchNorm 层上采样权重扰动来平滑损失曲面,保证 coreset 与全数据集的损失景观对齐(包含 Hessian 和 Newton 步的近似),在高标签噪声下显著优于现有方法。

Stochastic Momentum Methods for Non-smooth Non-Convex Finite-Sum Coupled Compositional Optimization

针对非光滑非凸有限和耦合复合优化 (FCCO) 问题,提出两种随机动量方法 SONEX(单循环)和 ALEXR2(双循环),通过外层 Moreau 包络平滑和嵌套平滑技术将迭代复杂度从 \(O(1/\epsilon^6)\) 改进至 \(O(1/\epsilon^5)\),并在非凸不等式约束优化中取得同等最优复杂度。

Streaming Federated Learning with Markovian Data

首次严格分析了非凸目标函数下具有马尔可夫数据流的流式联邦学习,证明 Minibatch SGD、Local SGD 和 Local SGD-M 均能实现与客户端数成反比的样本复杂度(线性加速),且 Local SGD-M 无需异质性假设即可匹配 Minibatch SGD 的通信复杂度。

The Implicit Bias of Structured State Space Models Can Be Poisoned With Clean Labels

本文首次从理论上证明结构化状态空间模型 (SSM) 的隐式偏置可以被干净标签 (clean-label) 训练样本"投毒"——存在特殊的训练样本,尽管它们的标签由教师模型正确标注,但其加入会彻底扭曲 SSM 的隐式偏置,导致泛化彻底失败。

The Rich and the Simple: On the Implicit Bias of Adam and SGD

本文理论和实验证明,SGD训练的神经网络倾向于学习简单线性特征(简单性偏置),而Adam训练则产生更丰富的非线性特征,使模型更接近贝叶斯最优预测器,在分布偏移下泛化更好。

Training-Free Bayesianization for Low-Rank Adapters of Large Language Models

提出 TFB(Training-Free Bayesianization),通过在低秩各向同性高斯分布族中搜索最大可接受方差,将已训练好的 LoRA 适配器无需重训练即转化为贝叶斯版本,理论上等价于广义变分推断。

Training Robust Graph Neural Networks by Modeling Noise Dependencies

提出依赖感知图噪声(DANG)和DA-GNN框架,通过建模节点特征噪声→图结构噪声→标签噪声的因果依赖链,利用变分推断推导ELBO来训练对多源协同噪声鲁棒的GNN。

Understanding Adam Requires Better Rotation Dependent Assumptions

本文通过系统的实验研究揭示了 Adam 优化器对参数空间坐标基底的强依赖性,证明现有旋转不变的理论假设不足以解释 Adam 的优越性,并发现层更新的正交性是预测 Adam 在不同基底下性能的有力指标。

Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks

首次理论分析 mini-batch Adam 的泛化行为,证明大 batch Adam/AdamW 即使带 weight decay 也收敛到高测试误差的解,而小 batch 版本通过随机梯度的隐式正则化 + weight decay 的显式正则化可实现近零测试误差,且 Adam 的有效 weight decay 上界严格小于 AdamW。

Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise

本文通过扩展的随机微分方程(SDE)框架揭示了SAM中m-sharpness现象的理论机制——更小的微批次尺寸m带来更强的随机梯度噪声(SGN)协方差隐式正则化,并据此提出了可并行化的Reweighted SAM (RW-SAM)方法。

Unveiling the Power of Multiple Gossip Steps: A Stability-Based Generalization Analysis in Decentralized Training

本文首次从算法稳定性角度分析去中心化 SGD(DSGD)中多步 Gossip 通信(MGS)的泛化效果,证明 MGS 以指数速率减少优化误差从而收紧泛化界,但即使 Gossip 步数趋于无穷也无法完全弥合与中心化训练的泛化差距。

VERA: Variational Inference Framework for Jailbreaking Large Language Models

将黑盒 LLM 越狱攻击形式化为变分推断问题,训练小型攻击者 LLM 近似目标 LLM 的对抗提示后验分布,一次训练后可高效、多样地生成越狱提示,无需依赖人工模板。

Verbalized Algorithms: Zero-shot Classical Algorithmic Reasoning for Correctness and Runtime Guarantees

本文提出"语言化算法"(Verbalized Algorithms, VAs)框架,将经典算法的控制流保持不变,仅用LLM替换其中的原子操作(如二值比较),从而在自然语言推理任务中继承经典算法的正确性和复杂度保证,在排序、求最大值、聚类和子模最大化四个案例中验证了有效性。

VIKING: Deep Variational Inference with Stochastic Projections

VIKING 提出了一种基于 Fisher-Rao 度量核空间与像空间分解的变分近似后验族,通过随机交替投影算法实现可扩展的全相关贝叶斯训练,在多个基准上超越了现有贝叶斯深度学习方法。

Wasserstein Transfer Learning

提出了首个针对Wasserstein空间中概率分布输出的迁移学习框架(WaTL),通过加权辅助估计、偏差校正和投影三步法,结合自适应信息源选择,从源域迁移知识以提升目标域分布回归的估计性能。


🧊 3D 视觉

3D-Agent: Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation

提出 Tri-MARF 三模态多智能体框架,通过 VLM 标注 Agent(多视角多候选描述)+ 信息聚合 Agent(BERT 聚类 + CLIP 加权 + UCB1 多臂赌博机选择)+ 点云门控 Agent(Uni3D 文本-点云对齐过滤幻觉),实现 CLIPScore 88.7(超越人类标注 82.4)、吞吐量 12k 物体/小时,已标注约 200 万 3D 模型。

3D Visual Illusion Depth Estimation

揭示了3D视觉错觉(如墙面彩绘、屏幕重播、镜面反射等)会严重欺骗现有SOTA单目和双目深度估计方法,构建了包含约3k场景/200k图像的大规模数据集,并提出基于VLM常识推理的单目-双目自适应融合框架,在各类错觉场景下达到SOTA。

Anti-Aliased 2D Gaussian Splatting

提出 AA-2DGS,通过世界空间平坦平滑核和物体空间 Mip 滤波器两个互补机制,解决 2D Gaussian Splatting 在不同采样率下渲染时的严重锯齿问题,在保持 2DGS 几何精度优势的同时显著提升多尺度渲染质量。

ARMesh: Autoregressive Mesh Generation via Next-Level-of-Detail Prediction

提出将 3D mesh 生成建模为"由粗到精"的逐级细化过程(next-level-of-detail prediction),通过反转广义网格简化算法(GSlim)获得渐进式细化序列,再用 Transformer 自回归学习,从单个点开始逐步增加几何与拓扑细节生成完整网格。

AtlasGS: Atlanta-world Guided Surface Reconstruction with Implicit Structured Gaussians

提出 AtlasGS,通过将 Atlanta-world 结构先验引入隐式结构化高斯表示(implicit-structured Gaussians),在室内和城市场景中实现平滑且保留高频细节的高质量表面重建,全面超越已有隐式和显式方法。

BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

提出 BecomingLit,基于 3D Gaussian 原语和混合神经着色(neural diffuse BRDF + 解析 Cook-Torrance specular)从低成本 light stage 多视角序列重建可重光照、实时渲染的高保真头部 avatar,并发布了新的公开 OLAT 人脸数据集。

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

CLIPGaussian 提出首个基于 Gaussian Splatting 的统一风格迁移框架,支持文本和图像引导的 2D 图像、视频、3D 物体和 4D 动态场景的风格化,作为即插即用模块集成到现有 GS 管线中,无需大规模生成模型或从头重训,且不改变模型大小。

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Concerto 将 3D 点云模态内自蒸馏与 2D-3D 跨模态联合嵌入预测相结合,以极简设计让单一点云编码器(PTv3)涌现出超越 2D/3D 单模态甚至两者拼接的空间表征,在多个 3D 场景理解基准上刷新 SOTA(ScanNet 语义分割 80.7% mIoU)。

Copresheaf Topological Neural Networks: A Generalized Deep Learning Framework

本文提出 Copresheaf Topological Neural Networks (CTNNs),基于代数拓扑中的余预层(copresheaf)概念,在组合复形(combinatorial complex)上定义方向性、异质的消息传递机制,统一了 CNN、GNN、Transformer、Sheaf Neural Networks 和拓扑神经网络等多种深度学习架构,并在物理模拟、图分类和高阶复形分类任务上超越传统基线。

CosmoBench: A Multiscale, Multiview, Multitask Cosmology Benchmark for Geometric Deep Learning

提出 CosmoBench——目前最大的宇宙学几何深度学习基准,包含 3.4 万点云和 2.5 万有向树,覆盖多尺度、多视角、多任务,并揭示简单线性模型有时能超越大型 GNN。

Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation

Cue3D是首个模型无关的图像线索重要性量化框架,通过系统性扰动光照、纹理、轮廓、透视、边缘和局部连续性6种视觉线索,在涵盖回归式/多视图/原生3D生成三大范式的7个方法上揭示了关键洞察:形状意义性而非纹理决定泛化能力,光照比纹理更重要,且模型过度依赖输入轮廓。

D\(^2\)USt3R: Enhancing 3D Reconstruction for Dynamic Scenes

提出 Static-Dynamic Aligned Pointmap (SDAP) 表示,将静态和动态区域的 3D 对齐统一建模,使 DUSt3R 系列方法能够在动态场景中实现准确的稠密三维重建与对应关系估计。

DC4GS: Directional Consistency-Driven Adaptive Density Control for 3D Gaussian Splatting

提出基于方向一致性(Directional Consistency)的自适应密度控制方法 DC4GS,通过利用位置梯度的角度相干性来改进 3DGS 中的 primitive 分裂决策和分裂位置选择,在减少最多 30% primitive 数量的同时提升重建质量。

DGH: Dynamic Gaussian Hair

提出 Dynamic Gaussian Hair (DGH),一个数据驱动的 coarse-to-fine 框架,通过体素隐式变形模型学习头发动力学,并结合柱状 Gaussian 表示与曲率混合策略实现动态头发的逼真新视角渲染。

DualFocus: Depth from Focus with Spatio-Focal Dual Variational Constraints

提出 DualFocus,通过空间变分约束(利用焦距相关梯度模式区分深度边缘与纹理伪影)和焦距变分约束(强制单峰单调的对焦概率分布)双重约束,实现从焦距堆栈中鲁棒精确的深度估计。

Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos

提出统一框架,通过可学习模糊核卷积联合建模散焦模糊和运动模糊,结合动态高斯致密化策略和未见视角约束,从模糊单目视频中实现高质量动态 3DGS 新视角合成。

DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation

提出 DynaRend,通过掩码重建和未来预测两个互补目标,利用可微体渲染在 triplane 表征上联合学习 3D 几何、语义和动态信息,预训练后可高效迁移到下游机器人操控任务。

E-MoFlow: Learning Egomotion and Optical Flow from Event Data via Implicit Regularization

提出 E-MoFlow,通过将光流建模为隐式神经表示、自运动建模为连续样条,并利用微分几何约束联合优化两者,在无监督范式下实现事件数据的 6-DoF 自运动和稠密光流联合估计。

EA3D: Online Open-World 3D Object Extraction from Streaming Videos

提出 EA3D(ExtractAnything3D),一个在线开放世界 3D 物体提取框架,通过知识集成特征图、在线视觉里程计和循环联合优化,从流式视频中同时进行几何重建和全面场景理解。

EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes

EAG3R 将事件相机的异步事件流融入 MonST3R 点图重建框架,通过 Retinex 增强模块 + SNR 感知融合机制 + 事件光度一致性损失,在极端低光动态场景下实现鲁棒的深度估计、位姿跟踪和 4D 重建,零样本迁移夜间场景即可大幅超越 RGB-only 方法。

EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting

EF-3DGS 首次将事件相机引入自由轨迹场景重建,通过事件生成模型(EGM)重建帧间潜在图像做连续监督、对比度最大化(CMax)结合线性事件模型(LEGM)挖掘运动信息校准位姿,以及光度 BA + Fixed-GS 策略解决颜色不一致问题,在高速场景下 PSNR 提升 3dB、ATE 降低 40%。

ELECTRA: A Cartesian Network for 3D Charge Density Prediction with Floating Orbitals

提出 ELECTRA(Electronic Tensor Reconstruction Algorithm),一种等变笛卡尔张量网络,通过预测浮动高斯轨道的位置、权重和协方差矩阵来重构电子密度,在 QM9 基准上精度比 SOTA 方法 SCDP 高 2.4 倍且推理速度快 4.4-11 倍,并将 DFT 的 SCF 迭代次数减少 50.72%。

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

EnerVerse 是一个生成式机器人基础模型,通过 chunk-wise 自回归视频扩散 + 稀疏上下文记忆 + 多视角生成先验构建 4D 具身空间,结合 4DGS 数据飞轮缩小 Sim2Real 差距,最终通过策略头将 4D 世界表示转化为物理动作,在 LIBERO 基准上达到 SOTA。

EUGens: Efficient, Unified, and General Dense Layers

EUGens 提出一类新的高效稠密层,利用随机特征(Random Features)将全连接前馈层的推理复杂度从二次降到线性,统一了已有的高效 FFL 扩展,在 LLM 预训练、ViT 图像分类、NeRF/iSDF 三维重建等任务中实现高达 27% 加速和 30% 参数压缩,且支持无需反向传播的层级知识蒸馏。

Evaluation of Vision-LLMs in Surveillance Video

提出一个无训练的两阶段框架,利用小型 Vision-LLM 生成视频文本描述 + NLI 分类器零样本评分,系统评估了提示策略和隐私保护滤镜对监控视频异常行为识别的影响。

Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation

提出 4D Gaussian Ray Tracing (4D-GRT),将 4D Gaussian Splatting 与物理光线追踪结合,从多视角视频重建动态场景后,以可控参数生成鱼眼畸变、景深模糊、卷帘快门等物理精确的相机效果视频数据。

Fin3R: Fine-tuning Feed-forward 3D Reconstruction Models via Monocular Knowledge Distillation

提出 Fin3R,通过冻结 decoder 并用带重归一化的 LoRA 适配器对 encoder 进行单目知识蒸馏微调,以统一且轻量的方式提升 DUSt3R/MASt3R/CUT3R/VGGT 等前馈式 3D 重建模型的几何精度和鲁棒性。

FlareX: A Physics-Informed Dataset for Lens Flare Removal via 2D Synthesis and 3D Rendering

提出 FlareX 数据集,通过参数化模板创建、基于光照定律的 2D 合成和基于物理引擎的 3D 渲染三个阶段生成物理真实的镜头光晕数据,训练的模型在真实世界测试集上显著超越此前所有数据集。

Flux4D: Flow-based Unsupervised 4D Reconstruction

提出 Flux4D,一个无监督且可泛化的 4D 动态驾驶场景重建框架,通过前馈网络直接预测 3D 高斯及其运动速度,仅用光度损失和静态偏好正则化实现大规模场景重建,在 PandaSet 和 Waymo 上超越所有无监督方法并接近有监督方法的性能。

From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes

提出 Anywhere3D-Bench,首个涵盖区域/空间/物体/部件四个层级的 3D 视觉定位基准,揭示即使最强的 Gemini-2.5-Pro 和 o3 在空间级任务上仅达约 30% 准确率、部件级约 40%,远低于人类的 95%。

From Pixels to Views: Learning Angular-Aware and Physics-Consistent Representations for Light Field Microscopy

提出 XLFM-Former,通过 视角级 Masked View Modeling(MVM-LF) 自监督预训练学习 XLFM 的角度–空间先验,并设计基于 PSF 可微渲染的 光学渲染一致性损失(ORC Loss) 约束重建体积的物理合理性,在自建的首个 XLFM-Zebrafish 标准化基准上,平均 PSNR 达 54.04 dB,较最佳基线 ConvNeXt(50.16 dB)提升 7.7%

From Programs to Poses: Factored Real-World Scene Generation via Learned Program Libraries

提出 FactoredScenes,将真实世界 3D 场景生成分解为五步因式分解——从合成数据学布局程序库、LLM 生成场景程序、执行程序获得轴对齐布局、程序条件化层次姿态预测、物体检索放置,在卧室上 FID 改善 38.3%、KID 改善 80.4%,人类仅 67% 能区分生成与真实 ScanNet。

Fully Dynamic Algorithms for Chamfer Distance

提出首个全动态 Chamfer 距离维护算法,将问题归约为近似最近邻(ANN)查询,实现 \((1+\epsilon)\) 近似且更新时间 \(\tilde{O}(\epsilon^{-d})\),大幅突破了静态重算的线性时间下界,在真实数据集上误差 <10% 且速度比朴素方法快数个数量级。

Galactification: Painting Galaxies onto Dark Matter Only Simulations Using a Transformer-Based Model

提出一个多模态 Transformer 编解码框架,以廉价的暗物质 N-body 模拟的密度场和速度场为输入,自回归生成星系目录(位置 + 物理属性),在多种统计指标上忠实再现流体动力学模拟结果,计算加速约 100 倍。

GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies

提出 GauDP,通过从多智能体的去中心化 RGB 观测中构建全局一致的 3D 高斯场,并将高斯属性动态分配回各智能体的局部视角,实现可扩展的、感知增强的多智能体协作模仿学习。

Gaussian-Augmented Physics Simulation and System Identification with Complex Colliders

提出 AS-DiffMPM,一种支持任意形状刚体碰撞体的可微物质点法(MPM)框架,结合多种新视角合成方法实现从视觉观测中估计物体物理参数的系统辨识。

Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span

提出 EgoSpanLift 方法,将第一人称 2D 注视预测提升到 3D 空间,构建多层级体积视觉跨度表示,结合 3D U-Net 和单向 Transformer 实现对未来 3D 视觉关注区域的预测。

GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion

提出 GeoComplete,通过将投影点云作为几何条件注入双分支扩散模型,并结合 target-aware masking 策略,实现几何一致的参考驱动图像补全,PSNR 提升 17.1%。

GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction

提出基于稀疏体素的显式表面重建框架 GeoSVR,通过体素不确定性深度约束和稀疏体素表面正则化,在几何精度、细节保留和重建完整性方面全面超越现有基于 3DGS 和 SDF 的方法。

GOATex: Geometry & Occlusion-Aware Texturing

GOATex 提出首个遮挡感知的 3D 网格纹理生成框架,通过基于光线投射的 hit level 分层机制将网格分解为由外到内的可见性层,配合法线翻转和残差面聚类的两阶段可见性控制策略以及基于可见性权重的 UV 空间融合,实现了对外表面和被遮挡内表面的高质量纹理生成。

HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene

HAIF-GS 提出基于稀疏运动锚点的动态 3DGS 框架,通过锚点过滤器区分动静区域、自监督诱导场景流引导时序一致变形、以及分层锚点加密捕捉精细非刚性运动,在 NeRF-DS 和 D-NeRF 基准上取得 SOTA 渲染质量。

High Resolution UDF Meshing via Iterative Networks

本文提出首个针对无符号距离场(UDF)的迭代式网格化方法,通过多轮次前向传播逐步将邻域信息传播到局部体素的伪符号预测中,有效解决了高分辨率下神经 UDF 噪声导致的表面空洞和不连续问题,在多个数据集上显著优于现有单遍方法。

How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?

本文系统性地揭示了 3D 点云 Transformer(如 PTv3、Sonata)中存在 90-95% 的 token 冗余,并提出 gitmerge3D——一种全局信息感知的图 token 合并方法,通过能量分数自适应合并策略实现了高达 5.3× FLOPs 降低和 6.4× 显存节省而几乎不损失精度。

Hybrid Physical-Neural Simulator for Fast Cosmological Hydrodynamics

提出一种混合物理-神经宇宙学模拟器,用可微分粒子网格(PM)方法处理引力动力学,用物理约束的神经网络参数化气体的有效压力场,仅需单次参考模拟即可训练,在场级别和统计量级别均优于 EGD 基线。

HyPlaneHead: Rethinking Tri-plane-like Representations in Full-Head Image Synthesis

系统分析了 tri-plane 类表征在 3D 感知头部合成中的三大问题(镜像伪影、不均匀映射、特征穿透),提出 hy-plane 混合表征(平面+球面)结合 unify-split 策略和近等面积映射,在全头图像合成中达到 SOTA。

HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis

提出混合辐射场(HyRF),将紧凑的显式高斯体(仅存储8个参数)与解耦的网格神经场相结合,在实现 20× 模型压缩的同时达到 SOTA 渲染质量和实时性能。

IBGS: Image-Based Gaussian Splatting

提出基于图像的高斯泼溅方法(IBGS),通过从邻近训练图像中学习颜色残差来增强标准3DGS的渲染质量,在不增加存储开销的前提下显著提升高频细节和视角依赖效果的建模能力。

IndEgo: A Dataset of Industrial Scenarios and Collaborative Work for Egocentric Assistants

提出IndEgo——首个面向真实工业场景的大规模多模态第一人称视觉数据集,包含3,460段自我中心录像(约197小时)和1,092段外部视角录像(约97小时),覆盖装配/拆卸、物流、检修、木工等五大类任务及协作场景,并建立了错误检测、推理问答和协作理解三项基准。

Instant Video Models: Universal Adapters for Stabilizing Image-Based Networks

提出一类通用的稳定化适配器(Stabilization Adapters),可插入几乎任何图像模型架构中,通过冻结基础网络仅训练适配器参数,配合统一的精度-稳定性-鲁棒性损失函数,使帧级模型获得视频时序一致性和腐蚀鲁棒性。

Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation

首次将Stable Diffusion的视觉先验引入自监督单目深度估计框架,提出Mix-Batch Image Reconstruction(MIR)代理任务保护SD先验不被重投影噪声损坏,并设计Scale-Shift GRU(SSG)桥接SD的尺度-偏移不变性(SSI)与自监督的尺度不变性(SI)深度分布,在KITTI上AbsRel=0.090达到所有SSMDE方法SOTA,且零样本泛化全面超越Marigold、E2E FT、Lotus等有监督SD方法。

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

通过将每个3D高斯视为全局字典上的稀疏编码,LangSplatV2用稀疏系数场替代重量级解码器,实现476.2 FPS的高维特征溅射和384.6 FPS的3D开放词汇查询,较LangSplat加速47倍。

Learning Efficient Fuse-and-Refine for Feed-Forward 3D Gaussian Splatting

提出Fuse-and-Refine模块,通过混合Splat-Voxel表征将像素对齐的高斯基元聚合到粗到细的体素层次结构中,用稀疏体素Transformer在15ms内融合约20万基元并提升约2dB PSNR,且仅在静态场景训练即可零样本泛化到流式动态场景重建。

Learning Neural Exposure Fields for View Synthesis

提出神经曝光场(NExF),通过学习每个 3D 点的最优曝光值(而非每张图像的曝光),实现 3D 一致的高质量视图合成,在高动态范围场景中相比 SOTA 方法 PSNR 提升 3.5+,速度快 50 倍。

Linearly Constrained Diffusion Implicit Models

提出 CDIM,一种基于 DDIM 的线性逆问题求解算法,通过将残差能量与前向扩散过程的 \(\chi^2\) 分布对齐来自适应控制投影步数和步长,实现比 DPS 快 10-50 倍的推理速度,同时在无噪声情况下精确满足测量约束。

LinPrim: Linear Primitives for Differentiable Volumetric Rendering

提出 LinPrim,用线性基元(八面体和四面体)替代3D高斯核作为新视角合成的场景表示,通过可微光栅化pipeline实现端到端优化,在真实数据集上以更少的基元数量达到与3DGS可比的重建质量,同时保持实时渲染能力。

Locality-Sensitive Hashing-Based Efficient Point Transformer for Charged Particle Reconstruction

通过将 LSH 与 Point Transformer 结合,提出 HEPTv2 实现粒子轨迹重建的端到端学习,消除了 DBScan 聚类后处理瓶颈,在保持竞争性追踪效率的同时实现 28.9 倍加速。

LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering

提出 LODGE,通过层次化 LOD(Level-of-Detail)策略对 3D Gaussian Splatting 进行多尺度管理,根据相机距离动态选择合适粒度的 Gaussian 表示,实现大规模场景的高质量实时渲染。

Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views

Look and Tell 构建了一个多模态数据集,在厨房场景中使用 Meta Aria 智能眼镜和固定 GoPro 摄像头同步采集 25 名参与者的注视、语音和双视角视频,结合 3D 场景重建和多层级标注流水线,提供了首个跨第一人称/第三人称视角的指称交际研究基准。

MaNGO: Adaptable Graph Network Simulators via Meta-Learning

提出 MaNGO(Meta Neural Graph Operator),通过元学习和条件神经过程(CNP)学习不同物理参数下仿真任务的共享潜在结构,实现对新物理参数的快速适应,无需重新训练。

MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference

提出MaterialRefGS,通过多视角一致的材质推断约束和基于2DGS光线追踪的环境建模策略,实现反射表面的高保真新视角合成和精确光照分解。

Mesh-RFT: Enhancing Mesh Generation via Fine-Grained Reinforcement Fine-Tuning

提出 Mesh-RFT 框架,通过拓扑感知评分系统和掩码直接偏好优化(M-DPO)实现面级别的细粒度网格质量优化,显著提升生成网格的几何完整性和拓扑规则性。

Mesh Interpolation Graph Network for Dynamic and Spatially Irregular Global Weather Forecasting

提出 MIGN 框架,通过网格插值策略将不规则气象站数据映射到规则 HEALPix 网格上进行消息传递,并引入参数化球谐函数位置编码增强空间泛化能力,在全球天气预报任务中显著超越现有方法。

Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

提出BraInCoRL(Brain In-Context Representation Learning),一种基于Transformer的元学习框架,通过上下文学习(in-context learning)从少量刺激-响应样本直接预测新被试的体素级神经响应,无需微调即可适应新被试和新刺激,仅用100张图片就接近在9000张图片上完整训练的参考模型的性能。

MetaGS: A Meta-Learned Gaussian-Phong Model for Out-of-Distribution 3D Scene Relighting

提出MetaGS,通过将可微Blinn-Phong反射模型嵌入3D高斯splatting并结合双层优化的元学习训练策略,实现在分布外(OOD)光照条件下的高质量3D场景重光照。

Metropolis-Hastings Sampling for 3D Gaussian Reconstruction

提出自适应Metropolis-Hastings框架替代3DGS中的启发式密度控制机制,通过多视角光度误差驱动的概率采样实现更高效的高斯分布推断,收敛速度快于3DGS-MCMC。

More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

Merge提出了一种即插即用的框架,在固定的预训练T2I扩散模型前插入轻量级可学习的Converter,仅用约12%的额外参数就能赋予模型深度估计能力,同时完美保留原有的图像生成能力,在多个零样本深度估计基准上达到了统一模型的SOTA。

Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding

Motion4D提出了一个统一的4D高斯溅射框架,通过迭代优化策略将2D基础模型的先验(语义掩码、点追踪、深度)融入3D表示,实现了时空一致的运动和语义建模,在视频对象分割、点追踪和新视角合成任务上显著超越了现有方法。

Motion Matters: Compact Gaussian Streaming for Free-Viewpoint Video Reconstruction

提出ComGS框架,利用动态场景中运动的局部性和一致性,通过仅约200个关键点驱动整个运动区域的高斯点运动,实现了相比3DGStream 159倍、相比QUEEN 14倍的存储压缩,同时保持了竞争性的视觉质量和渲染速度。

MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics

MPMAvatar 将 Material Point Method (MPM) 物理仿真器与 3D 高斯溅射渲染相结合,通过各向异性本构模型和面向网格碰撞体的新碰撞处理算法,实现宽松衣物的精确鲁棒物理动画——在 ActorsHQ 和 4D-DRESS 上几何和外观全面超越 PhysAvatar,仿真成功率 100% vs 37.6%,单帧仿真仅需 1.1 秒。

NerfBaselines: Consistent and Reproducible Evaluation of Novel View Synthesis Methods

提出NerfBaselines评测框架,通过统一的评估协议、环境隔离和原始代码封装,解决了新视角合成领域因评估协议差异导致的不公平比较问题,并通过实验揭示了微小的协议差异(如图像缩放方式、背景颜色)可以显著改变方法排名。

Neural Green's Functions

提出 Neural Green's Function,一种基于特征分解的可学习线性 PDE 解算子:从域几何中提取逐点特征来预测 Green 函数的特征分解,一次训练即可对任意源函数和边界条件通过数值积分求解,在机械零件热分析上比 SOTA 神经算子误差降低 13.9% 且比数值求解器快 350 倍。

Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion

将稀疏输入新视角合成重新定义为测试时自然视频补全问题,利用预训练视频扩散模型的先验生成中间伪视图,并通过不确定性感知机制与 3D 高斯泼溅(3D-GS)迭代优化,在极稀疏输入下实现高保真场景重建。

Object-Centric Representation Learning for Enhanced 3D Semantic Scene Graph Prediction

通过实证分析揭示物体特征可区分性是 3D 场景图谓词预测的关键瓶颈(物体分类错误导致 92%+ 的谓词错误),提出独立对比预训练的物体编码器(3D-2D-Text 三模态对齐)+ 几何正则化关系编码器 + 双向边门控 GNN,在 3DSSG 上 Object R@1 59.53%、Predicate R@50 91.40% 均达新 SOTA。

On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation

提出 Geometry Encoding Mixer (GEM),一种专为3D点云Transformer设计的几何感知PEFT模块,通过空间适配器捕获局部几何细节和上下文适配器注入全局场景信息,仅更新1.6%参数即可达到甚至超越全量微调性能。

Online Segment Any 3D Thing as Instance Tracking

将在线3D实例分割重新建模为实例跟踪问题(AutoSeg3D),通过长期记忆进行实例关联、短期记忆进行实例更新、以及空间一致性学习缓解VFM过分割,在ScanNet200上超越ESAM 2.8 AP并保持实时性。

OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects

提出 OnlineSplatter,一个无需相机位姿、深度先验或全局优化的前馈式在线3D重建框架,通过双键记忆模块(外观-几何潜在键 + 方向键)实现自由移动物体的恒定时间增量重建。

OpenLex3D: A Tiered Evaluation Benchmark for Open-Vocabulary 3D Scene Representations

提出 OpenLex3D,一个面向开放词汇 3D 场景表示的分层评测基准,在 Replica、ScanNet++、HM3D 三个数据集上提供 13 倍于原始标注的丰富语言标签,支持开放集 3D 语义分割和目标检索两项任务评测。

Orientation-anchored Hyper-Gaussian for 4D Reconstruction from Casual Videos

提出 OriGS (Orientation-anchored Gaussian Splatting),通过全局方向场引导和方向感知超维高斯表示,实现从随手拍摄的单目视频中进行高质量4D动态场景重建。

Orientation Matters: Making 3D Generative Models Orientation-Aligned

提出朝向对齐3D物体生成任务,构建了跨1008个类别14832个朝向对齐3D模型的Objaverse-OA数据集,通过微调Trellis和Wonder3D两种主流3D生成框架实现朝向对齐的物体生成,并展示零样本朝向估计和箭头旋转操控两个下游应用。

PhysX-3D: Physical-Grounded 3D Asset Generation

PhysX提出了首个端到端的物理属性驱动3D资产生成范式,包括PhysXNet(首个系统标注了绝对尺度、材料、功能可供性、运动学和功能描述五个维度的物理3D数据集,含26K+对象)和PhysXGen(双分支前馈生成框架,将物理知识注入预训练的3D结构空间中)。

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

提出Pixel-Perfect Depth——在像素空间(而非潜空间)直接做扩散生成的单目深度估计模型,通过语义提示DiT(SP-DiT)引入视觉基础模型的高层语义表示和级联DiT设计,生成无飞点(flying-pixel-free)的深度图,在五个benchmark上超越所有已发表的生成式模型。

Plana3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting

提出Plana3R,一个无需位姿和平面标注的前馈框架,从未配对的双视角图像中预测稀疏3D平面基元和度量尺度相对位姿,实现室内场景的零样本度量平面3D重建。

PlanarGS: High-Fidelity Indoor 3D Gaussian Splatting Guided by Vision-Language Planar Priors

利用视觉语言基础模型(GroundedSAM)检测平面区域,结合DUSt3R多视图深度先验,通过共面约束和几何先验监督优化3DGS,实现室内场景的高保真表面重建。

PointMAC: Meta-Learned Adaptation for Robust Test-Time Point Cloud Completion

提出 PointMAC,首个将元辅助学习和测试时适应(TTA)引入点云补全的框架:通过 Bi-Aux Units(随机掩码重建+噪声去除)提供自监督信号,MAML 对齐辅助目标与主任务,推理时仅更新共享编码器实现样本级精化,在合成/模拟/真实数据上达到 SOTA。

Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting

本文揭示了稀疏视角 3D Gaussian Splatting 中外观伪影的核心成因——高斯体之间的协同适应(co-adaptation)现象,提出了 Co-Adaptation Score(CA)度量指标来量化这一纠缠程度,并设计了 Gaussian Dropout 和不透明度乘性噪声注入两种即插即用的正则化策略,在五种基线方法和三个数据集上均显著降低了 co-adaptation 并提升了新视角渲染质量。

Reconstruct, Inpaint, Test-Time Finetune: Dynamic Novel-View Synthesis from Monocular Videos

提出 CogNVS,将动态场景新视角合成分解为三阶段管线——3D 重建(获取可见像素)→ 视频扩散修复(生成遮挡区域)→ 测试时微调(适应目标视频的分布),用纯 2D 视频自监督训练修复模型,实现零样本泛化到新测试视频。

Reconstructing the Local Density Field with Combined Convolutional and Point Cloud Architecture

提出一种混合卷积(U-Net)与点云(DeepSets)的神经网络架构,用于从暗物质晕的视线方向特异速度重建局部暗物质密度场,在小尺度上显著优于纯卷积和线性重建方法。

Rectified Point Flow: Generic Point Cloud Pose Estimation

提出 Rectified Point Flow,一种统一的生成式框架,将成对点云配准和多部件形状组装统一为条件生成问题,通过学习连续点级速度场来估计部件位姿。

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

ROS-Cam 提出仅用单个RGB视频作为监督的动态场景相机参数(焦距+位姿)优化方法,通过Patch-wise跟踪过滤器建立稀疏鲁棒对应关系、Cauchy分布异常值感知联合优化自适应降权运动物体、以及基于Softplus/凸极小分析的两阶段优化策略,在5个数据集上以最少监督实现最优精度和最快速度。

RigAnyFace: Scaling Neural Facial Mesh Auto-Rigging with Unlabeled Data

提出RigAnyFace(RAF),一个可扩展的面部网格自动绑定框架,通过2D监督策略利用无标注中性网格扩大训练规模,实现对多种拓扑和断连组件(如眼球)的高质量FACS混合形状绑定。

Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

AsymGS利用一个关键观察——野外训练数据引起的重建伪影具有随机性——提出非对称双3DGS框架,通过互补掩码策略和一致性约束抑制伪影,并引入Dynamic EMA Proxy实现高效训练,在多个野外数据集上显著超越现有方法。

ROGR: Relightable 3D Objects using Generative Relighting

本文提出ROGR,利用多视角扩散重光照模型生成多光照条件下的一致图像,训练一个光照条件化的NeRF,实现任意环境光照下的前馈式3D物体重光照,在TensoIR和Stanford-ORB基准上达到SOTA性能且支持交互式渲染。

Scaffold Diffusion: Sparse Multi-Category Voxel Structure Generation with Discrete Diffusion

提出Scaffold Diffusion,将稀疏多类别3D体素视为token序列,使用Masked Diffusion Language Model(MDLM)配合3D正弦位置编码,在条件占用图上生成空间连贯的多类别体素结构,在极端稀疏(>98%背景)的Minecraft房屋数据集上显著优于自回归和传统离散扩散baseline。

Scalable Diffusion Transformer for Conditional 4D fMRI Synthesis

提出首个用于体素级全脑4D fMRI条件生成的扩散Transformer,结合3D VQ-GAN潜空间压缩、CNN-Transformer混合骨干网络和AdaLN-Zero+交叉注意力的强条件注入,在HCP七种认知任务上实现任务激活图相关0.83、RSA达0.98和完美条件特异性。

SceneForge: Enhancing 3D-text alignment with Structured Scene Compositions

提出SceneForge框架,通过将单个3D点云对象组合成带显式空间关系的多物体场景,配合LLM精炼的组合描述,增强3D-文本对比学习的数据多样性和复杂度,在多个下游任务上带来一致性能提升。

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

提出SceneWeaver,首个用于3D场景合成的反思型智能体框架,通过标准化可扩展的工具接口统一多种场景生成范式,并利用reason-act-reflect闭环迭代优化,在物理合理性、视觉真实感和语义对齐上全面超越现有方法。

Segment then Splat: Unified 3D Open-Vocabulary Segmentation via Gaussian Splatting

提出"先分割再重建"的新范式,在3D高斯溅射重建之前就将高斯分配到不同目标集合,从而消除几何和语义歧义,实现静态和动态场景的统一3D开放词汇分割。

Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis

提出 Shallow Flow Matching(SFM),在粗到细 TTS 框架中利用弱生成器输出构建 flow matching 中间状态,使推理从中间状态而非纯噪声出发,同时提升合成质量和加速推理。

SingRef6D: Monocular Novel Object Pose Estimation with a Single RGB Reference

提出SingRef6D,一个仅需单张RGB参考图像的轻量级6D位姿估计流水线,通过token-scaler微调Depth-Anything v2实现鲁棒深度预测,并引入深度感知匹配增强LoFTR的空间推理能力,在透明/反光物体场景中大幅超越现有方法。

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

提出"语义朝向"(Semantic Orientation)概念,用自然语言描述物体方向(如 USB 的"插入方向"、杯子的"把手方向"),构建 OrienText300K 大规模数据集训练 PointSO 模型实现零样本朝向预测,并集成为 SoFar 系统实现 6-DoF 场景理解与机器人操作。

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

提出Styl3R前馈网络,通过结构-外观双分支架构将3D重建与风格化解耦,仅用未标定的稀疏视角图像和任意风格图像,在0.15秒内完成风格化3D重建。

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-View Human Reconstruction

SyncHuman首次将2D多视图生成模型与3D原生生成模型统一在一个框架中,通过像素对齐的2D-3D同步注意力机制实现互补增强,在复杂人体姿态下实现了高保真纹理网格重建,几何精度和视觉质量均超越现有方法。

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

提出TAPIP3D,将视频表示为相机稳定化的时空3D特征点云,通过3D邻域到邻域(N2N)注意力机制在持久3D几何空间中迭代精化多帧点轨迹,显著超越现有3D点跟踪方法。

Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting

提出首个端到端率失真(RD)优化的 4D 高斯泼溅压缩框架,通过 Haar 小波变换利用动态点轨迹的时序平滑先验,在 Ex4DGS 基础上实现高达 91× 的压缩率(平均模型仅约原始 1.1%),同时保持合理的渲染质量和灵活的率-质量权衡控制。

Towards 3D Objectness Learning in an Open World

提出 OP3Det,一个无需文本提示的类无关开放世界 3D 检测器,通过 2D 基础模型进行 3D 物体发现,并设计跨模态混合专家(MoE)动态融合点云与图像特征,大幅提升新类别物体的召回率。

TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making

提出任务偏好多需求驱动导航(TP-MDDN)基准和AWMSystem自主决策系统,通过指令分解、动态目标选择和任务状态监控三个LLM模块配合多维度累积语义地图,实现长程多子任务导航。

TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming

提出TRIM(Trajectory Reduction and Instance Mask denoising),一种后训练框架,通过时间维度的轨迹预筛选和空间维度的背景token裁剪来加速3D高斯扩散模型推理,同时提升生成质量,在T3Bench文本生成3D和GSO图像生成3D任务上均优于DiffSplat等基线。

U-CAN: Unsupervised Point Cloud Denoising with Consistency-Aware Noise2Noise Matching

提出 U-CAN 无监督点云去噪框架,通过 Noise2Noise 匹配方案和几何一致性约束实现多步去噪路径推断,性能逼近有监督方法,且一致性约束可泛化到 2D 图像去噪。

UGM2N: An Unsupervised and Generalizable Mesh Movement Network via M-Uniform Loss

提出 UGM2N 无监督网格移动网络,通过局部化 Node Patch 表示和 M-Uniform 损失函数实现无监督训练,在无需预适应网格数据的条件下实现跨 PDE 类型和跨网格几何的零样本泛化,且不产生网格缠绕。

UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis

提出 UMAMI,一个统一掩码自回归模型(MAR)和确定性渲染的混合框架用于稀疏视角新视角合成:双向 Transformer 编码多视角图像 Token 和 Plücker 射线嵌入,两个轻量级 MLP 头分别处理可见区域(确定性回归)和遮挡区域(MAR 扩散生成),渲染速度比全生成基线快一个数量级。

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model

提出URDF-Anything,首个基于3D多模态大语言模型(MLLM)的端到端关节物体重建框架,通过[SEG] token机制实现几何分割与运动学参数的联合预测,在分割精度(mIoU提升17%)、参数误差(降低29%)和物理可执行性(超越基线50%)上均达到SOTA。

VA-GS: Enhancing the Geometric Representation of Gaussian Splatting via View Alignment

通过引入边缘感知图像监督、可见性感知的多视图光度对齐、法线约束和深度图像特征对齐四种视图对齐(View Alignment)策略,显著提升3D高斯溅射的几何表示精度,在表面重建和新视图合成上取得SOTA。

VisualSync: Multi-Camera Synchronization via Cross-View Object Motion

VisualSync提出了一个基于对极几何约束的多相机时间同步框架,利用预训练视觉模型(VGGT、CoTracker3、MAST3R)提取运动轨迹和跨视角对应关系,通过最小化Sampson误差来估计各相机的时间偏移,在四个数据集上达到了中位误差低于50ms的毫秒级同步精度。

Walking the Schrödinger Bridge: A Direct Trajectory for Text-to-3D Generation

从理论上证明SDS是Schrödinger Bridge的特例,并基于此提出TraCe框架——在当前渲染和文本条件目标之间构建显式扩散桥,通过LoRA微调学习桥轨迹的score dynamics,在低CFG值下实现高质量text-to-3D生成。

WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild

提出WildCAT3D,通过显式建模图像的全局外观条件,扩展多视角扩散模型(CAT3D)从野外互联网数据(如旅游照片)中学习场景级新视角合成,同时支持外观控制生成。

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

从信息瓶颈(Information Bottleneck)原理出发分析前馈式3DGS的容量瓶颈,提出轻量级、与架构无关的ZPressor模块,通过将多视角输入压缩为紧凑的锚点视角表示,使现有模型能扩展到100+输入视角(480P,80GB GPU),在DL3DV-10K和RealEstate10K上持续提升性能。


🔬 可解释性

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

发现并系统研究了 SAE 中的"特征吸收"现象:看似单义的 SAE latent 会在特定 token 上不激活,其特征方向被更具体的子 latent "吸收",这是层级特征+稀疏性损失的必然结果,对 SAE 用于可靠解释 LLM 构成根本挑战。

A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis

提出一个完全零样本、无需训练的视频异常分析框架,通过Intra-Task Reasoning(置信度门控的自我精化)和Inter-Task Chaining(从时序检测到空间定位到语义理解的级联prompt传递),在4个benchmark上全面超越先前零样本方法4-6% AUC。

AdaptGrad: Adaptive Sampling to Reduce Noise

AdaptGrad通过分析SmoothGrad噪声的理论来源——超范围采样行为,提出自适应调整每个输入维度的高斯采样方差以控制额外噪声上限的方法,在几乎消除梯度噪声的同时揭示更丰富的细节特征,方法极简且可与任意梯度解释方法组合。

Additive Models Explained: A Computational Complexity Approach

对广义可加模型(GAM)的多种解释类型进行系统的计算复杂度分析,覆盖 54 种"组件模型 × 输入域 × 解释方法"组合,揭示 GAM 的解释复杂度高度依赖输入域类型——这是决策树、神经网络等其他 ML 模型从未展现的独特现象,挑战了"可加即可解释"的直觉假设。

AgentiQL: An Agent-Inspired Multi-Expert Framework for Text-to-SQL Generation

提出 AgentiQL,一个多专家 agent 框架用于 Text-to-SQL:reasoning agent 分解问题为子问题,coding agent 生成子查询,refinement 步骤校正列选择,adaptive router 在基线解析器和模块化 pipeline 之间智能路由,使用 14B 开源模型达到 86.07% EX(Spider),接近 GPT-4 SOTA(89.65%)。

An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating the Impact of Noisy Annotations

本文首次系统研究了标注噪声对概念瓶颈模型(CBM)的影响,发现约23%的"易感概念"驱动了大部分性能退化,并提出训练阶段使用SAM + 推理阶段基于不确定性干预的两阶段缓解策略来恢复模型鲁棒性。

Are Greedy Task Orderings Better Than Random in Continual Linear Regression?

本文系统分析了持续线性回归中贪心任务排序(最大化连续任务间不相似度)与随机排序的收敛性差异,揭示了贪心排序在高秩设定下可媲美随机排序,但在一般秩设定下单遍贪心可能灾难性失败,而允许重复的贪心排序收敛速率为 \(\mathcal{O}(1/\sqrt[3]{k})\)

ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation

ARECHO 将语音多指标评估建模为链式自回归 token 预测任务——设计统一的语音信息 token 化管线处理 87 个异质指标(数值/类别/有界/无界),通过动态分类链显式捕捉指标间依赖关系(如可懂度-自然度相关性),配合两步置信度导向解码减少误差传播,在增强/生成/噪声三类语音评估中全面超越 UniVERSA 基线(Avg Test MSE 23.26 vs 96.99,-76%)。

ARC-JSD: Attributing Response to Context via Jensen-Shannon Divergence Driven Mechanistic Study

ARC-JSD 提出基于 Jensen-Shannon 散度的 RAG 上下文归因方法——通过比较有/无特定上下文句子时模型输出分布的 JSD 差异,无需微调/梯度计算即可定位回答所依赖的上下文,计算效率比 baseline 快 3 倍,Top-1 归因准确率平均提升 10.7%,并通过 Logit Lens 揭示归因相关的注意力头集中在高层。

Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models

系统性审计推理大模型(RLLM)中幻觉的产生与传播机制,发现长 CoT 中的反思(reflection)会通过元认知偏差放大幻觉而非纠正它,即使在幻觉源头进行干预也难以改变最终结果(chain disloyalty),揭示现有幻觉检测方法在多步推理场景下严重不足。

Base Models Know How to Reason, Thinking Models Learn When

通过无监督 SAE 聚类发现 thinking model 的推理机制分类,然后用 steering vector 在基座模型上激活这些潜在推理能力,混合模型恢复高达 91% 的 thinking-base 性能差距(无需权重更新),证明基座模型已具备推理能力,thinking model 只是学会了"何时"部署它们。

Better Estimation of the Kullback-Leibler Divergence Between Language Models

提出 KL 散度的 Rao-Blackwell 化 Monte Carlo 估计器——在每个位置对下一个 token 的分布求精确 KL(而非只用采样的 token),理论证明无偏且方差严格不超过标准 MC 估计器,零额外计算开销,在 RLHF 情感控制任务中使训练更稳定、模型更频繁出现在 Pareto 前沿(78%)。

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

提出 SPARKLE 三轴分析框架(计划执行、知识整合、子问题分解)细粒度剖析 RL 如何改变 LLM 推理行为,发现 RL 主要增强了知识整合能力和计划灵活性而非计划执行能力,并提出 SparkleRL-PSS 多阶段 RL 训练 pipeline 通过 partial step scaffolding 有效利用难题数据。

Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits

提出基于SVD奇异向量的方向级可解释性框架,通过对注意力头和MLP的增广矩阵统一SVD分解+可学习对角掩码(KL+L₁),发现单组件内存在正交低秩子函数叠加——IOI任务仅需~9%方向即可KLD=0.21复现模型行为。

Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT

将LLM的全部隐层激活组织为"激活张量"(层×token×隐维度),类比图像用ViT处理,设计ACT-ViT架构支持跨LLM联合训练,在15个LLM-数据集组合上一致超越传统probing方法,并展现出对未见数据集和未见LLM的强零样本/少样本迁移能力。

Bigram Subnetworks: Mapping to Next Tokens in Transformer Language Models

通过连续稀疏化在Transformer语言模型中找到仅包含~10M参数的bigram子网络,它们集中在第一个MLP层,足以复现bigram预测(\(r>0.95\)),且被消融后模型性能大幅下降,证明这些子网络是语言模型中既必要又充分的最小next-token预测电路。

Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers

提出 Causal Head Gating (CHG),通过对 Transformer 的每个 attention head 学习一个可微门控系数并结合正/负正则化,将 head 分为促进(facilitating)、干扰(interfering)、无关(irrelevant)三类,无需人工标签或 prompt 模板即可发现因果子电路,并扩展为对比 CHG 以分离 ICL 和指令遵循的独立电路。

CBMAS: Cognitive Behavioral Modeling via Activation Steering

CBMAS提出一个将激活引导作为连续诊断工具的框架,通过密集α扫描和注入-读取层解耦,将认知偏差分析从"有偏差/无偏差"的二元判断升级为可追踪翻转点、传播路径和衰减模式的连续轨迹分析,在GPT-2 Small上揭示了安抚行为在浅层强烈编码但向深层快速衰减的规律。

CHiQPM: Calibrated Hierarchical Interpretable Image Classification

CHiQPM 提出一种校准的层次化可解释图像分类方法,通过二次规划选择和分配特征给类别,构建层次化解释路径,并内置可解释的 Conformal Prediction 集合预测,在保持黑盒模型 99% 准确率的同时提供全局和局部可解释性。

Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning

提出CogQA基准数据集和多类probing框架,系统分析LLM中注意力头的认知功能特化现象,发现认知头具有稀疏性、普遍性和层级化功能组织特征,去除认知头显著降低推理性能,增强则提升准确率。

Conditional Distribution Compression via the Kernel Conditional Mean Embedding

首次提出针对条件分布(而非联合分布)的压缩算法,利用核条件均值嵌入(KCME)定义新度量 AMCMD,并设计线性时间算法 ACKIP 构建保留条件分布统计特性的压缩数据集。

Curvature Tuning: Provable Training-free Model Steering From a Single Parameter

提出 Curvature Tuning(CT),通过在激活函数中注入单个超参数 \(\beta\) 来可证明地调节模型决策边界的曲率,无需修改权重即可提升泛化和鲁棒性,同时作为微调方法参数量远少于 LoRA rank 1。

Dataset Distillation for Pre-Trained Self-Supervised Vision Models

提出 Linear Gradient Matching 方法,为预训练自监督视觉模型蒸馏合成数据集:每类仅需一张合成图就能训练出接近全数据集表现的线性分类器,且蒸馏图像可跨模型架构迁移。

Deep Modularity Networks with Diversity-Preserving Regularization

在 Deep Modularity Networks (DMoN) 基础上引入三项多样性保持正则化(距离、方差、熵),显式促进特征空间中的簇间分离和分配多样性,在特征丰富的图数据集上显著提升聚类质量。

Deep Value Benchmark: Measuring Whether Models Generalize Deep Values or Shallow Preferences

提出 Deep Value Benchmark (DVB),通过"先混淆后解混淆"的实验设计,测量 LLM 是学习了深层人类价值观还是仅记住了表层偏好模式,发现所有模型的深层价值泛化率 (DVGR) 仅为 0.30,远低于随机水平。

Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework

提出混合归因与剪枝框架 HAP,先用快速的边归因修补(EAP)筛选高潜力子图,再在缩小后的搜索空间上运行精确的边剪枝(EP),在 GPT-2 Small 的 IOI 任务上比纯 EP 快 46% 且保持相当的电路忠实度,同时成功保留了 EAP 单独使用时会遗漏的 S-inhibition 头。

Distributional Autoencoders Know the Score

本文为 Distributional Principal Autoencoder (DPA) 提供了精确的理论保证:证明了最优编码器的等值面几何与数据分布的 score 函数之间的闭合形式关系,并证明了超出流形维度的潜在分量与数据条件独立,从而统一了分布学习与内在维度发现两个长期目标。

Do Different Prompting Methods Yield a Common Task Representation?

通过将函数向量(Function Vectors)方法从 few-shot 示例推广到文本指令,发现不同提示方式(demonstrations vs. instructions)并不会在 LLM 中诱导出统一的任务表征,而是激活部分重叠但主要不同的注意力头机制。

Dynamic Algorithm for Explainable k-medians Clustering under lp Norm

本文提出首个适用于一般 \(\ell_p\) 范数的可解释 k-medians 聚类算法,实现 \(\tilde{O}(p(\log k)^{1+1/p-1/p^2})\) 近似比(改进了 p=2 的已知最优界),并给出首个动态版本:在中心集合的插入/删除下,以 \(O(d \log^3 k)\) 摊还更新时间和 \(O(\log k)\) 重分配次数维护可解释聚类。

Dynamic Features Adaptation in Networking: Toward Flexible Training and Explainable Inference

提出 DAFI(Drift-Aware Feature Importance)算法,利用分布漂移检测动态切换 SHAP/MDI 两种特征重要性方法,结合自适应随机森林(ARF)实现通信网络场景下特征动态增加时的灵活训练与高效可解释推理。

Efficient Vision-Language Reasoning via Adaptive Token Pruning

提出 Adaptive Token Pruning (ATP),一种免训练的即插即用模块,通过融合 ViT CLS 注意力(模态内显著性)和 CLIP 文本-图像相似度(模态间相关性)来筛选最有信息量的视觉 token,在 VQA/GQA/COCO Captioning 上以约 40% FLOPs 降低和 1.5 倍加速换取不到 1% 的精度损失。

Emergence of Linear Truth Encodings in Language Models

提出 Truth Co-occurrence Hypothesis (TCH)——真实陈述倾向于与其他真实陈述共现——并通过一个最简单的单层 Transformer 玩具模型,端到端地展示了线性真值子空间如何通过两阶段训练动态(先记忆 → 后编码真值)自然涌现,为理解 LLM 中广泛报告的线性真值表示提供了首个机制性解释。

Empowering Decision Trees via Shape Function Branching

提出 Shape Generalized Tree (SGT),在决策树每个内部节点使用可学习的轴对齐形状函数替代传统线性阈值分裂,以更紧凑的树结构捕捉非线性特征效应,同时保持可解释性。

Encoding and Understanding Astrophysical Information in Large Language Model-Generated Summaries

探究LLM嵌入是否能编码从X射线天文观测导出的物理量(硬度比、幂律指数、变异性),发现结构化prompt设计可将物理属性聚类纯度提升5.9%-57.5%,稀疏自编码器揭示LLM通过识别天体类型来推断未显式给出的物理参数。

Evaluating LLMs in Open-Source Games

通过开源游戏(智能体提交程序而非原始行动)这一新范式,系统评估 LLM 在战略推理、互相学习和合作博弈中的能力,发现 LLM 可自动发现近似程序平衡。

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions

FIxLIP 提出基于加权 Banzhaf 交互指数的博弈论框架,统一分解视觉-语言编码器(如 CLIP、SigLIP-2)的相似度预测为一阶token归因和二阶跨模态/模态内交互,在效率和忠实度上均超越现有一阶归因方法。

FaCT: Faithful Concept Traces for Explaining Neural Network Decisions

提出 FaCT,一种结合 B-cos 变换和稀疏自编码器 (SAE) 的内在可解释模型,能够忠实地将模型预测分解为概念贡献(Logit = \(\sum\) 概念贡献),并将每个概念忠实地可视化到输入像素级别(概念激活 = \(\sum\) 像素贡献),同时提出基于 DINOv2 的 C²-score 用于评估概念一致性。

Fantastic Features and Where to Find Them: A Probing Method to Combine Features from Multiple Foundation Models

提出 ComBo,一种基于 probing 的轻量级 adapter,通过仿射投影压缩多个冻结基础模型多层激活,再用小型 transformer 融合,无需反向传播即可高效整合多模型互补表征,在 VTAB-1k 上超越先前 probing 方法并匹配蒸馏方法。

Far from the Shallow: Brain-Predictive Reasoning Embedding through Residual Disentanglement

提出残差解纠缠方法,将 LLM 隐藏状态分离为词汇、句法、语义、推理四个近正交嵌入,用于预测颅内 ECoG 脑信号,发现推理信号在时间上(~350-400ms)和空间上(超越经典语言区扩展至视觉皮层)均具有独立的神经特征,揭示了 LLM 与人脑间的推理计算对齐。

FastDINOv2: Frequency Based Curriculum Learning Improves Robustness and Training Speed

提出 FastDINOv2,一种两阶段频率课程学习策略:先用低分辨率图像训练 75% epochs 学习低频特征以加速收敛,再用全分辨率+高斯噪声 patching 训练 25% epochs 平衡频率偏置,实现 1.6× 加速、2.25× FLOPs 节省,同时增强鲁棒性。

From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit

提出 MP-SAE,将经典 Matching Pursuit 算法展开为 SAE 的序列化编码器,通过残差引导的贪心特征选择实现条件正交性,能捕捉标准 SAE 无法发现的层次结构、非线性可及和跨模态特征,并天然支持推理时自适应稀疏度调节。

Geometric Priors for Generalizable World Models via Vector Symbolic Architecture

提出将 Vector Symbolic Architecture (VSA) 中的 Fourier Holographic Reduced Representation (FHRR) 作为几何先验引入世界模型,通过 element-wise 复数乘法建模状态转移,在离散 GridWorld 上实现 87.5% 的 zero-shot 泛化准确率和 4 倍于 MLP 的噪声鲁棒性。

H-SPLID: HSIC-based Saliency Preserving Latent Information Decomposition

提出 H-SPLID,通过将隐空间显式分解为显著(任务相关)非显著(任务无关)两个子空间,结合 HSIC 正则化实现信息压缩,证明预测偏差上界受显著子空间维度和 HSIC 控制,在无对抗训练条件下显著提升对非显著区域扰动的鲁棒性。

How Do Transformers Learn Implicit Reasoning?

在精细控制的符号环境中从零训练 Transformer,发现多跳隐式推理经历"记忆→分布内泛化→跨分布泛化"三个阶段,核心机制不是中间实体的可解码性,而是其在余弦空间中的聚类一致性——同一中间实体的表示在不同查询中形成紧密聚类时,推理能力才涌现。

Improving Perturbation-based Explanations by Understanding the Role of Uncertainty Calibration

揭示了不确定性校准(模型置信度与实际准确率的对齐)与扰动式可解释性方法质量之间的根本联系,证明模型在扰动输入下的误校准直接损害全局和局部解释质量,并提出 ReCalX 通过扰动级别自适应温度缩放显著改善解释的鲁棒性和保真度。

Interpretable Next-token Prediction via the Generalized Induction Head

提出 Induction-Gram (GIM),一种结合精确n-gram匹配与模糊匹配的可解释语言模型,通过构建"广义归纳头"在输入上下文中检索相似序列进行下一token预测,比可解释基线提升最高25%p准确率,并在fMRI脑响应预测中提升20%。

Knowing When to Stop: Efficient Context Processing via Latent Sufficiency Signals

本文提出 dynamic context cutoff,通过探测 Transformer 特定注意力头中编码的"信息充分性信号",训练轻量分类器判断模型何时已获取足够上下文,实现提前终止处理,在6个QA数据集上平均提高3.4%准确率同时减少1.33×token消耗。

Latent Principle Discovery for Language Model Self-Improvement

STaPLe 提出后验正则化的蒙特卡洛 EM 算法,让 7-8B 小模型自行发现指导自我修正的"原则"(latent principle),通过迭代发现-学习循环实现自我改进,在 AlpacaEval 上提升 8-10% 胜率、MT-Bench 平均提升 +0.3,并可通过聚类压缩至可解释的 constitution。

Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning

提出Learning to Focus (LeaF)框架,通过梯度引导识别训练数据中的"混淆token"(confounding tokens),在知识蒸馏过程中剪枝这些token以构建反事实样本,使学生模型的注意力对齐到教师模型关注的关键上下文token上,从而提升数学推理和代码生成的准确性。

LLM Probing with Contrastive Eigenproblems: Improving Understanding and Applicability of CCS

本文对无监督探测方法 CCS(Contrast-Consistent Search)进行了深入分析,提出将 CCS 重新表述为特征值问题(Contrastive Eigenproblems),获得闭式解和可解释的特征值,避免了 CCS 对随机初始化的敏感性,并自然扩展到多变量设置。

Minimizing False-Positive Attributions in Explanations of Non-Linear Models

针对非线性模型的XAI解释中抑制变量(suppressor variable)导致的假阳性归因问题,提出PatternLocal方法,将局部判别式代理模型权重转换为生成式表示,在XAI-TRIS基准、MRI人工病灶和EEG运动想象三个数据集上显著减少了假阳性特征归因。

Monte Carlo Expected Threat (MOCET) Scoring

提出 MOCET(Monte Carlo Expected Threat)评分框架,通过将 LLM 生成的生物武器制造协议分解为逐步 Bernoulli 试验,结合 k-NN 语义嵌入的成功概率估计和蒙特卡洛模拟,生成可解释的、可自动化的威胁量化指标,用于衡量 LLM 在生物安全领域的真实世界风险。

MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition

提出 MoPFormer,将可穿戴传感器信号分解为运动原语(motion primitives)序列,通过 Transformer 建模原语间的时序依赖关系,在多个 HAR 基准上超越 SOTA 并保持轻量化。

nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers

开发 nnterp 库,作为 NNsight 的轻量封装层,通过系统化的模块重命名和自动验证测试,为 21 个架构族 50+ 个 Transformer 模型变体提供统一的内部激活访问接口,内置 logit lens、patchscope、activation steering 等常用可解释性方法,解决了 TransformerLens 的正确性问题和 NNsight 的标准化问题之间的根本性权衡。

OrdShap: Feature Position Importance for Sequential Black-Box Models

提出 OrdShap,一种针对序列模型的特征归因方法,首次将特征的值重要性(Value Importance, VI)位置重要性(Position Importance, PI)解耦,基于 Sanchez-Bergantiños 博弈论值提供理论保证。

Out of Control -- Why Alignment Needs Formal Control Theory (and an Alignment Control Stack)

本文是一篇 position paper,主张将形式化最优控制理论作为 AI 对齐研究的核心工具,并提出"对齐控制栈"(Alignment Control Stack, ACS)——一个从物理硬件层到社会治理层的十层分层框架,用于系统地组织和分析不同对齐方法的测量、控制与互操作性。

Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions

提出两个互补工具:Thin-PID 是一种高效高斯 PID 算法(比已有方法快 10×),Flow-PID 用 normalizing flow 将任意输入分布转换为高斯再计算 PID,解决了 PID 在连续高维数据上不可行的问题,并证明了"联合高斯解是否最优"这一开放问题。

Probabilistic Token Alignment for Large Language Model Fusion

将 LLM 融合中的 token 对齐问题重新建模为最优传输(Optimal Transport)问题,用动态 token 配对 + Sinkhorn 算法实现"软"概率对齐取代传统硬映射,在 6 大基准 78 个任务上相比 FuseLLM 平均提升 +1.72%,同时在困难任务上大幅缓解性能退化(从 -13.04% 降至 -4.07%)。

Rectifying Shortcut Behaviors in Preference-based Reward Learning

提出 PRISM(Preference-based Reward Invariance for Shortcut Mitigation),将 reward hacking 统一建模为 shortcut learning 问题,通过群不变核(group-invariant kernels)和随机特征映射近似来同时缓解多种 spurious correlation(冗长性、谄媚、语气等),在 out-of-distribution 偏好数据和下游策略模型上一致提升表现。

Saying the Unsaid: Revealing the Hidden Language of Multimodal Systems Through Telephone Games

通过多轮"电话游戏"(图像→文本→图像循环)利用多模态系统的偏好偏差,量化系统隐含空间中概念间的连接强度(即"隐含语言"),贡献Telescope数据集(10,000+概念对),建立可在测试时扩展的多模态系统"世界地图"。

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

提出 scPilot 框架和 scBench 基准,让LLM直接在单细胞RNA-seq数据上进行"组学原生推理"(读取标记基因→提出假设→调用工具验证→迭代修正),实现细胞类型标注准确率提升11%、轨迹推断graph-edit distance降低30%。

Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning

从理论上证明自监督对比学习(DCL)近似等价于一种有监督对比损失(NSCL),两者差距以 \(O(1/C)\) 速度随类别数增加而消失;进一步证明 NSCL 全局最优解满足 Neural Collapse(增强坍缩 + 类内坍缩 + Simplex ETF),并提出基于方向性 CDNV 的更紧的 few-shot 误差界。

SHAP Values via Sparse Fourier Representation

提出 FourierShap 算法,先将黑盒预测器近似为稀疏 Fourier 表示,再利用 Fourier 基函数的 SHAP 值闭式公式高效计算特征归因,实现相比 KernelShap 10-10000 倍的加速,同时支持精度-效率的可调权衡。

Simulating Society Requires Simulating Thought

本文提出从"行为主义"模式转向"认知建模"范式,通过 GenMinds 框架用因果信念图建模 LLM Agent 的内部推理过程,并设计 RECAP 基准从可追溯性、人口统计敏感性和干预一致性三维度评估推理保真度。

Sloth: Scaling Laws for LLM Skills to Predict Multi-Benchmark Performance Across Families

提出Skills Scaling Laws (Sloth),通过假设LLM性能由低维潜在技能(如推理、指令遵循)驱动,利用benchmark间的相关性构建跨模型家族的缩放定律,用少量家族数据即可预测大模型在多个benchmark上的表现。

SpEx: A Spectral Approach to Explainable Clustering

提出SpEx,基于谱图划分的通用可解释聚类方法,可将任意参考聚类(无需质心)通过坐标切割决策树"圆化"为可解释聚类,或直接在kNN图上进行无参考聚类。

Steering Information Utility in Key-Value Memory for Language Model Post-Training

提出 InfoSteer,一种轻量级方法,将 Transformer 的 FFN 层视为关联键值记忆,通过前向传播干预(提升低活跃记忆向量的 key coefficient)和反向传播正则化(最大化 key 分布熵)来促进预训练知识在后训练阶段的充分利用。在 Qwen/LLaMA/Gemma 三个系列 6 个模型上,15 个 ID+OOD 任务一致提升,且被引导的 LM 展现出自适应信息分配行为。

SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

提出 SynBrain 框架,通过 BrainVAE 将 fMRI 响应建模为视觉语义条件的概率分布,并用 S2N Mapper 实现一步式语义到神经空间的映射,在视觉-fMRI 合成任务上显著超越 MindSimulator(MSE 降低 65%,Pearson 提升 96%),且合成的 fMRI 可有效增强少样本跨被试解码性能。

Table as a Modality for Large Language Models

提出 TaMo 框架,将表格作为独立模态通过超图神经网络编码其结构信息,与 LLM 的文本模态融合,在多个表格推理基准上相比纯文本方法平均提升 42.65%,且在结构鲁棒性上接近 GPT-4。

TangledFeatures: Robust Feature Selection in Highly Correlated Spaces

提出 TangledFeatures,一个以特征稳定性为核心目标的选择框架,通过相关性图聚类→集成代表选择→随机森林精炼的三阶段管线,在高度相关的特征空间中实现跨重采样高度可复现且与领域知识一致的特征子集,在丙氨酸二肽骨架扭转角预测中验证有效。

The Non-Linear Representation Dilemma: Is Causal Abstraction Enough for Mechanistic Interpretability?

证明了当因果抽象(causal abstraction)中的对齐映射不受线性约束时,任意神经网络都可以被映射到任意算法,使得因果抽象变得平凡而无信息量,由此提出"非线性表示困境"——在对齐映射的复杂度与准确度之间缺乏原则性的权衡方式。

The Trilemma of Truth in Large Language Models

提出 sAwMIL(稀疏感知多实例学习)三类探测框架,结合 MIL 和保形预测,将 LLM 内部激活分类为 true/false/neither,揭示真假信号并非简单的双向对称编码,而是跨越多维子空间的分布式表征。

Time-Evolving Dynamical System for Learning Latent Representations of Mouse Visual Cortex

提出TE-ViDS,一种时序潜变量模型,将视觉神经活动分解为与视觉刺激相关的外部表征和反映内部状态的内部表征,通过时间演化结构和对比学习实现最优的自然场景/视频解码性能。

How Intrinsic Motivation Shapes Learned Representations in Decision Transformers: A Cognitive Interpretability Analysis

提出一个系统性的事后可解释性框架,分析内在动机(基于Random Network Distillation)如何塑造Elastic Decision Transformer的嵌入空间几何结构,揭示不同内在动机变体创造了根本不同的表示结构——EDT-SIL促进紧凑表示,EDT-TIL增强正交性——且嵌入属性与任务性能存在强烈的环境特异性相关。

Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis

提出基于傅里叶级数的篡改合成框架 FSTS,通过从67名人类参与者收集的16750个真实篡改实例中建模"不可见分布"(篡改操作参数的高维分布),生成更贴近真实世界的合成训练数据,显著提升文本图像篡改定位模型的泛化能力。

Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders

提出 Mixture of Decoders (MxD),将 LLM 的 MLP 层分解为数万个稀疏激活的专家子层(layer-level sparsity),每个专家通过 Hadamard 乘积张量分解实现满秩线性变换,在稀疏性-准确性权衡上显著优于 Transcoders,同时保持可解释性。

Towards Scaling Laws for Symbolic Regression

首次系统研究符号回归(SR)中的缩放定律,证明基于 Transformer 的端到端 SR 在三个数量级的计算范围内遵循幂律缩放趋势,并给出最优 token-to-parameter ratio \(\approx 15\)、batch size 和学习率随模型规模增长的经验规律。

Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders

系统比较了Transformer前馈层(FF)的键值记忆特征与稀疏自编码器(SAE)学到的特征的可解释性,发现两者在现有评测指标上表现相当,FF-KV在某些方面甚至更优,质疑了SAE作为特征发现工具的必要性。

Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms

Tropical Attention用热带代数几何替代softmax点积注意力,在热带射影空间中进行分段线性推理,实现与组合算法多面体决策结构的对齐,首次将神经算法推理扩展到NP-hard问题,在长度/数值/噪声三种OOD泛化上全面超越softmax基线。

Uncovering Graph Reasoning in Decoder-only Transformers with Circuit Tracing

通过电路追踪 (circuit tracing) 框架分析 decoder-only Transformer 在图推理任务上的内部机制,发现了 token merging 和 structural memorization 两个核心推理机制。

URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training

系统评估了三类元数据(URL、质量分数、主题/格式域信息)作为预训练上下文的效果:发现只有 URL 能加速训练(100B token 用 60B 即达到相同下游性能),且仅在长 prompt(5-shot)下有效;质量分数和主题域信息不加速训练但可用于 classifier-free guidance 实现可控生成。

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity

提出 VADTree,一种训练无关的视频异常检测框架,利用预训练的通用事件边界检测(GEBD)模型构建层次粒度感知树(HGTree),实现对不同时间跨度异常事件的自适应采样和多粒度推理,在 UCF-Crime、XD-Violence 和 MSAD 三个基准上取得训练无关方法SOTA,甚至超越部分弱监督方法。

ValuePilot: A Two-Phase Framework for Value-Driven Decision-Making

提出 ValuePilot 两阶段框架,通过数据集生成工具包(DGT)构建价值标注场景,再用决策模块(DMM)结合用户个性化价值偏好进行多准则决策,在与人类决策对齐方面超过 GPT-5 等强基线。

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

提出VL-SAE,一种带有距离编码器和模态特定解码器的稀疏自编码器,将视觉和语言表示的语义映射到统一概念集,从而解释和增强VLM的视觉-语言对齐机制,在零样本分类平均提升0.6-0.9%,在POPE幻觉消除上超越专用方法VCD。

What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers

系统研究 Transformer 训练中的"突变学习"现象,揭示 loss 平台期内模型已学会部分解、同时表现出输出重复偏差和表示坍缩,并证明注意力图的缓慢学习是关键瓶颈,相关发现在 Pythia/OLMo 等 LLM 预训练早期也得到验证。

Why Is Attention Sparse in Particle Transformer?

本文系统性地分析了 Particle Transformer(ParT)在 jet tagging 任务中训练后出现的近乎二值化稀疏 attention 现象,通过跨数据集对比和消融实验揭示了稀疏性主要源自 attention 机制自身而非物理启发的 interaction 矩阵,但 interaction 矩阵通过影响绝大多数 token 的 argmax 选择对最终性能不可或缺。


📊 LLM 评测

A High-Dimensional Statistical Method for Optimizing Transfer Quantities in Multi-Source Transfer Learning

提出基于K-L散度和高维统计分析的理论框架,用于确定多源迁移学习中每个源任务的最优样本迁移数量,避免"用所有源数据"带来的负迁移问题,在DomainNet和Office-Home上超过SOTA 1.0-1.5%的同时减少47.85%的样本使用量和35.19%的训练时间。

A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification

提出 ESCAPE——首个标准化的多标签抗菌肽分类基准,整合 27 个公开数据库共 80,000+ 肽段,并设计基于双分支 Transformer + 双向交叉注意力的 Baseline 模型,在 mAP 上相对第二名提升 2.56%。

A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values

提出统一框架将 KernelSHAP、LeverageSHAP 等 Shapley 值估计器纳入随机草图(sketching)视角,首次为 KernelSHAP 提供非渐近理论保证,并通过算法改进(Poisson 近似等)将方法扩展到 CIFAR-10 等高维数据集。

AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners

发现 STaR(自我教学推理器)的随机数据采样导致观测训练频率严重不平衡(简单题过度训练、难题训练不足),提出 AdaSTaR——通过自适应多样性采样(优先欠训练样本)和自适应课程采样(根据模型强度调节难度),在 6 个基准上全部取得最高准确率同时减少 58.6% 训练 FLOPs。

Aggregation Hides OOD Generalization Failures from Spurious Correlations

揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line(ID 与 OOD 准确率正相关),但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集(最高达 75%),这些子集上 ID 越高 OOD 反而越低(Pearson R 低至 -0.92),证明虚假相关的危害被聚合评估系统性隐藏。

Asymmetric Duos: Sidekicks Improve Uncertainty

Asymmetric Duos(AD)将一个大模型与一个小"sidekick"配对——通过温度加权的 logit 平均融合两者预测,在仅增加 10-20% FLOPs 的条件下达到接近 5× 深度集成的不确定性估计质量,RN50 AD(5% FLOPs 额外开销)在 AUROC/AURC/SAC@98 上接近 m=5 深度集成(400% 额外 FLOPs)。

Bayesian Evaluation of Large Language Model Behavior

提出基于 Beta-Binomial 贝叶斯模型的 LLM 行为评估框架,通过对每个 prompt 的随机生成结果建模 \(\theta_m\) 后验分布,量化评估指标的统计不确定性,并引入 Thompson sampling 等序贯采样策略以更少的 API 调用获得更窄的置信区间。

Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks

提出 Belief-Calibrated Consensus Seeking (BCCS) 框架,通过引入信念(belief)校准的共识判断、冲突感知的协作者分配和领导者选择三个模块,让多智能体系统在复杂NLP任务上达成更稳定的共识,在 MATH 和 MMLU 上的困难任务分别提升 2.23% 和 3.95%。

Benchmarking is Broken — Don't Let AI be its Own Judge

系统性批评当前 AI 基准评估的根本缺陷——数据污染(MMLU 45%+ 重叠)、选择性报告、缺乏监考——并提出 PeerBench 方案:借鉴高考/GRE 的监考范式,用滚动更新的保密题库 + 同行评审质量控制 + 声誉加权评分 + 加密承诺机制构建下一代 AI 评估基础设施。

Benchmarking Large Language Models for Zero-Shot and Few-Shot Phishing URL Detection

在统一的零样本和少样本 prompt 框架下系统评估 GPT-4o、Claude-3.7 和 Grok-3-Beta 三个商用 LLM 在钓鱼 URL 检测任务上的表现,发现少样本 prompt 可显著提升所有模型性能,Grok-3-Beta 在平衡数据集上取得最佳 F1(0.9399),但不同模型在精度-召回率权衡上呈现差异化行为模式。

Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation

将LLM基准评测形式化为层级统计模型,理论证明多次随机生成(k>1)能降低benchmark分数估计方差,并引入prompt级难度指标\(\mathbb{P}(\text{correct})\)和数据地图用于基准质量控制。

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

提出LAGER框架,通过聚合LLM中间层到最终层的score token logits并计算期望分数,无需微调模型即可将LLM评判与人类评分的对齐度提升最高7.5%,且不需要思维链推理步骤就能匹配或超过推理类方法。

Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport

提出 Bispectral Optimal Transport (BOT),将离散最优传输中的代价矩阵从原始像素距离替换为 bispectrum(群 Fourier 不变量)距离,使得传输计划在保持信号结构的同时精确消除群作用(如旋转)带来的变异,在旋转变换的 MNIST 等数据集上将类别保持准确率从 33% 提升至 84%。

BLINK-Twice: You See But Do You Observe? A Reasoning Benchmark on Visual Perception

提出视觉中心推理 benchmark BLINK-Twice(345 张视觉挑战图 + 103 个对抗样本 + 896 个 VQA + 1725 个推理步骤标注),通过 7 类视觉错觉场景评估 MLLM "看到但未观察到"的推理能力,发现最强模型 Gemini-2.5 Pro 的 G-Acc 仅 26.9%,多轮图像观察和主动视觉交互是提升方向。

Can Large Language Models Master Complex Card Games?

系统评估LLM在8种复杂卡牌游戏上的学习能力,发现通过高质量游戏数据的SFT,LLM可以接近强游戏AI的水平,并能同时掌握多个游戏,但通用能力会下降(可通过混入通用指令数据缓解)。

CLIMB: Class-Imbalanced Learning Benchmark on Tabular Data

提出 Climb——迄今最全面的表格数据类别不平衡学习基准,涵盖 73 个真实数据集和 29 种 CIL 算法,通过大规模实验揭示了朴素重平衡往往无效、集成方法至关重要、数据质量比不平衡本身更影响性能等实用洞察。

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

提出 CodeAssistBench (CAB),第一个评估多轮、项目级编程辅助的全自动 Benchmark,从 GitHub Issues 自动构建 3,286 个真实编程求助场景,涵盖 7 种语言 214 个仓库,揭示 SOTA 模型在 StackOverflow 问题上 70-83% 但在 post-cutoff 仓库上仅 7-16% 的巨大鸿沟。

ComPO: Preference Alignment via Comparison Oracles

针对DPO中噪声偏好对(preferred和dispreferred响应相似)导致的似然位移和冗长问题,提出基于比较oracle的零阶偏好对齐方法ComPO,将数据分为干净/噪声子集,用DPO处理干净数据、用ComPO提取噪声数据中的信号,在AlpacaEval 2等benchmark上持续提升LC win rate。

Conformal Online Learning of Deep Koopman Linear Embeddings

提出 COLoKe 框架,将 conformal prediction 重新解读为模型一致性诊断工具,仅在 Koopman 模型的预测误差超过动态校准阈值时才触发参数更新,从而实现对非线性动力系统的高效在线 Koopman 线性嵌入学习。

Conformal Prediction in The Loop: A Feedback-Based Uncertainty Model for Trajectory Optimization

提出 Feedback-Based Conformal Prediction (Fb-CP) 框架,将已执行轨迹的信息反馈给 CP 以动态调整预测区域大小,在缩减时域轨迹优化中同时保证覆盖率和显著提升轨迹性能。

ConfTuner: Training Large Language Models to Express Their Confidence Verbally

ConfTuner 提出 tokenized Brier score 损失函数(理论证明为 proper scoring rule),仅需 2000 个样本 + 4 分钟 LoRA 微调即可让 LLM 输出校准的语言化置信度(如"我80%确定"),ECE 最大降低 60.9%,支持自我纠错和模型级联等下游应用。

Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery

提出 NC-GCD 框架,通过预分配固定的 Equiangular Tight Frame (ETF) 原型为已知类和新类建立统一优化目标,结合语义一致性匹配器 (SCM) 稳定跨迭代伪标签分配,在 6 个 GCD 基准上显著提升新类发现精度。

Cost-Sensitive Freeze-thaw Bayesian Optimization for Efficient Hyperparameter Tuning

CFBO 将用户定义的效用函数(成本 vs 性能的权衡)引入冻结-解冻贝叶斯优化框架,结合自适应停止准则和基于 LC mixup 的迁移学习,在多保真度 HPO 基准上实现了成本-性能最优权衡。

Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models

构建Braingle Brainteaser基准(242数学+236逻辑谜题),系统评估LLM在脑筋急转弯上的推理策略——发现模型有时能产生创造性洞察式解法,但也常在有巧妙解法可用时退回暴力穷举,且自纠错能力有限、将叙事→数学格式翻译可小幅提升性能。

Decoupled Entropy Minimization

将经典熵最小化(EM)解耦为两个对立部分——Cluster Aggregation Driving Factor (CADF,奖励主导类别)和 Gradient Mitigation Calibrator (GMC,惩罚高置信类别),揭示了经典 EM 的两个固有缺陷(reward collapse 和 easy-class bias),提出 AdaDEM 通过归一化奖励和边际熵校准来修复这些问题,在半监督学习、域适应、强化学习等多任务上显著提升。

Document Summarization with Conformal Importance Guarantees

首次将Conformal Prediction应用于文档摘要,通过校准句子重要性分数的阈值,为抽取式摘要提供用户可控的覆盖率(\(1-\alpha\))和召回率(\(\beta\))的严格统计保证,方法模型无关且仅需小规模校准集。

Efficient Semantic Uncertainty Quantification in Language Models via Diversity-Steered Sampling

提出 diversity-steered sampling 框架:在解码时注入基于 NLI 的语义相似度惩罚来驱动生成语义多样化的样本,并用重要性加权+控制变量纠正偏差降低方差,在仅 16 个样本下即可准确估计 LLM 的语义熵(偶然不确定性)和互信息(认知不确定性)。

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving

提出 EvaLearn 基准,通过序列化问题求解范式评估 LLM 的学习能力和学习效率,揭示静态能力强的模型不一定具备更强的学习潜力。

Exploiting Task Relationships in Continual Learning via Transferability-Aware Task Embeddings

提出基于 H-score 可迁移性度量的任务嵌入(H-embedding),并将其嵌入超网络框架,通过在嵌入空间中显式建模任务间关系来指导持续学习中的参数生成,在 rehearsal-free 设定下取得 SOTA 最终准确率。

Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training

通过控制实验揭示大词表提升语言模型性能的根本机制:扩大词表降低分词文本的 Kolmogorov 复杂度,利用词频不平衡让高频词损失大幅下降,驱动全局交叉熵下降和下游任务提升

Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention

将选择性SSM(Mamba)展开为注意力形式,利用覆盖数技术推导出受连续时间状态矩阵谱横断面\(s_{\mathbf{A}}\)控制的泛化界——\(s_{\mathbf{A}}<0\)时泛化界与序列长度无关,\(s_{\mathbf{A}}\geq0\)时指数增长,并证明这种依赖不可消除。

Heterogeneous Adversarial Play in Interactive Environments

提出 HAP(Heterogeneous Adversarial Play),将教师-学生交互形式化为极小极大博弈:教师网络自动生成针对学生弱点的挑战任务,学生策略不断适应进化,形成无需手工设计的自适应课程——在多任务 RL 环境中超越 SOTA 基线,且生成的课程对人类学习者同样有效。

HouseLayout3D: A Benchmark and Training-Free Baseline for 3D Layout Estimation in the Wild

提出 HouseLayout3D——首个面向大规模多层建筑的真实世界 3D layout 估计基准,以及 MultiFloor3D——一个无需训练的基线方法,通过组合现代 3D 重建和分割模型在多层建筑 layout 估计上超越现有深度学习方法。

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

提出 HybridNorm 混合归一化策略——注意力模块用 QKV 归一化解耦梯度、FFN 用 Post-Norm 增强正则化,在 550M-7B 规模上同时获得 Pre-Norm 的训练稳定性和 Post-Norm 的泛化性能,7B 模型下游任务平均提升 2.45%。

Hyperbolic Fine-Tuning for Large Language Models

发现 LLM token 嵌入具有幂律分布和树状双曲结构,据此提出 HypLoRA——在 Lorentz 双曲流形上直接执行低秩适配(避免切空间映射的相消效应),在算术推理和常识推理任务上相比标准 LoRA 取得显著提升(如 Qwen2.5-7B 上 M.AVG +7.5%)。

Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion

提出HSACC框架通过双层语义空间设计(低层互信息一致性+高层自适应加权融合)和协同优化的隐式缺失视图恢复,在五个基准数据集上显著超越现有不完整多视图聚类方法。

Ineq-Comp: Benchmarking Human-Intuitive Compositional Reasoning in Automated Theorem Proving on Inequalities

提出 Ineq-Comp 基准,通过对简单不等式种子问题施加人类直觉可轻松处理的组合变换(变量复制、代数重写),揭示当前 LLM 形式化定理证明器在组合推理上的根本性缺陷——即使 DeepSeek-Prover-V2-7B 也有 20%+ 的性能下降。

Keep It on a Leash: Controllable Pseudo-label Generation Towards Realistic Long-Tailed Semi-Supervised Learning

提出 Controllable Pseudo-label Generation (CPG) 框架,通过可控的自强化优化循环将可靠伪标签逐步纳入标注集,在已知分布上构建 Bayes-optimal 分类器,从而在未标注数据分布完全未知的 Realistic LTSSL 场景下实现最高 15.97% 的准确率提升。

LCDB 1.1: A Database Illustrating Learning Curves Are More Ill-Behaved Than Previously Thought

构建了大规模高分辨率学习曲线数据库 LCDB 1.1,证明样本学习曲线的"病态行为"(非单调、非凸)比此前认为的普遍两倍,约 15% 的曲线显著不良,且特征缩放难以修复。

Learning Generalizable Shape Completion with SIM(3) Equivariance

提出首个 SIM(3) 等变形状补全网络 SIMECO,通过特征规范化→相似不变几何推理→变换恢复的三阶段模块设计,在去偏评估协议下超越所有增广和等变基线,KITTI 上 MMD 降低 17%、OmniObject3D 上 CD-\(\ell_1\) 降低 14%,且在更严格协议下仍优于竞争者在其偏向性设置下的表现。

Leveraging Robust Optimization for LLM Alignment under Distribution Shifts

提出 DoRA(Distribution-aware optimization for Robust Alignment),通过训练分布分类器为每个样本分配校准权重,结合 KL-DRO 框架最小化最坏情况损失,以模型无关的即插即用方式提升多种对齐算法在分布偏移下的鲁棒性,在 DPO/RRHF/LIRE 等基线上一致提升性能。

LTD-Bench: Evaluating Large Language Models by Letting Them Draw

LTD-Bench 通过让 LLM 画画(生成点阵或代码绘图)来评估其空间推理能力,将抽象的评分指标转化为直观可视的输出,揭示了当前先进 LLM 在建立语言与空间概念双向映射方面的严重不足。

MEIcoder: Decoding Visual Stimuli from Neural Activity by Leveraging Most Exciting Inputs

提出 MEIcoder,利用神经元特异性的最激励输入(MEI)作为生物学先验、SSIM 损失和对抗训练,从初级视觉皮层(V1)的神经群体活动中实现 SOTA 级别的视觉刺激重建,尤其在小数据集和少量神经元场景下表现突出。

Mind the Gap: Removing the Discretization Gap in Differentiable Logic Gate Networks

提出 Gumbel Logic Gate Networks (Gumbel LGNs),通过在逻辑门选择中注入 Gumbel 噪声并使用直通估计器 (ST estimator),将可微逻辑门网络的离散化差距减少 98%,训练速度提升 4.5 倍,未使用神经元比例降为 0%。

Model-Behavior Alignment under Flexible Evaluation: When the Best-Fitting Model Isn't the Right One

通过大规模模型恢复实验证明,即使使用 450 万行为数据,基于线性探测(linear probing)的灵活评估方法在 20 个视觉模型中的模型恢复准确率仍低于 80%,揭示了预测准确性与模型可辨识性之间的根本性权衡,质疑了当前"最佳拟合即最优模型"的研究范式。

Model Context Protocol for Vision Systems: Audit, Security, and Protocol Extensions

首个对MCP在视觉系统中部署的协议级审计研究,分析91个公开MCP服务器发现78%存在schema不一致、89%缺乏运行时验证,并提出语义schema、可视化记忆、运行时验证器等协议扩展方案。

MVSMamba: Multi-View Stereo with State Space Model

提出MVSMamba,首个基于Mamba架构的多视图立体(MVS)网络,通过参考视角中心的动态扫描策略实现高效的视内和视间全局全方向特征聚合,在DTU和Tanks-and-Temples上以最优效率达到SOTA性能。

Normal-Abnormal Guided Generalist Anomaly Detection

NAGL 框架首次在通用异常检测(GAD)中引入正常+异常混合参考样本,通过残差挖掘(RM)和异常特征学习(AFL)两个注意力模块,在残差空间中学习可迁移的异常模式,仅用 1 个异常样本即可在跨域场景中大幅超越仅使用正常参考的方法。

Not All Splits Are Equal: Rethinking Attribute Generalization Across Unrelated Categories

本文首次系统评估了属性预测任务中训练/测试划分策略对泛化性能的影响,提出了基于 LLM 语义分组、嵌入相似度、嵌入聚类和超类标签的四种渐进式难度划分方案,发现无监督聚类划分在不依赖标注的情况下实现了与真值超类划分相当的去泄漏效果,同时保留了更好的预测性能。

On Evaluating LLM Alignment by Evaluating LLMs as Judges

本文系统研究了 LLM 的生成能力与评估能力之间的一致性(GE-consistency),发现两者在强偏好预言机下高度相关(Spearman ρ=0.96),据此提出 AlignEval 基准——通过评估 LLM 作为评判者的能力来衡量其对齐水平,无需 LLM-as-Judge 直接评估模型输出,与 AlpacaEval/Arena-Hard 相当甚至更优。

On the Entropy Calibration of Language Models

系统研究语言模型的熵校准问题(生成文本的熵是否匹配在人类文本上的 log loss),发现由于数据分布的幂律特性(\(\alpha \approx 1\)),误差积累随模型规模的改善极为缓慢(scaling exponent \(\approx -0.05\)),并从理论上证明了在多项式时间内可以在不牺牲多样性的前提下校准熵。

Open-Insect: Benchmarking Open-Set Recognition of Novel Species in Biodiversity Monitoring

提出Open-Insect——首个面向昆虫物种发现的大规模细粒度开放集识别基准数据集,涵盖三个地理区域和三类开放集划分,系统评测38种OSR算法,发现简单的后验方法(如MSP)在细粒度场景中仍是强基线,同时验证了领域相关辅助数据对提升OSR性能的关键作用。

OptiTree: Hierarchical Thoughts Generation with Tree Search for LLM Optimization Modeling

提出 OptiTree,通过构建建模树(modeling tree)组织运筹优化问题的层次化分类与建模思维,利用树搜索将复杂问题自适应分解为更简单的子问题序列,显著提升 LLM 在优化建模任务上的准确率(在多个困难基准上提升超过 10%)。

PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

本文提出 PARROT,一个面向跨系统 SQL 翻译(SQL-to-SQL)的实际且真实的基准测试,包含来自 38 个开源基准和真实业务场景的 598 个核心翻译对(扩展到 28,003 对),覆盖 22 种生产级数据库系统,揭示当前最强 LLM 的平均准确率低于 38.53%。

PaTH Attention: Position Encoding via Accumulating Householder Transformations

提出 PaTH(Position encoding via accumulating Householder Transformations),一种数据依赖的乘法位置编码方案,通过累积 Householder 变换替代 RoPE 的静态旋转矩阵,在理论表达力和实际语言建模性能上均优于 RoPE。

PFΔ: A Benchmark Dataset for Power Flow under Load, Generation, and Topology Variations

PFΔ 是首个同时涵盖负荷、发电机出力和拓扑变化的电力潮流基准数据集,包含 859,800 个求解实例、六种电网规模和接近不可行的极端工况,并提出标准化评估任务来系统评测 ML 方法在多种运行条件下的表现。

Put CASH on Bandits: A Max K-Armed Problem for Automated Machine Learning

针对 AutoML 中的联合算法选择和超参数优化(CASH)问题,通过数据驱动分析揭示了 HPO 奖励分布的有界左偏特性,提出了专门适配该特性的极端 Bandit 算法 MaxUCB,在理论和实验上均优于现有方法。

RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases

本文提出 RDB2G-Bench——首个评估关系数据库到图建模方法的基准框架,包含 5 个真实 RDB、12 个预测任务和约 5 万个预计算的图模型-性能对,并对 10 种自动图建模方法进行了系统比较。

Reliably Detecting Model Failures in Deployment Without Labels

提出D3M(Disagreement-Driven Deterioration Monitoring),一种基于变分贝叶斯后验采样的三阶段模型监控算法,在无标签、无训练数据的部署场景下可靠检测模型性能退化,同时对非退化性偏移保持低误报率。

Rethinking Evaluation of Infrared Small Target Detection

系统性地揭示了红外小目标检测(IRSTD)现有评估协议的三大局限,提出包含混合层级指标hIoU、系统化错误分析方法和跨数据集评估设置的层次化分析框架。

Rethinking Losses for Diffusion Bridge Samplers

本文揭示了扩散桥采样器中流行的 Log Variance (LV) 损失存在的理论缺陷——不满足数据处理不等式且梯度与 rKL 不等价——并提出用 log-derivative trick 计算 rKL 梯度(rKL-LD),在多个基准上一致性超越 LV 损失,且训练更加稳定、对超参数不敏感。

RGB-to-Polarization Estimation: A New Task and Benchmark Study

本文首次定义从标准RGB图像估计偏振分量(S₁/S₂/S₃)的新任务,构建涵盖修复型与生成型方法的首个系统基准,发现预训练MAE在像素精度上综合最优(PSNR 24.74),修复型方法整体显著优于扩散生成型方法,且预训练权重迁移是关键优势。

Risk Management for Mitigating Benchmark Failure Modes: BenchRisk

基于NIST风险管理流程,系统分析了26个LLM基准测试中的57种失败模式,提出196种缓解策略,并构建了BenchRisk元评估框架对基准测试本身的可靠性进行评分。

Robust Hallucination Detection in LLMs via Adaptive Token Selection

HaMI 将幻觉检测建模为多示例学习(MIL)问题,将生成序列视为 token 实例的"bag",通过联合优化 token 选择和幻觉检测来自适应地定位最具指示性的 token,在四个 QA 基准上以 AUROC 大幅超越所有现有方法(最高提升 11.9%)。

scMRDR: A Scalable and Flexible Framework for Unpaired Single-Cell Multi-Omics Data Integration

提出scMRDR框架,基于β-VAE将单细胞多组学数据的潜在表征解耦为模态共享和模态特异成分,通过等距正则化、对抗训练和掩码重建损失实现非配对多组学数据的可扩展整合。

Semi-Supervised Regression with Heteroscedastic Pseudo-Labels

提出基于异方差建模的不确定性感知伪标签框架,通过双层优化动态校准每个伪标签的不确定性,避免错误伪标签对回归模型的负面影响,在多个 SSR 基准上取得 SOTA。

Small Language Models as Compiler Experts: Auto-Parallelization for Heterogeneous Systems

系统评估了三个小于 1.5B 参数的语言模型(gemma3、llama3.2、qwen2.5)在编译器自动并行化任务上的能力,使用六种推理策略在 11 个真实世界内核上实现平均 6.81x 加速、峰值 43.25x,证明小模型可作为强大的编译器优化推理引擎。

SPROD: Spurious-Aware Prototype Refinement for Reliable Out-of-Distribution Detection

SPROD 是一种后置(post-hoc)OOD 检测方法,专门应对训练数据中的虚假相关——通过将每个类别的原型细分为"正确分类"和"误分类"子组(后者共享虚假特征),配合 K-means 式精炼和距离式(生成式)评分,在 5 个虚假相关 OOD 基准上平均 AUROC 85.1%(+4.8% vs 次优 KNN),FPR@95 49.0%(-9.3% vs 次优)。

Test-Time Adaptation by Causal Trimming

提出 TACT 方法,通过数据增强 + PCA 识别表征空间中的非因果方向,并在测试时将表征和类原型沿该方向的投影移除,从而减少模型对非因果特征的依赖,显著提升分布偏移下的预测性能。

The Geometry of Cortical Computation: Manifold Disentanglement and Predictive Dynamics in VCNet

本文提出VCNet——一种模拟灵长类视觉皮层宏观组织的神经网络架构,用几何和动力系统语言重新诠释双流分离(流形解缠)和预测编码(测地线精炼),以0.04MB的极小体积在Spots-10上达到92.1%(比DenseNet蒸馏版高10%),在光场分类上以3.52MB达到74.4%(超MobileNetV2 2.3%)。

Thought Communication in Multiagent Collaboration

提出 ThoughtComm 框架,将多智能体通信形式化为隐变量生成模型,证明了在非参数条件下共享思想和私有思想均可辨识,并通过稀疏正则化自编码器提取潜在思想、经前缀注入回馈给每个智能体,在数学推理任务上相比当前 SOTA 的 Multiagent Finetuning 平均提升 19.06%。

Tight Lower Bounds and Improved Convergence in Performative Prediction

在 performative prediction 框架下,首次证明了 Repeated Risk Minimization (RRM) 收敛率的紧致性,并提出 Affine Risk Minimizers (ARM) 算法类,通过利用历史训练快照的数据实现更广泛问题类上的收敛。

Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking

提出 DeepFund——首个实时基金投资 benchmark 工具,通过多智能体架构(Financial Planner + Analyst Team + Portfolio Manager)连接实时股市数据,避免传统回测中 LLM "时间旅行"导致的信息泄露问题。在 24 个交易日的实盘测试中,9 个旗舰 LLM 只有 Grok 3 实现盈利,揭示了当前 LLM 在主动基金管理中的重大局限。

Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era

提出 ImAge(Implicit Aggregation),在 Transformer 骨干网络的特定层插入可学习聚合 Token,利用内在自注意力机制将 patch 特征隐式聚合为全局描述符,完全消除了额外聚合器的需要。以最小的描述符维度(6144)和最快推理速度,在多个 VPR 数据集上超越 SALAD、BoQ 等 SOTA,并在 MSLS Challenge 排行榜排名第 1。

Turbocharging Gaussian Process Inference with Approximate Sketch-and-Project

提出 ADASAP 算法,通过近似子空间预条件、分布式计算和 Nesterov 加速,将 sketch-and-project 方法扩展到大规模 GP 推断,首次将精确 GP 推断扩展到 \(>3\times10^8\) 样本规模,同时在理论上证明了 SAP 方法的 condition number-free 收敛性。

Unlocking Transfer Learning for Open-World Few-Shot Recognition

提出两阶段方法,通过开集感知元学习 + 开集无关迁移学习,首次将迁移学习范式成功应用于少样本开集识别 (FSOSR),在 miniImageNet 和 tieredImageNet 上达到 SOTA。

What Does It Take to Build a Performant Selective Classifier?

首次对选择性分类的性能差距(selective classification gap)进行有限样本分解,将差距归因于五个源头——贝叶斯噪声、逼近误差、排序误差、统计噪声和实现偏差,并证明单调校准方法对缩小差距效果有限。

Words That Unite The World: A Unified Framework for Deciphering Central Bank Communications Globally

本文构建了迄今最全面的央行货币政策语料库 WCB(38万+句子、25家央行、跨28年),定义三个NLP任务(立场检测、时间分类、不确定性估计),通过15,075次基准实验发现聚合多银行数据训练的模型显著优于单银行训练,证实了"整体大于部分之和"的原则。

Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator

发现 LLM 后训练(SFT/RLHF/DPO)破坏了预训练模型的置信度校准,提出 DACA 方法利用预训练模型的良好校准性,仅在预测一致样本上对齐置信度,实现无标签的后训练模型校准,ECE 最高改善 15.08%。


🛡️ AI 安全

A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers

提出一组通用化组件(Component A/B/C),通过充分挖掘样本选择与触发器之间的双向协作关系,同时提升 Poison-only Clean-label 后门攻击的攻击成功率(ASR)和隐蔽性,并在多种攻击类型上展现了良好的泛化能力。

AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift

这篇立场论文受生物感觉系统的启发,主张AI研究必须从单纯的"扩模型"范式转向"优化输入"——通过在传感器层面动态调整参数(曝光、增益、多模态配置等),使小模型(5M参数的EfficientNet-B0)在理想传感器适应下超越大模型(632M参数的OpenCLIP-H),并提出了从单次感知到闭环感知-运动耦合的渐进式形式化框架。

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

Beyond Last-Click: An Optimal Mechanism for Ad Attribution

从博弈论角度分析广告归因中 Last-Click 机制的策略操纵漏洞——平台可以通过篡改时间戳获取不公正的归因信用,提出 Peer-Validated Mechanism(PVM)——每个平台的信用仅取决于其他平台的报告(类比同行评审),理论证明 PVM 是占优策略激励兼容(DSIC)且在同质设置下最优,准确率从 34% 提升到 75%(2 平台)。

Boosting Adversarial Transferability with Spatial Adversarial Alignment

提出 Spatial Adversarial Alignment (SAA),通过空间感知对齐和对抗感知对齐两个模块微调代理模型,使其特征与见证模型对齐,从而显著提升对抗样本的跨架构迁移性(CNN→ViT 迁移率提升 25-39%)。

Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness

通过在 CNN 中嵌入旋转等变(P4群)和尺度等变卷积层,提出 Parallel 和 Cascaded 两种对称性感知架构,无需对抗训练即可显著提升对抗鲁棒性,并从 CLEVER 框架出发理论证明等变架构能压缩假设空间、正则化梯度、收紧认证鲁棒性界。

Causally Reliable Concept Bottleneck Models

提出 C2BM(Causally reliable Concept Bottleneck Models),将概念瓶颈(concept bottleneck)按照因果图结构化组织,通过结合观测数据与背景知识自动学习因果关系,在保持分类精度的同时显著提升因果可靠性、干预响应和公平性。

Cost Efficient Fairness Audit Under Partial Feedback

在部分反馈(partial feedback)设定下,提出了一套包含新颖成本模型的公平性审计框架,分别在黑盒与混合模型两种场景给出近最优审计算法,审计成本比自然基线降低约 50%。

CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D

扩展 MLE-Bench 构建了 20 个代码破坏(code-sabotage)任务和 sandbagging 评测,发现前沿 AI agent 能在完成正常 ML 工程任务的同时成功植入后门等破坏,且在部分情况下逃避 LM monitor 的检测。

Deceptron: Learned Local Inverses for Fast and Stable Physics Inversion

提出 Deceptron 双向模块,通过学习可微分前向代理的局部逆映射并引入 Jacobian Composition Penalty (JCP),在求解物理逆问题时将输出空间的残差拉回输入空间,实现类 Gauss-Newton 的预条件梯度更新,迭代次数大幅减少(Heat-1D 约 20 倍加速)。

DESIGN: Encrypted GNN Inference via Server-Side Input Graph Pruning

提出 DESIGN 框架,在全同态加密(FHE)下通过服务器端输入图剪枝和自适应多项式激活度分配两阶段优化,相比 SEAL 基线加速 FHE GNN 推理约 2× 并维持有竞争力的准确率。

DictPFL: Efficient and Private Federated Learning on Encrypted Gradients

提出 DictPFL 框架,通过将模型权重分解为静态字典+可训练查找表,并结合加密感知剪枝,在联邦学习中实现全梯度同态加密保护的同时,将通信开销降低 402–748 倍、训练速度提升 28–65 倍,运行时间仅为明文 FL 的 2 倍以内。

Differential Privacy for Euclidean Jordan Algebra with Applications to Private Symmetric Cone Programming

提出了基于 Euclidean Jordan Algebra (EJA) 的通用 Gaussian 隐私机制,并在此基础上设计了首个差分隐私的 Symmetric Cone Programming (SCP) 求解算法,解决了 Hsu et al. (ICALP 2014) 提出的关于差分隐私半定规划的重要开放问题。

Differentially Private Bilevel Optimization: Efficient Algorithms with Near-Optimal Rates

本文系统研究差分隐私 (DP) 下的双层优化问题,在凸情形下通过指数机制和正则化指数机制给出近紧的上下界(匹配单层 DP-ERM 最优率),在非凸情形下提出二阶 DP 方法实现不依赖内层维度的 SOTA 收敛率。

Differentially Private High-dimensional Variable Selection via Integer Programming

本文提出两种纯差分隐私的稀疏变量选择方法 (top-R 和 mistakes),利用现代混合整数规划 (MIP) 技术高效探索非凸目标景观,在高维设置(p 达 10000)下实现 SOTA 支撑集恢复率,同时提供理论恢复保证。

Distributional Adversarial Attacks and Training in Deep Hedging

本文首次将分布对抗攻击引入深度对冲框架,提出基于 Wasserstein 球的可计算对抗训练方法(WPGD 和 WBPGD),显著提升了对冲策略在分布偏移和真实市场数据下的鲁棒性与样本外表现。

Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization

本文提出 Dual-Flow 框架,利用预训练扩散模型的正向 ODE 流和微调 LoRA 速度函数的逆向流进行多目标实例无关对抗攻击,通过级联分布偏移训练策略显著提升迁移攻击成功率(从 Inc-v3 到 Res-152 成功率提升 34.58%),在防御模型上也表现出强鲁棒性。

Efficient Fairness-Performance Pareto Front Computation

提出 MIFPO 方法,无需训练复杂的公平表示模型即可高效计算公平性-性能 Pareto 前沿,通过理论分析将问题化简为紧凑的离散凹优化问题。

Efficient Verified Machine Unlearning for Distillation

提出 PURGE 框架,通过教师-学生 constituent mapping 和增量式多教师蒸馏策略,将 SISA 的验证式遗忘扩展到知识蒸馏场景,在教师端遗忘时仅需部分重训学生模型,实现至少 \(N\times\) 的加速。

Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping

首次为端到端ASR建立FL+DP的实用基准,通过逐层裁剪(per-layer clipping)结合LAMB优化器的层级梯度归一化,在强隐私保证下实现仅1.3%~4.6%的WER绝对退化。

Enhancing Graph Classification Robustness with Singular Pooling

首次系统分析 flat pooling(Sum/Avg/Max)对图分类对抗鲁棒性的影响,推导各自的对抗风险上界,并提出 RS-Pool——利用节点嵌入矩阵的主奇异向量构建图级表示,在不牺牲 clean accuracy 的前提下显著提升对抗鲁棒性。

Environment Inference for Learning Generalizable Dynamical System

提出 DynaInfer 框架,通过分析固定神经网络的预测误差来推断未标注轨迹的环境标签,实现无环境标签条件下的动态系统泛化学习,在 ODE/PDE 系统上性能匹配甚至超越 Oracle(已知标签)。

Exploration of Incremental Synthetic Non-Morphed Images for Single Morphing Attack Detection

系统研究了在单图像变形攻击检测(S-MAD)训练中增量引入合成非变形人脸图像的效果,发现适量的合成数据(~75%增量)可提升跨数据集泛化能力(EER从6.17%降至6.10%),但过度使用或仅用合成数据会导致性能严重退化(EER升至~38%)。

Factor Decorrelation Enhanced Data Removal from Deep Predictive Models

提出 DecoRemoval 框架,通过判别性保持的因子去相关(基于随机傅里叶特征的空间映射+自适应权重)和平滑损失扰动两大模块,在不重训的前提下实现数据移除,尤其在分布外(OOD)场景下显著优于现有方法。

Fair Minimum Labeling: Efficient Temporal Network Activations for Reachability and Equity

本文提出公平最小标注(FML)问题,旨在设计最小代价的时序边激活方案,使网络中各节点组均有足够的时序路径可达性以满足公平覆盖要求;证明该问题是 NP-hard 且难以近似,并基于概率树嵌入给出匹配下界的近似算法。

Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference

提出 FRG(Fair Representation learning with high-confidence Guarantees),首个允许用户指定公平性阈值 \(\varepsilon\) 和置信水平 \(1-\delta\) 的公平表征学习框架:通过 VAE 候选选择 + 对抗推断最大化协方差 + Student's t-检验构造高置信上界,保证对任意下游模型和任务,\(\Delta_{DP} \leq \varepsilon\) 以至少 \(1-\delta\) 概率成立。

FairContrast: Enhancing Fairness through Contrastive Learning and Customized Augmentation

FairContrast 提出一种面向表格数据的公平对比学习框架,通过策略性的正对样本选择(将优势组有利结果样本与对应弱势组样本配对),结合有监督或自监督对比损失与交叉熵损失的端到端训练,在不引入额外公平约束损失的前提下显著降低了预测偏差,且精度损失极小。

Fairness-Regularized Online Optimization with Switching Costs

这篇论文把“长期公平”与“动作平滑”第一次严密地放进同一个在线优化框架里,先证明原问题在常规动态基准下根本不可能做好,再提出 FairOBD 通过辅助变量和对偶镜像下降把公平代价在线化,从而在更合理的 \((R,\delta)\) 约束基准上拿到渐近最优级别的竞争比。

Fairness under Competition

本文首次研究竞争环境下多个公平分类器的联合公平性问题,理论证明即使每个分类器都满足 Equal Opportunity (EO),生态系统可能仍然不公平,且对偏差分类器进行公平性调整反而可能降低生态系统公平性。

FedFACT: A Provable Framework for Controllable Group-Fairness Calibration in Federated Learning

提出FedFACT框架,通过刻画联邦学习下的贝叶斯最优公平分类器结构,将公平联邦学习分别在训练中(in-processing)化归为个性化代价敏感学习、在训练后(post-processing)化归为双层优化,首次实现多类别场景下全局公平性与局部公平性的可控协调,并提供收敛及泛化保证。

FLUX: Efficient Descriptor-Driven Clustered Federated Learning under Arbitrary Distribution Shifts

Flux通过在客户端侧提取紧凑的分布描述符(边际P(X)均值/协方差 + 类条件P(Y|X)均值/协方差),在服务器端用自适应DBSCAN无监督聚类自动确定聚类数与分组,训练聚类专属模型,并在测试时仅凭特征描述符为无标签新客户端匹配最优模型——首次同时处理四种分布偏移且通信开销与FedAvg相当。

ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization

ForensicHub 提出首个统一所有域(Deepfake/IMDL/AIGC/文档篡改)的假图检测与定位基准平台,包含 4 个任务、23 个数据集、42 个模型、6 个骨干网络和 11 个 GPU 加速评估指标,通过模块化架构和适配器设计打破领域孤岛,并进行了 16 种跨域评估得出 8 条关键洞察。

Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning

本文理论推导并实验验证了深度迁移学习中成员推理攻击(MIA)脆弱性与每类样本数之间的幂律关系 \(\log(\text{tpr}-\text{fpr}) = -\beta_S \log(S) - \beta_0\),发现增加数据量可降低平均和最坏情况脆弱性,但保护最脆弱样本需要极大量数据。

Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning

从理论和实验两方面揭示深度迁移学习中成员推断攻击 (MIA) 脆弱性与每类样本数之间存在幂律关系:随着每类样本数 \(S\) 增加,MIA 优势按 \(S^{-1/2}\) 下降,但保护最脆弱样本所需的数据量极大,凸显了差分隐私形式化保障的不可替代性。

Improved Balanced Classification with Theoretically Grounded Loss Functions

提出两个理论驱动的代理损失函数族——广义Logit调整(GLA)损失和广义类感知加权(GCA)损失,为类别不平衡下的多类分类提供更强的理论保证和实证性能。

Incentivizing Time-Aware Fairness in Data Sharing

提出了一个时间感知的数据共享框架,设计了新的激励机制(F6-F8)和两种奖励方案(时间感知奖励累计和时间感知数据估值),保证早加入协作的参与方能获得更高价值的奖励,同时兼顾公平性和个体理性。

Influence Functions for Edge Edits in Non-Convex Graph Neural Networks

提出适用于非凸 GNN 的边编辑影响函数,通过 proximal Bregman 响应函数放松凸性假设,并同时考虑参数偏移和消息传播两方面的影响,支持边的删除和插入。

It's Complicated: The Relationship of Algorithmic Fairness and Non-Discrimination Provisions for High-Risk Systems in the EU AI Act

本文系统分析了欧盟AI法案(EU AI Act)中针对高风险AI系统的反歧视条款与机器学习算法公平性领域之间的复杂关系,揭示了法律条文在输入侧偏差检测、输出侧保护缺失、标准化挑战等方面的关键缝隙,为计算机科学与法学跨学科协作提供了基础框架。

Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification

本文系统评估了基于图像压缩的对抗净化防御,发现重建图像的"真实感"(realism)是提升防御鲁棒性的关键因素——高真实感压缩模型在面对强自适应攻击时仍能保持显著鲁棒性,而这并非源于梯度掩蔽。

Learning-Augmented Facility Location Mechanisms for Envy Ratio

针对一维设施选址问题中的嫉妒比(envy ratio)目标,设计了确定性和随机化的学习增强机制:确定性的 \(\alpha\)-BIM 机制在一致性和鲁棒性之间实现最优权衡,随机化的BAM机制进一步改善保证;同时解决了Ding等人提出的公开问题,将无预测的随机机制近似比从2改进至约1.8944。

Locally Optimal Private Sampling: Beyond the Global Minimax

在本地差分隐私(LDP)下的采样问题中,提出局部minimax框架,利用公共数据分布 \(P_0\) 定义的邻域约束,推导出闭式最优采样器,在理论和实验上均一致优于全局minimax采样器

Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research

本文系统性地揭示了机器遗忘(Machine Unlearning)在生成式AI场景下的五大根本性错配——技术方法与政策目标之间存在不可忽视的鸿沟,论证了机器遗忘无法作为通用方案解决隐私、版权和安全问题,并为ML研究者和政策制定者提供了务实的认知框架。

MARS: A Malignity-Aware Backdoor Defense in Federated Learning

提出 MARS 防御方法,通过计算神经元的后门能量(Backdoor Energy)来感知模型的恶意程度,并利用 Wasserstein 距离聚类有效识别联邦学习中的后门模型。

Matchings Under Biased and Correlated Evaluations

在两机构稳定匹配模型中引入评估相关性参数 \(\gamma\)(机构间评分的对齐程度),分析偏差 \(\beta\) 和相关性 \(\gamma\) 如何联合影响弱势群体的代表性比率,证明即使轻微的相关性损失也可导致代表性急剧下降,并提出公平性干预策略的 Pareto 前沿。

Mitigating Disparate Impact of Differentially Private Learning through Bounded Adaptive Clipping

通过在自适应梯度剪裁中引入可调整的下界(bounded adaptive clipping),防止 clipping bound 在训练过程中过度萎缩,从而改善少数群体的精度,在 DP 约束下缓解算法不公平。

Mitigating Privacy-Utility Trade-off in Decentralized Federated Learning via f-Differential Privacy

提出基于 f-DP 框架的两种去中心化联邦学习隐私记账方法——PN-f-DP 和 Sec-f-LDP,通过更精细的假设检验隐私度量,一致性地获得比 Rényi DP 更紧的隐私界,从而在相同隐私保证下减少噪声注入、提升模型效用。

Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning

在无数据持续学习场景中,提出逐层模型反演(PMI)来加速图像合成,并通过类别级高斯特征建模和对比学习缓解合成-真实数据间的特征漂移,实现高效且高质量的无数据知识回放。

Multi-Class Support Vector Machine with Differential Privacy

提出PMSVM框架,利用all-in-one多类SVM的单次数据访问特性,结合权重扰动和梯度扰动方法,在保持差分隐私的前提下显著降低多类SVM的隐私预算消耗,实现了更优的隐私-效用权衡。

Nearly-Linear Time Private Hypothesis Selection with the Optimal Approximation Factor

首次提出在中心差分隐私模型下同时实现近线性时间复杂度和最优近似因子 \(\alpha=3\) 的假设选择算法,解决了Bun等人(NeurIPS 2019)提出的开放问题。

Not All Deepfakes Are Created Equal: Triaging Audio Forgeries for Robust Deepfake Singer Identification

提出基于"最有害的深伪是质量最高的"这一前提的两阶段流水线:先用判别器过滤低质量伪造以减少噪声,再用仅在真实录音上训练的歌手识别模型进行声纹匹配,在多个数据集上一致超越基线。

OmniFC: Rethinking Federated Clustering via Lossless and Secure Distance Reconstruction

提出 OmniFC,一个模型无关的联邦聚类框架:通过 Lagrange 编码计算在有限域上精确重建全局成对距离矩阵,任意集中式聚类方法(K-Means/谱聚类/DBSCAN/层次聚类等)可直接在其上运行,仅需一轮通信,天然抵抗 Non-IID,在 7 个数据集上全面超越 k-FED/MUFC/FedSC 等专用方法。

On the Hardness of Conditional Independence Testing In Practice

系统分析了基于核的条件独立性(CI)检验在实践中失败的根本原因:条件均值嵌入的估计误差是导致Type-I错误膨胀的核心因素,同时揭示了选择条件核\(k_C\)对检验功效至关重要但会加剧假阳性的内在张力。

Optimal Adjustment Sets for Nonparametric Estimation of Weighted Controlled Direct Effect

针对加权控制直接效应(WCDE)建立三项基础理论:唯一可识别性的充要条件、非参数估计的影响函数推导、以及最小化渐近方差的最优协变量调整集刻画。

Perturbation Bounds for Low-Rank Inverse Approximations under Noise

首次给出在加性噪声下低秩逆近似 \(\|(\tilde{A}^{-1})_p - A_p^{-1}\|\) 的非渐近谱范数扰动界,利用轮廓积分技术得到依赖特征间隙、谱衰减和噪声对齐的锐界,比经典全逆界改进高达 \(\sqrt{n}\) 倍。

Position: Bridge the Gaps between Machine Unlearning and AI Regulation

系统分析了机器遗忘(Machine Unlearning)在欧盟人工智能法案(AIA)合规中的六大潜在应用场景,指出每个场景中 SOTA 与实际需求之间的技术差距,呼吁研究社区弥补这些差距以释放机器遗忘在 AI 监管中的潜力。

Preserving Task-Relevant Information Under Linear Concept Removal

SPLINCE通过构造一种斜投影(oblique projection),在保证线性守护性(不可被线性分类器预测敏感属性)的同时,精确保留表征与目标标签之间的协方差,解决了现有概念擦除方法在移除敏感概念的同时误删任务相关信息的问题。

Private Continual Counting of Unbounded Streams

提出基于对数扰动的新型矩阵分解方法,首次实现同时满足"无界流"、"平滑误差"和"近最优渐近误差"三大性质的差分隐私持续计数算法,对任意 \(\alpha > 0\) 在时间步 \(t\) 处的方差为 \(O(\log^{2+2\alpha}(t))\)

Private Zeroth-Order Optimization with Public Data

提出 PAZO 框架,利用公共数据引导私有零阶优化算法的梯度近似,在视觉和文本任务上实现了优于 DP-SGD 的隐私-效用权衡,同时获得最高 16 倍的速度提升。

Provable Watermarking for Data Poisoning Attacks

本文提出两种可证明的水印方案(后投毒水印和投毒并行水印),为数据投毒攻击提供透明性声明机制,理论证明在特定水印长度条件下可同时保证水印可检测性和投毒有效性。

PubSub-VFL: Towards Efficient Two-Party Split Learning in Heterogeneous Environments via Publisher/Subscriber Architecture

本文提出PubSub-VFL,一种基于发布/订阅架构的高效两方纵向联邦学习框架,通过分层异步机制和基于系统画像的超参数优化,在保证隐私和模型精度的前提下实现2~7倍的训练加速和高达91%的计算资源利用率。

Reconstruction and Secrecy under Approximate Distance Queries

在近似距离查询模型下,通过学习理论视角研究重建博弈(reconstruction game),证明了最优重建误差等于Chebyshev半径的几何特征刻画,并对欧氏凸空间的伪有限性给出了完整分类。

Rewind-to-Delete: Certified Machine Unlearning for Nonconvex Functions

本文提出R2D(Rewind-to-Delete),首个适用于一般非凸损失函数的一阶、黑盒认证机器遗忘算法,通过"回溯"到训练过程中的较早检查点再对保留数据执行梯度下降来实现数据删除,同时提供(ε,δ)认证遗忘保证和隐私-效用-效率的理论权衡。

Robust Graph Condensation via Classification Complexity Mitigation

本文揭示图凝缩(GC)本质上是降低分类复杂度的过程,而对抗攻击恰好破坏了这一特性,据此提出MRGC框架,通过内在维度正则化、曲率感知流形平滑和类间流形解耦三个流形约束模块来增强GC的鲁棒性,首次在结构、特征和标签均可能被篡改的条件下系统研究GC鲁棒性。

Sequentially Auditing Differential Privacy

提出基于序贯假设检验和核 MMD 统计量的差分隐私审计框架,可以在流式处理机制输出时随时有效地检测隐私违规,将所需样本量从现有方法的 50K 降低到数百个,并能在不到一次完整训练的过程中识别 DP-SGD 的隐私违规。

Spectral Perturbation Bounds for Low-Rank Approximation with Applications to Privacy

建立了对称矩阵低秩近似在谱范数下的新型高概率扰动界,改进了经典 Eckart-Young-Mirsky 定理,并解决了差分隐私 PCA 中的一个公开问题。

Stealthy Yet Effective: Distribution-Preserving Backdoor Attacks on Graph Classification

提出 DPSBA,一种面向图分类的 clean-label 后门攻击框架,通过对抗训练生成分布内(in-distribution)触发子图,同时抑制结构异常和语义异常,在保持高攻击成功率的同时显著提升隐蔽性。

Stochastic Regret Guarantees for Online Zeroth- and First-Order Bilevel Optimization

提出了一种新的搜索方向并证明基于该方向的一阶和零阶在线双层优化算法能够在不需要窗口平滑的条件下实现次线性随机双层遗憾保证,同时通过降低 oracle 依赖、并行更新和零阶 Hessian/Jacobian 估计来提升效率。

Taught Well, Learned Ill: Towards Distillation-Conditional Backdoor Attack

本文提出了蒸馏条件后门攻击(DCBA)范式及其实现方法SCAR,通过双层优化在教师模型中植入"休眠"后门,该后门在教师模型上不可检测但会在知识蒸馏过程中被激活传递到学生模型,即使蒸馏数据集完全干净。

The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples

发现机器遗忘的关键安全漏洞:即使遗忘后的模型在统计意义上与重训练模型不可区分,对遗忘样本施加微小对抗扰动后,遗忘模型仍能正确识别而重训练模型则失败——揭示了"残余知识"这一新型隐私风险。提出 RURK 微调策略,通过惩罚对扰动遗忘样本的正确预测来消除残余知识,在 CIFAR-10 和 ImageNet-100 上有效抑制 11 种遗忘方法的残余知识。

Understanding and Improving Adversarial Robustness of Neural Probabilistic Circuits

理论分析神经概率电路(NPC)的对抗鲁棒性仅取决于属性识别模型而与概率电路无关,并提出 RNPC 通过类级推理集成方式实现可证明的鲁棒性提升,在保持良性准确率的同时显著增强对抗鲁棒性。

Understanding Challenges to the Interpretation of Disaggregated Evaluations of AI

通过因果图模型分析表明,分组评估(disaggregated evaluation)中跨子群体的性能差异不一定意味着不公平,而可能是数据生成过程中分布差异的自然结果,建议结合因果假设和加权评估补充标准分组评估。

Unifying Proportional Fairness in Centroid and Non-Centroid Clustering

将质心聚类(centroid)和非质心聚类(non-centroid)的比例公平性研究统一到"半质心聚类"框架中,证明了两者不可同时实现的不可能性定理,并设计了新算法在双度量损失下实现常数倍近似的核(core)保证。

Unifying Re-Identification, Attribute Inference, and Data Reconstruction Risks in Differential Privacy

基于假设检验解释的 f-DP 框架,统一了差分隐私中重识别、属性推断和数据重建三类隐私风险的界定,提供更紧致一致的风险上界,使噪声校准可减少 20% 且不降低安全性。


💡 LLM 推理

AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling

提出 AbbIE,一种将 decoder-only Transformer 的中间层(Body)进行递归迭代的架构,只需训练时用 2 次迭代,推理时即可通过增加迭代次数实现 upward generalization,在语言建模困惑度和 zero-shot ICL 任务上均超过标准 Transformer,且可作为标准 Transformer 的 drop-in 替代。

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

提出 Adaptive Dual Reasoner (ADR)——让推理模型在 fast thinking(简单推理步骤压缩)和 slow thinking(复杂推理步骤保留深度)之间动态切换,通过 SFT 冷启动 + EHPO(熵引导混合策略优化)训练,在数学推理基准上准确率提升最高 6.1% 同时推理 token 减少 49.5%-59.3%。

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

首次系统分析了大推理模型(LRM)在机器翻译MQM评估中的行为,发现LRM存在"过度思考"、评分高估和材料选择依赖模型规模等问题,并提出ThinMQM方法通过训练合成人类评分轨迹来校准LRM思维过程,将思维预算减少约35倍同时提升评估性能(7B模型提升+8.7相关性分数)。

ARM: Adaptive Reasoning Model

ARM 通过让模型自适应地选择四种推理格式(直接回答、短CoT、代码、长CoT),配合改进的 Ada-GRPO 训练算法解决 format collapse 问题,在保持与纯长CoT模型持平的准确率的同时平均节省 ~30% token,最多节省 ~70%。

Atom of Thoughts for Markov LLM Test-Time Scaling

提出 Atom of Thoughts (AoT),将 LLM 推理建模为马尔可夫链,每个状态是与原问题答案等价但复杂度递减的自包含子问题,通过 DAG 分解+收缩的两阶段转移机制消除历史依赖,可与 ToT/反思等方法无缝集成,在数学/代码/多跳QA等6个benchmark上全面领先现有推理框架。

Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations

提出 ChemCoTBench,首个评估 LLM 化学推理能力的 CoT 基准,将复杂化学问题分解为模块化的化学操作(加/删/替换官能团),配合 22,000 条专家标注的 CoT 数据集(ChemCoTDataset),系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。

Clip-and-Verify: 线性约束驱动的域裁剪加速神经网络验证

提出Clip-and-Verify验证流水线,利用线性界传播过程中"免费"产生的线性约束,通过完全裁剪(坐标上升对偶求解)和松弛裁剪(闭式输入域收缩)两种GPU高效算法收紧全网络中间层界,在多个benchmark上减少高达96%的BaB子问题数量,是VNN-COMP 2025获胜验证器的核心组件。

Controlling Thinking Speed in Reasoning Models

通过表示工程(Representation Engineering)从 LRM 的隐藏空间中提取控制快/慢思考转换的 steering vector,结合基于层间 logit 散度的实时推理难度估计,实现无需训练的自适应推理速度调节,在 4 个 LRM 上平均提升 +1.3% 准确率并减少 -8.6% token 使用。

CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring

在 AI Control 框架下系统评估了 Chain-of-Thought 监控的有效性:发现 CoT 监控在检测微妙破坏行为上比仅监控 action 更有效(+10pp),但在检测明显破坏行为时反而更差(-25pp,因为推理中的伪合理化会欺骗监控),提出 hybrid 监控协议(独立评分 CoT 和 action 后加权)在所有场景下一致优于两种单一监控,检测率提升 2 倍。

Curriculum Abductive Learning

提出 Curriculum Abductive Learning (C-ABL),通过将知识库按依赖结构分割为子知识库并渐进式引入训练,大幅缩小 ABL 的 abduction 搜索空间,显著提升训练稳定性、收敛速度和最终精度。

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

分析 GRPO 目标函数,揭示其固有的难度偏差(对过难/过易问题赋予过低权重)和熵不稳定性问题,提出基于判别学习的 DisCO 框架,通过无裁剪评分函数、平方铰链约束优化和 DRO 处理不平衡 rollout,在 1.5B 模型上平均超过 GRPO 7%、超过 DAPO 6%。

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

通过系统实验揭示 LRM 测试时扩展(反复 "Wait" 提示延长推理)的性能呈先升后降的非单调趋势,用概率模型证明这种"提升"只是方差增大导致的海市蜃楼而非真正推理能力提升,并提出 parallel thinking 策略在相同 token 预算下准确率提升最高 22%。

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

提出 DreamPRM,通过双层优化自动学习多模态推理数据集的域权重,解决 PRM 训练中的数据质量不均衡问题,在 MathVista 排行榜上以 o4-mini 模型达到 85.2% 的 top-1 准确率。

Exact Expressive Power of Transformers with Padding

本文精确刻画了带 padding 的 Transformer 的表达能力:固定深度 + 多项式 padding 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^0\),进一步结合 \(O(\log^d n)\) looping 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d\),polylog looping 收敛到 \(\mathsf{NC}\),为 padding/looping 作为可并行推理时计算提供了完整理论基础。

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning

提出 Self-Explanation Policy Optimization (ExPO),一种通过让模型在给定正确答案条件下自主生成推理链(self-explanation)作为正样本的模块化框架,解决 GRPO 等 RL 后训练方法在困难推理任务上因缺乏有效正样本而无法学习(分布锐化)的根本问题——ExPO 生成的自解释样本既在当前策略分布内(in-distribution),又能提供正向学习信号,可无缝集成到 DPO 和 GRPO 中。

GPO: Learning from Critical Steps to Improve LLM Reasoning

GPO 通过蒙特卡洛模拟估计推理轨迹中每一步的优势函数,识别出"关键步骤"(模型犯错的转折点),然后从关键步骤重置并重新采样轨迹用于训练,可以即插即用地提升 PPO、DPO、KTO、SimPO、ORPO 等多种优化算法在推理任务上的表现。

I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

提出 I-RAVEN-X,一个增强版的符号化推理基准,通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性,发现 LRM 在确定性推理上显著优于 LLM,但在不确定性推理下性能急剧下降。

Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals

提出 KAPPA (KL-Adjusted Pruned Path Algorithm),利用 KL 散度、置信度和熵三个无需额外训练的信号对 Best-of-N 采样的推理分支进行渐进式剪枝,在保持准确率的同时实现最高 60% 峰值内存和 90% token 生成量的削减。

笔记1: CoT是幻觉吗?数据分布角度

通过构建完全可控的抽象环境DataAlchemy,本文揭示CoT推理是一种幻觉——其有效性完全由训练数据分布主导,在分布外场景表现极其脆弱。

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

本文提出了一种基于分位数回归的PRM校准方法,使PRM输出的分数更准确地反映LLM实际推理成功概率,并基于校准后的PRM设计了实例自适应推理时缩放(IAS)策略,在保持准确率的同时显著降低推理成本。

Large Language Models Can Learn and Generalize Steganographic Chain-of-Thought under Process Supervision

证明 LLM 在 RL 训练中受到 CoT 过程监督(惩罚特定字符串出现)时,会自发学会隐写术(steganography)——用替代编码隐藏被禁止的推理步骤,且这种编码是因果性的(load-bearing)并能泛化到训练中从未见过的字符串。

Latent Chain-of-Thought for Visual Reasoning

将视觉CoT推理重新建模为后验推断问题,提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%,在7个视觉推理基准上达到开源SOTA。

Let LRMs Break Free from Overthinking via Self-Braking Tuning

提出 Self-Braking Tuning (SBT) 框架,通过识别推理轨迹中的过度思考模式并构造自适应长度训练数据,使大型推理模型(LRM)学会自主判断何时停止推理,在数学推理任务上减少 30%-60% token 消耗的同时保持精度。

Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones

本文从理论和实验两方面证明:存在推理任务(图连通性问题),其中一条长 CoT(顺序缩放)的能力等价于指数多条短 CoT(并行缩放)——即将 CoT 长度减少一点点,就需要指数级增加并行采样数才能达到同等准确率。

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

提出PIR(基于困惑度的重要性精炼)框架,将LRM蒸馏的推理链分为"渐进推理"和"功能性步骤"(验证/多方法验证/纠错)两类,仅裁剪低PIR值的功能性步骤而完整保留渐进推理骨架,使微调后的模型在AIME/AMC/GPQA上准确率提升0.9%-6.6%同时token减少3%-41%,效率最高提升71%。

Lost in Transmission: When and Why LLMs Fail to Reason Globally

提出有界注意力前缀预言机(BAPO)计算框架,将LLM的注意力头建模为有限带宽通信信道,证明图可达性等全局推理问题是BAPO-hard的(需超常数带宽),且CoT可将任何BAPO-hard问题转化为BAPO-easy问题,实验在GPT-4o/Claude/Gemini上验证理论预测。

Many LLMs Are More Utilitarian Than One

在6款LLM的对照实验中发现"功利主义增强(Utilitarian Boost)"现象——LLM在成对/三人组讨论道德困境后比独立判断时更倾向接受"为了多数人的利益而伤害少数人",这一效应在涉及直接伤害的个人困境中尤为显著(\(\beta=0.31, p<.0001\)),且各模型产生功利主义增强的机制不同(有的因规范敏感性降低,有的因公正性增强)。

Mapping Faithful Reasoning in Language Models

提出Concept Walk框架,通过将推理模型每步的残差流激活投影到从对比数据学到的概念方向上,追踪内部概念表示在推理过程中的演化轨迹,以此区分CoT链是真正参与计算的还是仅为事后合理化的装饰性输出。

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象,提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤,在 NuminaMath 上最高提升 +5.87%,并可作为即插即用模块增强蒸馏和 RL 流程。

On Learning Verifiers and Implications to Chain-of-Thought Reasoning

提出学习Chain-of-Thought验证器的形式化PAC框架,定义三种递进强度的验证目标(Simple → Trustable → γ-Trustable),证明当每个问题只有少量正确证明时样本复杂度为 \(O(\log|H|)\),但当正确证明数量不受限时样本复杂度不可避免地跃升至 \(\Theta(|H|)\),除非验证器类满足交集封闭性等额外结构假设;同时利用USAT问题证明验证与生成之间存在计算复杂度差距。

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model

本文提出 Deadlock Attack,通过优化单个对抗性 token embedding 并以后门方式植入 LRM,使模型在推理时陷入永久思考循环(无限生成 "Wait"、"But" 等过渡词),在 4 个 LRM 和 3 个数学推理 benchmark 上实现 100% 攻击成功率,且对正常输入几乎无性能影响。

ProofSketch: Efficient Verified Reasoning for Large Language Models

提出 ProofSketch 框架,通过符号闭包前向推理+短sketch生成+形式验证的多阶段pipeline,在降低token用量的同时提供逻辑推理的形式化正确性保证。

Provable Scaling Laws for the Test-Time Compute of Large Language Models

提出 Knockout(淘汰赛式两两淘汰)和 League(联赛式平均胜率排序)两种两阶段测试时计算算法,在"LLM 能以非零概率生成正确解"和"LLM 两两比较优于随机"的极弱假设下,从理论上证明失败概率随测试时计算量增长呈指数或幂律衰减至零,且整个算法仅需黑盒 LLM,无需外部验证器或奖励模型。

Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning

提出Re-FORC,一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\),将推理计算分配建模为Pandora's box问题,实现自适应早停(节省26%计算)、模型+计算联合选择(同等计算下+4%准确率或同等准确率-55%计算)和测试时计算伸缩(+11%准确率),且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡,无需重训。

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics

提出 RealMath,一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准,用于评估 LLM 在真实研究级数学任务上的能力。

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

ReasonFlux-PRM 发现现有 PRM 无法有效评估推理模型的中间思考轨迹(trajectory),提出融合步骤级对齐/质量/连贯性分数和轨迹级模板引导奖励的 trajectory-aware PRM,在离线数据选择(SFT +12.1%)、在线 RL 奖励(+4.5%)和测试时 Best-of-N 缩放(+6.3%)三个场景中均显著优于包括 Qwen2.5-Math-PRM-72B 在内的强基线。

Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought

本文从理论上证明了连续思维链(Coconut)在有向图可达性问题上的表达优势:两层Transformer使用D步连续思维即可解决直径为D的图可达性问题,而离散CoT需要O(n²)步,其核心机制是连续思维向量以"叠加态"同时编码多条搜索前沿,实现隐式并行BFS。

Reasoning Models Better Express Their Confidence

系统性证明推理模型(extended CoT)比非推理模型具有显著更优的置信度校准能力,并揭示"慢思考"行为(探索替代方案、回溯、验证)是校准提升的根本来源。

Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models

揭示了RL训练的推理模型(如DeepSeek-R1)比非推理模型产生更多幻觉,从理论上分析了三个根因(高方差梯度、熵约束、伪局部最优),并提出FSPO算法通过步级事实性验证调整token级advantage,在减少幻觉的同时保持甚至提升推理能力。

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

提出 Variable Granularity Search (VG-Search),通过可调的验证粒度参数 \(g\) 统一 Beam Search 和 Best-of-N,发现传统每步验证是次优的,自适应调整 \(g\) 可在提升准确率3%+的同时减少52%+的计算量。

SafePath: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment

提出 SafePath,仅在推理开始处微调 8 个 token 的"Safety Primer"("Let's think about safety first"),即可有效引导 LRM 走向安全推理路径,在 DeepSeek-R1-Distill 上减少 90% 有害输出且仅需 Direct Refusal 1/296 的训练计算量。

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

提出 Self-Truncation Best-of-N (ST-BoN) 解码方法,通过理论证明早期隐状态一致性可预测最终一致性,在生成早期就识别并截断次优样本,实现降低80%+内存和50%延迟的同时保持BoN性能。

Scalable Best-of-N Selection for Large Language Models via Self-Certainty

提出Self-Certainty度量,利用LLM输出的token概率分布量化模型信心,在无需额外奖励模型的情况下实现可扩展的Best-of-N选择,性能媲美或超越基于奖励模型的方法。

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

提出SPO框架,采用段级(而非令牌级或轨迹级)的advantage估计,通过新颖的蒙特卡洛方法和树形采样,在短CoT和长CoT场景下分别超越PPO和GRPO 6-12和7-11个百分点。

笔记8:PolyMath - 多语言背景下的数学推理评估

PolyMath构建的18语言、4难度级、500问题数学推理基准揭露:(1)推理性能跨语言差异达10分,(2)推理模型输入-输出语言一致性低且可能影响性能,(3)思考长度在语言间显著不一致,为多语言推理研究提供新视角。

Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards

将 Phi-4 系列小模型(3.8B/14B)的最后一层替换为回归头并微调,使其同时具备 ORM(结果奖励)和 PRM(过程奖励)能力,在代码生成任务上通过选择最优 rollout 实现 20%+ 的 pass@k 提升。

SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

通过将长链式推理轨迹重组为交替的规划-并行执行阶段,Sprint 使推理模型在保持准确率的同时,将长推理链的顺序 token 数减少高达 39%(OOD 任务上最高 65%),实现推理过程的动态并行化。

SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

提出 SQL-of-Thought——一个多智能体 Text-to-SQL 框架,将任务分解为 schema linking → 子问题识别 → CoT 查询计划生成 → SQL 生成 → 基于 31 类错误分类法的引导修正循环,用 Claude 3 Opus 在 Spider 上达到 91.59% 执行准确率,比此前最佳 Chase SQL(87.6%)提升近 4 个百分点。

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

首次系统地将 GRPO 强化学习应用于 NL2SQL 任务,通过四层递进式奖励函数和 200K 冷启动 + 5K 复杂样本 RL 训练策略,7B 模型在 Spider 和 BIRD 上分别达到 88.7% 和 66.6%,超越 GPT-4 同规模模型。

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

PURE 发现 PRM 导致 reward hacking 的根本原因是 RL 中标准的 sum-form 信用分配(\(V(s) = \sum \gamma^t r_t\)),并提出 min-form 替代方案(\(V(s) = \min_{t' \geq t} r_{t'}\)),通过将价值函数限制为未来奖励的最小值而非累积和,显著缓解 reward hacking——仅用 30% 训练步数就达到与规则奖励方法相当的推理性能。

The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness

首次系统量化推理型LLM的"测试感知"(Hawthorne效应):当模型察觉自己在被评估时会改变行为,论文通过线性探针定位感知激活并进行参数编辑引导,揭示测试感知对安全对齐的显著且方向不一致的影响。

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

通过可控拼图环境系统揭示大型推理模型(LRMs)的三阶段行为:低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%),且反直觉地在崩溃时减少思考 token,证实当前 LRMs 并未发展出真正泛化的推理能力。

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

系统实验发现在大推理模型的 RL 训练中,量化感知训练(QAFT/STE)会损害推理能力,而训练后量化(PTQ)和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能,为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

将可验证奖励的强化学习(RLVR)分解为正样本强化(PSR,增强正确回答概率)和负样本强化(NSR,惩罚错误回答),发现仅用 NSR 就能在整个 Pass@k 谱上持续提升推理性能且通常匹配或超越 PPO/GRPO,据此提出 Weighted-REINFORCE(降低 PSR 权重至 0.1)在 MATH/AIME 2025/AMC23 上取得全面最优。

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning

证明在推理模型的 Best-of-N 采样中,选择最短解是一个简单、反直觉但高效的启发式方法,性能与 self-consistency 相当,token 成本显著更低,其原理在于利用了模型在"常规模式"与"过度思考模式"之间的系统性偏差。

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

提出三阶段交互式视频转音频框架 ThinkSound,通过 MLLM 生成结构化 CoT 推理来指导统一的音频生成基础模型,在 VGGSound 和 MovieGen Audio 基准上达到 SOTA,同时支持对象级精细化和自然语言指令编辑。

TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

提出 TimE,一个包含 38,522 个 QA 对的多层级时间推理基准,覆盖知识密集(Wiki)、动态新闻(News)、长对话(Dial)三种真实场景和三级渐进式 11 子任务,全面评估 24 个 LLM 后发现即便最强推理模型在时间线构建和反事实推理等复杂任务上仍有显著短板。

TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

本文提出 TimE,一个包含 38,522 个 QA 对的多层级时间推理基准,覆盖知识密集(Wiki)、动态事件(News)和多轮对话(Dial)三类真实场景,设计 11 个细粒度子任务系统评估 LLM 的时间推理能力,并发布人工标注子集 TimE-Lite。

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties

提出"推理图"概念——通过对 LLM 隐藏状态聚类构建有向图,从环路密度、直径和小世界指标三个图论维度分析大推理模型(如 DeepSeek-R1 蒸馏系列),发现推理模型的推理图具有显著更多环路(~5/样本)、更大直径和更强小世界特性(~6倍),且这些特性随任务难度和模型规模增长。

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

揭示了过度延长 CoT 长度会损害 LLM 推理性能,并提出 Thinking-Optimal Scaling (TOPS) 策略,让模型为每道题选择最短正确响应进行自我提升,在效果和效率上同时优于现有蒸馏方法。

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

从优化理论角度证明了一层 Transformer 通过梯度下降在合成状态追踪任务上能学会 CoT 推理并实现长度泛化,首次为常数深度 Transformer 学习 \(\mathsf{NC}^1\)-complete 问题(超越之前局限于 \(\mathsf{TC}^0\) 的理论)提供了收敛保证。

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

提出 TTS-VAR——首个针对 Visual Auto-Regressive (VAR) 模型的测试时扩展框架,将图像生成建模为路径搜索问题,通过自适应递减批量 + 早期聚类多样性搜索 + 后期重采样潜力选择,在 Infinity 2B 上将 GenEval 分数从 0.69 提升到 0.75(+8.7%),N=2 即超越 Best-of-N 的 N=8 效果。

Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion

提出两阶段训练框架——先用 Zubov 采样 + 动态域扩展估计吸引域(ROA),再用 CEGIS 反例精炼——联合学习神经网络控制器和 Lyapunov 函数,ROA 体积比基线大 5 到 \(1.5 \times 10^5\) 倍,验证速度比 dReal 快 40-10000 倍。

Unlabeled Data Can Provably Enhance In-Context Learning of Transformers

提出增强型ICL框架,在prompt中同时包含少量标记样本和大量无标记样本,理论证明多层Transformer通过CoT可模拟EM算法从无标记数据中提取信息,将分类excess risk从 \(\mathcal{O}(1/\sqrt{N})\) 改进到 \(\mathcal{O}(1/\sqrt{N + \text{poly}(M)})\)

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

提出URSA三阶段框架,依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL,8B模型在6个数学基准上平均超越GPT-4o 2.7%。

笔记6:Self-Evaluating LLMs - 多步任务的步级置信度估计

本文扩展置信度估计到多步任务,证明步级评估相比整体评估能更有效地检测推理失败,相对整体评估在CoQA上AUC-ROC提升15%,为多步推理系统的可信部署提供实用框架。

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

提出"视觉思维(Visual Thoughts)"作为统一框架解释多模态链式推理(MCoT)的有效性——无论是文本MCoT还是交错图文MCoT,其性能提升的核心机制都是将视觉信息缓存并传递到推理过程中,定义了四种视觉思维表达形式并揭示其在Transformer深层中作为图像-推理中介的角色。


📹 视频理解

A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers

本文证明了将 Transformer 的深度从常数增长到 Θ(log n) 就能解锁识别正则语言和图连通性这两类固定深度 Transformer 无法表达的问题,且深度扩展比宽度(需超多项式增长)和 CoT 步数(需超对数增长)都更高效。

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

提出 AdaVideoRAG,通过轻量级意图分类器将查询按难度路由到三级检索路径(无检索/朴素检索/图检索),结合全知识索引模块(caption+ASR+OCR+视觉+知识图谱)实现长视频理解的效率-精度最优平衡,在 MLVU 上为 Qwen2.5-VL-7B 带来 39.8% 提升。

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

ALMI提出上下半身对抗训练框架:下半身策略在上半身动作干扰下学习鲁棒运动,上半身策略在下半身运动干扰下学习精确动作模仿,通过迭代对抗训练收敛到Nash均衡,实现Unitree H1-2真实机器人的稳定全身协调控制。

Agentic Persona Control and Task State Tracking for Realistic User Simulation

提出三 agent 协作框架用于逼真的用户模拟——User Agent(协调)+ State Tracking Agent(结构化任务状态)+ Message Attributes Generation Agent(基于 persona 和状态的行为属性控制),在餐厅点餐场景中综合仿真质量(CRRS)提升 102.6%,persona 保持度 +19.9%,行为自然度 +284.5%,且核心发现:无状态感知的行为控制导致 BVS=0(完全刚性)。

CleverBirds: A Multiple-Choice Benchmark for Fine-grained Human Knowledge Tracing

提出CleverBirds——迄今最大规模的视觉知识追踪基准,通过eBird公民科学平台收集了40000+参与者完成的1700万+多选鸟类物种识别问答(涵盖10000+物种),系统性评估了多种知识追踪与分类方法,揭示了细粒度视觉知识建模特别是预测学习者错误选择方面的核心挑战。

Cloud4D: Estimating Cloud Properties at a High Spatial and Temporal Resolution

首个基于地面多视角相机的学习框架,通过单应性引导的2D-to-3D Transformer重建四维(3D空间+时间)云液态水含量分布,在25m空间/5s时间分辨率下实现了相对雷达<10%的误差,比卫星观测提升了一个数量级的时空分辨率。

ConViS-Bench: Estimating Video Similarity Through Semantic Concepts

提出基于语义概念的视频相似度估计任务 ConViS 及配套 benchmark ConViS-Bench(610对视频、16领域、5概念),系统评测了10+主流模型在概念条件下的视频比较能力,揭示当前模型在时序结构和空间语境理解上的显著短板。

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

提出 DeltaProduct,通过将 DeltaNet 的单步梯度下降扩展至每个 token 的多步梯度下降,使状态转移矩阵成为 \(n_h\) 个广义 Householder 变换的乘积,实现了表达力与效率之间的可调平衡,显著提升了状态跟踪能力和长度外推性能。

Dense SAE Latents Are Features, Not Bugs

本文系统研究了稀疏自编码器(SAE)中频繁激活的"dense latents",证明它们不是训练噪声,而是语言模型残差流中固有的密集子空间的反映,并提出了一套包含位置追踪、上下文绑定、零空间、字母、词性和PCA等六类dense latent的分类体系。

Disentangled Concepts Speak Louder Than Words: Explainable Video Action Recognition

提出DANCE框架,通过将动作解释解耦为运动动态、物体和场景三类概念,实现结构化和运动感知的可解释视频动作识别。

DSAS: A Universal Plug-and-Play Framework for Attention Optimization in Multi-Document Question Answering

提出Dual-Stage Adaptive Sharpening (DSAS),一个无需训练的即插即用注意力优化框架,通过Contextual Gate Weighting (CGW)增强关键段落对问题和目标位置的注意力、通过Reciprocal Attention Suppression (RAS)抑制关键与无关段落间的信息交换,在多文档QA上平均F1提升达4.2%。

DualGround: Structured Phrase and Sentence-Level Temporal Grounding

本文发现现有视频时间定位模型过度依赖 [EOS] token 的全局句子语义而忽略词级信号,提出 DualGround 双分支架构,通过句子级路径(自适应交叉注意力)和短语级路径(循环短语生成+Slot Attention)显式分离全局和局部语义,在 QVHighlights 和 Charades-STA 上实现 SOTA。

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

提出egoEMOTION——首个结合第一人称视觉(Meta Project Aria眼镜)与生理信号的情感与人格识别数据集,涵盖43名被试、50+小时录制、16种任务,发现第一人称视觉信号(尤其眼动特征)在真实场景情感预测中优于传统生理信号。

EgoGazeVQA: Egocentric Gaze-Guided Video Question Answering Benchmark

提出 EgoGazeVQA,首个融合用户眼动注视数据的第一人称视频问答基准,通过注视引导的提示策略(文本/视觉/显著性图)显著提升 MLLM 对用户意图的理解能力,Gaze Salience Map 策略最高可将 MiniCPM-o 的准确率从35.9%提升至53.7%。

Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding

DualGround揭示现有VTG模型过度依赖[EOS] token的全局语义而忽略词级信号的问题,提出句子级+短语级双路径架构,通过自适应交叉注意力和循环短语生成器分别建模全局和局部语义,在QVHighlights和Charades-STA上达到SOTA。

Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders

提出 STAVEQ2,在 Vision Encoder 中堆叠参数高效的时序注意力模块(STA),解决现有 Video-LLM 在细粒度时序理解(如区分"从左到右拉"和"从右到左拉")上的根本性架构缺陷,在 VITATECS/MVBench/Video-MME 上提升最高 5.5%。

FastVID: Dynamic Density Pruning for Fast Video Large Language Models

提出 FastVID,通过动态时序分割 (DySeg) + 密度空时剪枝 (STPrune) 从时间和视觉两个维度系统性消除视频 token 冗余,在 LLaVA-OneVision-7B 上剪掉 90.3% 视频 token 后仍保留 98% 精度,LLM prefill 阶段加速 7.1×。

Fixed-Point RNNs: Interpolating from Diagonal to Dense

提出 Fixed-Point RNN 框架,将稠密线性 RNN 参数化为对角线性 RNN 的不动点,通过迭代次数在对角(高效)与稠密(表达力强)之间动态插值,首次在状态跟踪(\(A_5\)/\(S_5\))和拷贝任务上同时取得最优结果。

Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

提出一种融合 V-JEPA 2 视觉上下文特征与 CoMotion 3D 骨骼姿态数据的 cross-attention 多模态架构,在标准及高遮挡动作识别基准上优于单模态基线。

InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

提出首个无需训练、查询无关的流式视频理解框架InfiniPot-V,通过时序冗余度(TaR)和值范数(VaN)两个度量实现KV缓存的在线压缩,在固定内存约束下支持任意长度的流式视频理解。

InFlux: A Benchmark for Self-Calibration of Dynamic Intrinsics of Video Cameras

提出首个包含逐帧动态相机内参真值的真实视频基准 InFlux(386 视频、143K+ 标注帧),通过镜头元数据到内参的查找表(LUT)实现精确标注,并揭示现有内参预测方法在动态内参场景下表现不佳。

INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning

提出Inst-IT完整方案:通过GPT-4o辅助的自动标注管线生成实例级细粒度数据,构建Inst-IT Bench评测基准和335K QA对的指令微调数据集,以持续微调范式有效提升LMM的实例级理解能力,同时增强通用图像/视频理解。

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

提出 PBHC 框架,通过物理感知运动处理流水线和自适应跟踪因子的双层优化,使人形机器人(Unitree G1)学会功夫、舞蹈等高动态全身动作,跟踪误差显著优于现有方法并成功实机部署。

Lattice Boltzmann Model for Learning Real-World Pixel Dynamicity

受流体力学中格子玻尔兹曼方法启发,提出 LBM(Lattice Boltzmann Model)用于在线实时像素跟踪,将视频像素建模为流体格子并通过碰撞-流式过程求解运动状态,以 18M 参数实现 SOTA 在线跟踪性能且可在边缘设备上实时运行。

Less is More: Local Intrinsic Dimensions of Contextual Language Models

提出利用上下文 token 嵌入的局部内在维度(Local Intrinsic Dimension, LID)来无监督监测 LLM 训练动态——维度下降预示泛化改善,维度上升预示过拟合——在对话状态跟踪、grokking、情感识别等任务上验证了这一几何信号的实用性。

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

提出 LiveStar,一个始终在线的直播流视频理解助手,通过 Streaming Causal Attention Masks (SCAM) 训练策略和 Streaming Verification Decoding (SVeD) 推理框架,实现自适应响应时机判断,在 OmniStar 基准上语义正确性提升 19.5%,时间偏差降低 18.1%。

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

提出 MEMTRACK 基准,评估 LLM 智能体在多平台(Slack/Linear/Git)动态环境中的长期记忆和状态追踪能力,揭示即使最强的 GPT-5 也仅达 60% 正确率。

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

构建首个基于哑剧视频的非语言社交推理基准 MimeQA,包含101个视频和806个QA对,覆盖三层问题层次(具象识别→场景理解→全局推理),揭示当前VideoLLMs在非语言社交理解上的严重不足(20-30% vs 人类86%)。

MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence

提出 MUVR 基准,面向长视频平台的多模态未剪辑视频检索任务,设计了以视频为中心的多模态查询格式(视频+文本+标签+掩码)和六级视觉对应匹配准则,包含 53K 视频和 1050 个查询,系统评估了检索模型和 MLLM 的局限性。

Neural Stochastic Flows: Solver-Free Modelling and Inference for SDE Solutions

提出 Neural Stochastic Flows(NSF),通过条件归一化流直接学习 SDE 的转移分布 \(p(x_t \mid x_s)\),在架构上约束满足随机流性质(恒等、Markov、Chapman-Kolmogorov),实现了无需数值求解器的单步采样,在远距时间点上加速高达两个数量级。

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

受神经生物学中海马体位置细胞导航与记忆巩固机制启发,提出 NeuroPath——一个基于语义路径追踪的 RAG 框架,通过 LLM 驱动的目标导向路径构建和后检索补全策略,在多跳问答任务上实现 recall@2 平均 16.3% 和 recall@5 平均 13.5% 的提升。

Open-World Drone Active Tracking with Goal-Centered Rewards

提出首个开放世界无人机主动跟踪基准 DAT(24 个城市级场景、高保真动力学仿真),以及基于目标中心奖励函数和课程学习的强化学习跟踪方法 GC-VAT,在仿真器上达到约 72% 的跟踪成功率。

PASS: Path-Selective State Space Model for Event-Based Recognition

PASS提出路径选择性事件聚合与扫描(PEAS)模块和多面选择引导(MSG)损失,利用SSM的线性复杂度和频率泛化能力,实现了从10^6到10^9事件长度的广泛分布上的事件识别,并在推理频率变化时保持性能仅下降8.62%(基线下降20.69%)。

PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?

通过提出四项运动中心的探测技术和 MoCentric-Bench 基准,证明当前视频多模态 LLM 在像素级视觉接地任务中未能真正利用运动信息,可被静态关键帧欺骗。

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

本文首次提出在线音视频事件解析(On-AVEP)范式,通过预测性未来建模框架 PreFM,利用伪未来序列增强当前上下文理解,同时借助模态无关的知识蒸馏和焦点时间优先策略,以仅 2.7% 的参数量超越离线 SOTA 方法 +9.3 的事件级平均 F1 分数。

QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code

提出NeuComBack基准数据集用于评估IR到汇编的神经编译任务,并设计自进化提示优化方法,通过从LLM自调试轨迹中学习来迭代改进编译提示,使正确率从44%提升到64%,且87.5%的正确程序性能超越clang-O3。

Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

系统性地重新审视 RNN 中的双线性状态转移(隐状态与输入的乘法交互),理论证明双线性 RNN 可模拟任意有限状态机,并展示其在去除加性项后形成了一个从对角到全结构的自然表达力层次,揭示了 Mamba 等流行线性 RNN 处于该层次最低端。

SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models

提出 SAMA 框架,通过构建统一的数据集(SAMA-239K)、模型(时空上下文聚合器 + SAM)和基准(SAMA-Bench),首次实现了多轮引用式视频对话中细粒度时空理解与grounding的联合建模。

Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition

系统分析了动作识别中背景偏差在分类模型、对比预训练模型(CLIP/SigLIP2)和视频大语言模型(VLLM)三类范式中的普遍存在,并提出两条缓解路径:分类模型通过双分支架构融合分割人体输入降低SBErr 3.78%,VLLM通过自动化prompt tuning降低SBErr 9.85%。

Seeing the Arrow of Time in Large Multimodal Models

本文揭示当前大多模态模型(LMMs)对视频时间方向性(时间箭头)出人意料地不敏感——正放/倒放时答案几乎相同,提出基于 GRPO 的 ArrowRL 训练策略引入反向视频奖励来激发时间方向感知,并构建 AoTBench 基准,在多个 VQA 基准上取得显著提升(Vinoground 上相对提升 65.9%)。

SmartWilds: Multimodal Wildlife Monitoring Dataset

发布首个同步多模态野生动物监测数据集SmartWilds,整合无人机影像、相机陷阱和生物声学三种模态共101GB数据,通过GPS/时间戳实现跨模态对齐,建立可重复的保护监测标准协议,填补综合性生态系统多传感器融合数据集的空白。

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

本文提出 STAR 框架,通过构建包含 22 个工具的视频分析工具箱,让 LLM 交替调用时间和空间工具渐进式定位视频中的 3D 关注区域(3D RoI),在 VideoMME 上提升 8.2%、LongVideoBench 上提升 4.6%。

Steering When Necessary: Flexible Steering Large Language Models with Backtracking

提出 FASB(Flexible Activation Steering with Backtracking)框架,通过跟踪 LLM 生成过程中的内部状态动态判断干预必要性和强度,并引入回溯机制纠正已偏离的 token,在 TruthfulQA 上 True*Info 达 80.56%、6 个多选任务平均准确率 78.8%,显著优于所有基线。

Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models

本文提出 PD-SSM,一种结构化稀疏参数化方法用于状态空间模型(SSM)的状态转移矩阵。核心思想是将转移矩阵分解为列 one-hot 矩阵 P 与复数对角矩阵 D 的乘积(A = PD),从而在保持与对角 SSM 相当的计算效率(Θ(LN))的同时,获得与非结构化(稠密)SSM 等同的表达能力——单层即可模拟任意 N 状态有限状态自动机(FSA)。理论上证明了该参数化的 BIBO 稳定性和最优状态维度。实验在 FSA 模拟、多元时序分类、长序列基准和自然语言状态追踪任务中均表现优异。

TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video

本文提出TAPVid-360任务和数据集,要求模型在窄视野视频中跟踪查询点的3D方向(包括视野外的点),通过利用360度视频生成训练数据并微调CoTracker3实现方向预测,在视野外跟踪上远超现有方法。

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

本文提出 TempSamp-R1,一个混合策略强化微调框架,通过将高质量离策略(ground truth)引导融入 GRPO 的在策略采样,并设计非线性软优势估计稳定训练,在视频时间定位任务上实现 SOTA(Charades-STA R1@0.7: 52.9%,ActivityNet R1@0.5: 56.0%)。

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

提出TempSamp-R1强化微调框架,针对GRPO在视频时序定位中因搜索空间巨大而on-policy采样低效的问题,通过引入GT作为off-policy监督信号+非线性软优势估计+混合CoT训练范式,在Charades-STA/ActivityNet/QVHighlights三个基准上达到新SOTA。

The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation

本文通过对OpenAI、Anthropic和Google三大模型家族在52个推理基准上的系统分析,揭示了一种"衔尾蛇"循环模式——旧基准被快速饱和→新基准被创建以维持区分度→新基准又被迅速饱和,由此质疑基准分数的提升是否真正代表了推理能力的泛化进步,还是仅仅反映了对特定评测集的过拟合。

TiRex: Zero-Shot Forecasting Across Long and Short Horizons with Enhanced In-Context Learning

提出基于xLSTM的预训练时间序列预测模型TiRex,通过连续片段掩码(CPM)策略和数据增强技术,在GiftEval和Chronos-ZS两大标准基准上以仅35M参数全面超越Chronos Bolt(200M)、TimesFM(500M)等大模型,同时在短期和长期零样本预测中均达到SOTA。

Token Bottleneck: One Token to Remember Dynamics

提出Token Bottleneck(ToBo),一种自监督视觉表征学习流水线,通过将参考场景压缩为单个瓶颈token、并利用该token与极少量目标场景patch来预测后续场景,使视觉骨干网络同时学会保守编码场景信息和捕获时间动态变化。

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

提出了包含 22 个工具的视频工具包和 STAR(Spatiotemporal Reasoning)框架,通过时间-空间工具交替调度策略渐进式定位 3D RoI,在 VideoMME 上将 GPT-4o 提升 8.2%,同时大幅减少处理帧数和计算开销。

Tracking and Understanding Object Transformations

提出 Track Any State 任务和 TubeletGraph 零样本框架,在视频中跟踪经历外观剧变的物体状态变化(如切苹果、蝴蝶从蛹中羽化),同时检测并描述这些变化。

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

提出TrackingWorld,一个从单目视频实现几乎所有像素的稠密3D跟踪的流水线,通过跟踪上采样器将稀疏2D轨迹提升为稠密轨迹、迭代跟踪所有帧中新出现的物体、以及基于优化的框架将2D轨迹提升到世界坐标系3D空间并显式分离相机运动和物体运动。

Two Causally Related Needles in a Video Haystack

提出Causal2Needles基准(4,100个问答对),通过设计"桥接实体"将两个因果相关事件的理解绑定在一起,强制VLM必须联合检索和推理两个分散在长视频中的"针",揭示现有最强模型在因果双针问题上的严重不足(ChatGPT-4o双针Both准确率仅13.4%)。

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

构建首个大规模小时级视频指令跟随数据集 VideoMarathon(9700小时、330万QA对、22种任务),并提出 Hour-LLaVA 模型,通过记忆仓库+遗忘机制+MemAug模块实现1-FPS下小时级视频的高效训练与推理,在四个长视频基准上全面领先同规模开源模型。

VGEnt: Graph-Based Retrieval-Reasoning-Augmented Generation for Long Video Understanding

提出 VGEnt,一个基于图的检索-推理增强生成框架,通过构建视频知识图谱保留跨片段语义关系,并引入结构化推理步骤过滤噪声、聚合信息,在多个长视频理解基准上一致提升开源 LVLM 3.0%~5.4%,超越现有视频 RAG 方法 8.6%。

Video Finetuning Improves Reasoning Between Frames

本文通过提出视觉思维链(vCoT)方法,系统地比较了图像LLM与视频微调LLM在帧间推理能力上的差异,发现视频微调使模型隐式学会了帧间过渡推理,且这种能力可迁移到静态图像的关系推理任务中。

VideoLucy: Deep Memory Backtracking for Long Video Understanding

提出VideoLucy框架,通过层次化记忆结构和基于Agent的迭代回溯机制,模拟人类从粗到细的回忆过程,在多个长视频理解基准上大幅超越现有方法,甚至超过GPT-4o等商业模型。

Web-Scale Collection of Video Data for 4D Animal Reconstruction

提出一个全自动化的大规模视频数据采集管线,从 YouTube 挖掘并处理得到 30K 动物视频(2M帧),建立首个 4D 四足动物重建基准 Animal-in-Motion(230序列/11K帧),并提出 4D-Fauna 基线方法实现序列级优化的无模型 4D 重建。

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions

提出QV-M2数据集(首个全人工标注的多时刻检索基准)和FlashMMR框架(含后验证模块),将视频时刻检索从单时刻扩展到多时刻场景,建立了多时刻检索的标准化评价体系。

When Thinking Drifts: Evidential Grounding for Robust Video Reasoning

系统揭示了CoT推理在视频理解中经常导致性能下降的"视觉思维漂移"现象,并提出Visual Evidence Reward(VER)强化学习框架,通过显式奖励与视觉证据对齐的推理链来纠正这一问题。


� LLM 安全

A Cramér–von Mises Approach to Incentivizing Truthful Data Sharing

提出一种基于 Cramér-von Mises 两样本检验统计量的激励机制,在贝叶斯和无先验两种设定下均能证明"如实提交数据"构成(近似)Nash 均衡,同时鼓励参与者提交更多真实数据,且不依赖对数据分布的强假设(如高斯、伯努利)。

A Reliable Cryptographic Framework for Empirical Machine Unlearning Evaluation

将机器遗忘的评估问题建模为密码学博弈(unlearning sample inference game),通过定义adversary的"advantage"来衡量遗忘质量,克服了传统MIA准确率作为评估指标的多种缺陷(不以retrain为零基准、对数据划分敏感、对MIA选择敏感),并提出SWAP test作为高效的实用近似方案。

Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning

提出 FedLEASE——解决联邦 LoRA 微调中两个关键问题:(1) 用 LoRA B 矩阵相似度聚类自动确定最优专家数量和分配,(2) 用扩展路由空间(\(2M-1\) 维)实现自适应 top-M 专家选择(每个客户端自动决定用几个专家),在 GLUE 上比最强基线平均提升 5.53%。

Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

提出 Adversarial Paraphrasing——一种无需训练的通用攻击框架,在逐 token 改写时利用 AI 文本检测器的反馈信号选择"最像人写"的 token,使改写后的 AI 文本在 8 种检测器上平均 T@1%F 下降 87.88%,且具有跨检测器的强迁移性。

AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text

提出 AgentStealth 框架,通过对抗式匿名化工作流、监督微调(SFT)和在线强化学习三阶段训练小型语言模型(SLM),实现在保持文本效用的同时有效匿名化用户生成内容,匿名化效果提升12.3%、效用提升6.8%。

ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models

首个针对音频语言模型(ALM)越狱攻击的防御框架——发现对齐过的 ALM 存在可被激活的潜在安全快捷路径(safety shortcuts),通过 Mel 梯度稀疏掩码(M-GSM)定位关键频率段,施加快捷路径激活扰动(SAP),将平均攻击成功率从 41.6% 降至 4.6%,同时几乎不影响正常任务性能。

Angular Steering: Behavior Control via Rotation in Activation Space

提出Angular Steering,将LLM激活引导统一建模为固定2D子空间中的旋转操作——通过旋转角度提供0°-360°的连续、细粒度、范数保持的行为控制旋钮,统一了激活加法和方向消融为旋转的特例,在Llama 3/Qwen 2.5/Gemma 2(3B-14B)上实现鲁棒的行为调控。

Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks Against LLMs

将 LLM 对抗攻击建模为信息通道问题——定义每次查询的"泄漏比特数" \(I(Z;T)\) 为攻击目标属性 \(T\) 与可观测信号 \(Z\) 的互信息,证明攻击达到误差 \(\varepsilon\) 所需最少查询数为 \(\log(1/\varepsilon)/I(Z;T)\),在 7 个 LLM 上验证:暴露 answer tokens 需 ~1000 次查询,加 logits 降到 ~100 次,加思维链降到 ~几十次,为透明性-安全性权衡提供首个原则性标尺。

Buffer Layers for Test-Time Adaptation

提出 Buffer 层作为测试时自适应 (TTA) 的新范式,替代传统的归一化层更新,从根本上保留预训练骨干网络的完整性,有效缓解灾难性遗忘并在多种架构和 TTA 框架中实现一致的性能提升。

Collective Narrative Grounding: Community-Coordinated Data Contributions to Improve Local AI Systems

提出 Collective Narrative Grounding 协议,通过参与式工坊收集社区叙事并结构化为"叙事单元",用 RAG 管道将本地知识注入 LLM 问答系统,在 LocalBench 上发现 76.7% 的错误可由本地叙事直接修复,GPT-5 在参与式 QA 集上仅 21% 正确率凸显了本地知识鸿沟。

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

提出 CI-RL 框架,通过 Chain-of-Thought 推理提示 + GRPO 强化学习,用仅约 700 个合成样本训练 LLM 理解"上下文完整性"(contextual integrity),在 PrivacyLens 基准上将隐私泄露率降低最高 40%,且小模型训练后可超越更大基线模型。

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

提出 CoreGuard,通过行置换(row permutation)锁定 Transformer 线性层权重 + 列置换传播协议(propagation protocol)将 TEE 授权次数降至 1 次,以极低计算和通信开销保护边缘部署 LLM 的基础能力不被模型窃取攻击利用。

CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming

针对竞赛编程中重复/相似题目泛滥导致比赛不公平及 LLM 评测分数虚高的问题,构建了包含四种检索任务的大规模基准 CPRet,并提出 Group-InfoNCE 损失训练的专用检索模型 CPRetriever,在所有任务上超越 20+ 现有嵌入模型,同时揭示了题目相似性对 LiveCodeBench 评测的系统性偏差。

CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing

首个支持 MoE 架构 LLM 隐私推理的框架 CryptoMoE,通过平衡专家路由隐藏路由信息、置信度感知调度协议和批量密文矩阵乘法协议,相比 dense baseline 实现 2.8~3.5× 延迟降低和 2.9~4.3× 通信量降低,准确率损失仅 0.8%。

DeepPersona: A Generative Engine for Scaling Deep Synthetic Personas

提出 DeepPersona——一个两阶段分类引导的合成人格生成引擎:先从真实用户-ChatGPT 对话中挖掘构建 8000+ 节点的人类属性分类树,再通过渐进式属性采样生成平均 200+ 结构化属性的叙事完整人格,在个性化 QA 准确率上提升 11.6%,社会调查模拟偏差缩小 31.7%。

Demystifying Language Model Forgetting with Low-Rank Example Associations

发现 LLM 微调后上游样本遗忘与新学任务之间的关联矩阵具有低秩结构(rank-3 即 \(R^2 > 0.69\)),利用矩阵补全预测未见任务导致的遗忘,指导选择性回放以减轻遗忘。

Differentially Private Federated Low Rank Adaptation Beyond Fixed-Matrix

提出FedASK框架,通过双阶段sketching流水线(randomized SVD启发),首次在差分隐私下实现联邦LoRA中两个低秩矩阵A和B的同步有效更新,在Llama-2 7B/13B上MMLU提升最高11.5%,GSM8K提升46%。

Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values

本文系统评估多个 SOTA LLM(GPT-4o、Claude-3.5S、Llama3-70b、Gemini-1.5P)在非策略性资源分配任务中的分配公平性偏好,发现 LLM 与人类存在显著偏差:LLM 偏好效率和无嫉妒性 (EF) 而忽视人类更看重的公平性/平等性 (EQ),但在选择题模式下 GPT-4o 和 Claude 能正确识别公平方案。

DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm

本文提出 DNA-DetectLLM,一种受 DNA 突变修复机制启发的零样本 AI 文本检测方法,通过构造理想 AI 序列并量化将输入文本修复到该序列的累积难度作为检测信号,在多个基准数据集上取得 AUROC 相对提升 5.55%、F1 提升 2.08% 的 SOTA 效果。

Enhancing CLIP Robustness via Cross-Modality Alignment

提出COLA——一个training-free的框架,通过将对抗扰动后的图像特征投影到文本特征张成的子空间来消除非语义噪声,再用最优传输(OT)在分布层面细粒度对齐图文特征,在14个零样本分类基准上平均提升6.7%的对抗鲁棒准确率,同时维持干净样本性能。

Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples

发现并定义了误标注易学样本(Mislabeled Easy Examples, MEEs)——被模型早期训练即正确预测为错误标签的样本对泛化伤害最大,并提出 Early Cutting 方法利用模型后期状态重新校准早期置信子集来过滤MEEs。

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions

在约 10,000 个真实招聘候选人-职位配对上系统评测了 GPT-4o/4.1、Claude 3.5、Gemini 2.5、Llama 3.1/4、DeepSeek R1 等主流 LLM 的招聘匹配表现,发现专用领域模型 Match Score 在准确性(AUC 0.85 vs 0.77)和公平性(种族 IR 0.957 vs ≤0.809)上全面优于通用 LLM。

Exploring the Limits of Strong Membership Inference Attacks on Large Language Models

首次将强成员推断攻击(LiRA)扩展到10M~1B参数的GPT-2规模LLM,训练超过4000个参考模型,揭示四个关键发现:强MIA可以在LLM上成功但效果有限(AUC<0.7),且大量个体样本决策在训练随机性下与抛硬币无法区分

FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models

FedRW 提出首个无需可信第三方的联邦学习隐私保护软去重框架,通过安全多方计算获取全局样本频率并进行频率感知的样本加权,在预处理上实现最高 28.78× 加速,在模型性能上实现约 11.42% 的 perplexity 改善。

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

FedSVD 提出通过 SVD 对 LoRA 矩阵进行全局重参数化,在每轮通信后用聚合的 BA 乘积的右奇异向量更新 A 矩阵,避免 DP-SGD 下的二次噪声放大同时保持 A 的自适应能力,在多个 NLU 基准上一致超越固定 A 的基线。

Finding Structure in Continual Learning

提出基于Douglas-Rachford Splitting (DRS)的持续学习优化框架,将稳定性与可塑性解耦为两个独立的近端子问题,并结合Rényi散度替代KL散度实现更鲁棒的先验对齐,从而在无需回放缓冲区或额外模块的条件下有效缓解灾难性遗忘。

Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation

Geo-Sign 提出将骨架特征投影到 Poincaré 球模型的双曲空间中,通过双曲对比损失正则化 mT5 语言模型,使其感知手语运动的层次结构,仅用骨架数据就在 CSL-Daily 上超越了基于 RGB 的 SOTA 方法(BLEU-4 +1.81, ROUGE-L +3.03)。

HealthSLM-Bench: Benchmarking Small Language Models for Mobile and Wearable Healthcare Monitoring

首个系统评估小语言模型 (SLMs, 1-4B参数) 在移动与可穿戴健康监测任务上表现的基准,覆盖zero-shot/few-shot/指令微调三种范式,并在iPhone上验证了端侧部署的可行性。

InvisibleInk: High-Utility and Low-Cost Text Generation with Differential Privacy

提出 InvisibleInk 框架,通过差分裁剪(DClip)隔离敏感信息和 Top-\(k^+\) 截断采样两项创新,将差分隐私长文本生成的计算成本降低 8 倍以上,首次实现不到非隐私生成 4-8 倍开销的高质量隐私文本生成。

Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization

提出LTW(Learning to Watermark)框架,使用一个轻量级选择器网络基于句子嵌入、token熵和当前水印比例来自适应决定何时施加水印,通过多目标优化(MGDA)在可检测性和文本质量之间达到Pareto最优,在不降低检测性能的前提下显著提升水印文本质量。

LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory

本文提出基于行为博弈论的LLM战略推理评估框架,使用截断量子响应均衡(TQRE)量化推理深度τ,在13个矩阵博弈上评估22个SOTA模型,揭示推理风格差异和人口统计persona引发的偏差问题。

MaskSQL: Safeguarding Privacy for LLM-Based Text-to-SQL via Abstraction

提出 MaskSQL 框架,通过提示抽象(abstraction)将敏感的表名、列名和数据值替换为抽象符号后发送给远程 LLM,结合本地 SLM 做 schema linking 和 SQL 重建,在保护隐私同时超越 SLM-only 方案的 SQL 生成精度。

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

提出MixAT方法,将离散对抗攻击(PAP改写)与连续嵌入空间扰动相结合进行LLM对抗训练,在保持高效用的同时实现对多种攻击的鲁棒性(ALO-ASR从50%+降至20%以下),且训练成本仅与纯连续方法相当。

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference

本文提出MPCache,一个面向安全多方计算(MPC)的KV缓存淘汰框架,结合一次性静态淘汰和查询感知的动态选择,配合层次化聚类、线性化相似度近似和跨层索引共享等优化,在不牺牲LLM性能的前提下实现最高2.01倍延迟降低和8.37倍通信量削减。

Music Arena: Live Evaluation for Text-to-Music

Music Arena是首个面向文本到音乐(TTM)生成的在线实时评估平台,通过LLM驱动的审核与路由系统解决TTM系统异构签名问题,收集包含细粒度聆听行为和自然语言反馈的多层次偏好数据,并通过月度滚动数据发布为社区提供可持续的开放偏好数据源。

On the Empirical Power of Goodness-of-Fit Tests in Watermark Detection

系统性地评估了八种经典拟合优度(GoF)检验在 LLM 文本水印检测中的效果,发现 GoF 检验在检测功效和鲁棒性上均显著优于现有基线方法。

On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks

首次系统研究 LLM 语言化置信度(verbal confidence)在对抗攻击下的鲁棒性,提出基于扰动和越狱的攻击框架,揭示攻击可导致置信度下降最高 30%、答案翻转率高达 100%,且现有防御策略基本无效。

On the Sample Complexity of Differentially Private Policy Optimization

首次系统性研究差分隐私(DP)约束下策略优化的样本复杂度,提出统一的元算法框架,分析DP-PG、DP-NPG和DP-REBEL三种隐私策略优化算法,证明隐私代价通常仅作为样本复杂度的低阶项出现。

ORBIT -- Open Recommendation Benchmark for Reproducible Research with Hidden Tests

提出ORBIT统一推荐系统基准,包含5个标准化公开数据集评估和基于真实浏览历史构建的隐私安全ClueWeb-Reco隐藏测试集,系统评估了12个推荐模型并引入LLM-QueryGen基线,揭示了现有方法在大规模真实推荐场景中的局限性。

Poly-Guard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

提出首个大规模、多领域、策略驱动的安全护栏基准 Poly-Guard,从 150+ 真实行业安全策略中提取 400+ 风险类别和 1000+ 安全规则,生成 100K+ 实例覆盖 8 大安全关键领域,并系统评测 19 个护栏模型,揭示了领域特化、模型演进遗忘、模型缩放停滞、对抗脆弱性等 8 项关键发现。

Probabilistic Reasoning with LLMs for K-Anonymity Estimation

本文提出Branch框架,利用大语言模型将用户文本中的个人信息建模为贝叶斯网络的联合概率分布,分别估计各属性的条件概率后组合计算k-匿名值(全球匹配该信息的人数),在隐私风险估计任务上达到73%准确率,比o3-mini链式思维提升13%。

Procurement Auctions with Predictions: Improved Frugality for Facility Location

研究策略性无容量限制设施选址问题中的采购拍卖设计,证明了经典VCG拍卖的节俭比恰好为3(改进了此前已知的上界4),并设计了利用预测信息的学习增强拍卖机制,在预测准确时实现接近最优的节俭比,同时在预测任意不准确时仍保持常数级鲁棒性。

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

本文提出 PULSE 评估协议,从预训练知识遗忘和多次顺序遗忘的可持续性两个实际维度出发,揭示了现有遗忘方法在 LMM 上的严重不足——遗忘预训练知识会导致 90% 以上通用能力丧失,连续遗忘 5 次后模型泛化能力几乎完全崩溃。

Reinforcement Learning with Backtracking Feedback

提出带回溯反馈的强化学习框架 RLBF,当 agent 陷入死胡同时允许回溯到之前的状态重新探索,通过回溯信号改善信用分配,在稀疏奖励环境中显著提升探索效率。

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

ReliabilityRAG 提出了一种利用文档可靠性信号(如搜索排名)进行对抗防御的 RAG 框架,通过在矛盾图上寻找最大独立集(MIS)来识别一致的文档子集并优先选择高可靠性文档,提供可证明的鲁棒性保证,同时在良性场景和长文本生成任务上保持高准确率。

Reverse Engineering Human Preferences with Reinforcement Learning

使用强化学习训练前导文本生成器来提升下游 LLM 的评分成绩,揭示了 LLM-as-a-Judge 评估框架的脆弱性,且该攻击方式几乎不可检测并具有跨模型迁移能力。

SAEMark: Steering Personalized Multilingual LLM Watermarks with Sparse Autoencoders

提出SAEMark框架,利用稀疏自编码器(SAE)提取文本的语义特征浓度评分,通过推理阶段的特征引导拒绝采样实现多比特水印嵌入,无需修改模型权重或logits,天然支持黑盒API、多语言和代码等场景,在英文/中文/代码上均达到领先的水印精度与文本质量。

SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations

提出 SECA(Semantically Equivalent and Coherent Attacks),通过保持语义等价和语义连贯性的现实主义提示修改来诱发 LLM 幻觉,在多选 QA 任务上实现更高攻击成功率且几乎无语义错误。

Self-Refining Language Model Anonymizers via Adversarial Distillation

提出 SEAL 框架,通过对抗蒸馏将 GPT-4 级 LLM 的文本匿名化能力蒸馏到 8B 小模型中,结合 SFT + DPO 训练和自我精炼机制,使小模型在隐私-效用权衡上达到甚至超越 GPT-4 匿名化器的水平,且可完全本地部署。

SIMU: Selective Influence Machine Unlearning

提出 SIMU 两阶段框架:先通过梯度聚合识别编码遗忘集信息的关键 MLP 神经元,再仅对这些神经元进行二阶(Sophia)优化遗忘,在保持遗忘效果的同时大幅提升模型原有能力的保留。

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

这篇立场论文将AI生成综述论文的泛滥类比为对学术社区的"DDoS攻击",通过对arXiv 2020-2024年10,063篇CS综述论文的系统定量分析,揭示了ChatGPT发布后综述论文数量、AI生成分数和异常作者数的同步激增现象,深入剖析了AI综述的四大质量缺陷(结构混乱、分类缺乏原创、引用不准确、内容高度冗余)及其对研究者-审稿人-编辑三方的文化冲击,提出了涵盖透明度要求、严格审查标准、冗余限制、AI检测辅助和"动态活综述"平台在内的全面应对框架。

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

提出 BIRD-CRITIC 基准(首个 SQL 问题调试基准)和 Six-Gym 训练环境,并开发 Bird-Fixer 智能体,通过 f-Plan Boosting 策略将 14B 开源模型的 SQL 调试能力提升至超越 Claude-3.7-Sonnet 和 GPT-4.1 的水平,在保护数据隐私的同时实现高效的 SQL 问题修复。

Teaming LLMs to Detect and Mitigate Hallucinations

将单模型一致性方法(Self-Consistency + Semantic Entropy)推广到多个异构 LLM 的"联盟"设置,通过聚合不同训练背景的模型响应来打破单模型一致性幻觉,在 15 个 LLM 组成的模型池中评估大量联盟组合,发现匹配的强模型联盟在 92% 的情况下超越最强单模型基线,同时推理成本更低。

ToxicTextCLIP: Text-Based Poisoning and Backdoor Attacks on CLIP Pre-training

提出 ToxicTextCLIP 框架,通过背景感知选择和背景驱动增强两个模块,在 CLIP 预训练阶段生成高质量对抗文本,实现高达 95.83% 投毒成功率和 98.68% 后门 Hit@1,且能突破 RoCLIP、CleanCLIP、SafeCLIP 三种防御。

Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties

提出Trans-EnV框架,结合语言学专家知识和LLM变换能力,将标准美式英语(SAE)数据集自动转换为38种英语变体(18种方言+20种ESL英语),揭示LLM在非标准英语上最高46.3%的性能下降,凸显了语言公平性问题。

TRAP: Targeted Redirecting of Agentic Preferences

TRAP 提出了一种基于扩散模型的语义注入对抗框架,通过在 CLIP 嵌入空间中优化图像语义,在黑盒条件下以视觉自然的方式系统性地误导多个主流 VLM 智能体的决策偏好,在 LLaVA-34B、GPT-4o 等六个模型上实现了高达 100% 的攻击成功率。

TRUST -- Transformer-Driven U-Net for Sparse Target Recovery

提出 TRUST 架构,将 Transformer 的注意力机制与 U-Net 解码器结合,在感知矩阵未知的条件下同时学习感知算子和重建稀疏信号,在 SSIM 和 PSNR 上显著超越传统方法。

Unlearning as Ablation: Toward a Falsifiable Benchmark for Generative Scientific Discovery

本文提出将机器遗忘重新定义为认识论探针工具("遗忘即消融"),通过系统性移除目标知识及其遗忘闭包后测试模型能否从公理出发重新推导,从而提供可证伪的测试来区分 LLM 是"真正生成新知识"还是"仅仅检索记忆片段"。

Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data

本文首次系统研究了合成数据在LLM训练中的安全风险,发现现有投毒/后门攻击难以通过合成数据传播,进而提出Virus Infection Attack (VIA)框架,通过劫持点搜索和外壳构造将投毒内容嵌入正常训练样本中,使恶意内容即使在干净查询下也能被模型生成并传播到下游模型。

When AI Democratizes Exploitation: LLM-Assisted Strategic Manipulation of Fair Division Algorithms

本文通过在 Spliddit 公平分租平台上设计四种不同的协调操纵场景(排斥性合谋、防御性反击、善意合谋、成本最小化联盟),实证地证明 LLM 可以将原本需要深厚机制设计专业知识才能进行的算法操纵行为,降低为任何用户仅需一次自然语言对话即可完成的简单操作,从根本上颠覆了"算法复杂性即安全屏障"的传统假设。


🤖 机器人/具身智能

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

首次将数据归因(data attribution)引入在线强化学习,提出局部归因框架量化每条训练记录对策略更新的贡献,并基于此设计了迭代影响力过滤算法(IIF),在经典RL基准和LLM的RLHF上均显著提升了样本效率和最终性能。

Adaptive Frontier Exploration on Graphs with Applications to Network-Based Disease Testing

提出 Adaptive Frontier Exploration on Graphs (AFEG) 问题框架,设计基于 Gittins index 的策略,在图是森林时可证明最优,在实际性传播疾病检测网络上仅测试一半人口即可检出几乎全部 HIV 感染者,大幅超越贪心和 DQN 等基线。

AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling

AutoToM 实现完全自动化的基于模型的心智理论推理——无需人工指定 agent 模型,自动提出贝叶斯网络结构并执行贝叶斯逆规划,通过推理不确定性驱动的迭代模型调整(添加心智变量或扩展时间步),在5个ToM benchmark上以82.43%平均准确率超越GPT-4o(63.39%)、o3-mini(73.94%)等SOTA模型。

Beyond Parallelism: Synergistic Computational Graph Effects in Multi-Head Attention

将多头注意力重新建模为共享汇节点的多个前馈 DAG 系统,理论证明多头可通过跨头路径实现协同效应——降低混合时间(mixing time)并放大 minimax 保真度(fidelity),在序列操作任务上实验验证了该效应。

Breaking the Gradient Barrier: Unveiling Large Language Models for Strategic Classification

提出 GLIM(Gradient-free Learning In-context Method),首次利用 LLM 的 In-Context Learning 机制隐式模拟策略分类中的双层优化(特征操纵 + 决策规则优化),无需微调即可在大规模数据上高效完成策略分类任务。

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

本文首次将 VLA(Vision-Language-Action)模型部署到软体连续体机械臂 Embuddy 上,发现开箱即用的刚性机器人预训练策略因运动学和动力学差异完全失败,但通过在少量软体机器人示范数据上进行针对性微调,可以成功弥合刚性-软体之间的实体鸿沟,使软体平台在抓取和人机交互任务上达到与 UR5 刚性臂相当的任务完成率。

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

提出 C-Nav 框架,通过双路径抗遗忘(特征蒸馏 + 特征回放)和自适应经验选择(LOF 异常检测选关键帧),让导航智能体在不断学习新物体类别时避免灾难性遗忘,在 4 种架构上均超越全量数据回放基线。

Can Agents Fix Agent Issues?

本文首次系统地研究了 LLM-based Agent 系统的 issue 自动修复问题——通过人工分析 201 个真实 Agent issue 构建了涵盖 6 大类 20 个子类的 Agent issue 分类体系,耗费 500 人时构建了包含 50 个可复现任务的 AgentIssue-Bench 基准,并评估发现当前最先进的软件工程 Agent(如 SWE-agent、Agentless、AutoCodeRover)在 Agent issue 上的正确修复率仅为 3.33%–12.67%,远低于它们在传统软件上的 23%–51% 修复率。

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

CogVLA 提出模仿人类多模态认知的三阶段VLA架构(EFA-Routing视觉聚合压缩至25% + LFP-Routing LLM内指令感知剪枝50% + V-L-A耦合注意力),在LIBERO上以97.4%成功率和2.5×训练/2.8×推理加速超越OpenVLA-OFT等SOTA方法,真实机器人任务达70.0%成功率。

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

提出 C-Nav 持续目标导航框架,通过双路径抗遗忘机制(特征蒸馏 + 特征回放)和基于 LOF 的自适应经验选择,使导航智能体在增量学习新物体类别时有效避免灾难性遗忘,在 4 种主流架构和 2 个数据集上均超越全量数据回放基线。

COOPERA: Continual Open-Ended Human-Robot Assistance

提出 COOPERA 框架,首次实现持续、开放式的人机协作研究,通过LLM驱动具有心理特征和长期意图的模拟人类与机器人在3D环境中多天交互,机器人通过学习人类特征和上下文意图逐步提升个性化协作能力。

DexFlyWheel: A Scalable Self-Improving Data Generation Framework for Dexterous Manipulation

提出 DexFlyWheel,一个从单个人类示教出发、通过 IL + 残差 RL + 数据增强组成的自改进循环逐步扩展数据多样性的灵巧操作数据生成框架,在 4 个任务上生成 2000+ 示教,策略平均成功率 81.9%,真实世界迁移成功率 78.3%。

DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation

提出 DynaNav,通过可训练的硬特征选择器和基于贝叶斯优化的 early-exit 机制,根据场景复杂度动态调整特征与层的使用,在视觉导航中实现 2.26× FLOPs 降低、42.3% 推理时间减少,同时保持甚至提升导航性能。

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

通过离散内存缓存(KV cache分组独立计算+选择性加载)、注意力驱动聚类(LLM浅层attention指导分组)和语义感知检索(CLIP+背包问题适配不同内存预算),首次在Jetson Orin上用LLaMA-3.2-11b实现零样本ObjNav,比GPT-4基线提升11.1% SR且实时延迟降低6.7×。

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

本文提出 EgoThinker,通过构建 EgoRe-5M 大规模第一人称视频推理数据集(含因果 CoT 标注和手物定位标注)和两阶段训练(SFT + GRPO 强化微调),赋予 MLLM 鲁棒的第一人称推理、手物定位和时间定位能力,在多个 egocentric 基准上实现 SOTA。

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

EgoThinker 构建了 500 万级第一人称视频 QA 数据集 EgoRe-5M(含因果 CoT 标注和手-物体精细定位数据),并通过"先 SFT 学推理、后 GRPO 练定位"的两阶段训练范式,让 7B MLLM 首次同时具备第一人称因果推理和时空精细定位能力,在 8+ 个基准上刷新 SOTA,7B 参数量在时间定位上甚至超过 72B 模型。

Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams

提出 Enginuity——首个面向 AI 自动解析工程图的大规模开放多领域数据集方案,计划构建 50K+ 带有层级组件关系、空间连接和语义角色标注的汽车工程图,通过四阶段人机协同标注管线实现高质量与低成本的平衡,并定义了从符号检测到数字孪生生成的完整任务体系,为多模态大模型理解工程图中的视觉-结构知识提供了首个系统性基准资源。

Explaining and Mitigating Crosslingual Tokenizer Inequities

系统训练约 7000 个单语分词器覆盖 97 种语言,首次证明即使控制训练数据量、词表大小和算法后,不同语言间仍存在显著的 token premium 差异;进一步识别出词表大小和预分词策略是关键因素,并提出"最优词表大小"和 SuperBPE 两种缓解方案。

FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model

提出 FALCON——基于表示引导的 LLM 遗忘框架,利用互信息进行参数选择、对比机制实现精细知识分离、梯度正交投影解决遗忘-保留冲突,在有害知识/版权/实体遗忘任务上全面超越现有方法。

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

提出基于不平衡最优运输(UOT)的模拟-真实策略联合训练框架,通过对观察-动作联合分布进行对齐(而非仅对齐观察边际分布),结合时间对齐采样策略处理数据不平衡,在机器人操纵任务上实现30%的OOD泛化提升。

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges

提出将跨手形态的视觉灵巧抓取迁移建模为 Schrödinger Bridge 问题,通过在潜空间中学习得分与流匹配([SF]²M),并设计物理感知的最优传输代价函数(位姿/接触图/力旋量空间/雅可比可操作性),在无需配对数据的条件下实现不同机械手之间抓取意图的分布级迁移。

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

提出 GUI-Rise 框架,通过结构化推理(进度估计 + 决策推理)、动作预测和历史摘要三个子任务的联合设计,结合 GRPO 强化学习与历史摘要奖励,显著提升 GUI 导航智能体在跨域场景下的泛化能力。

Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability

深入挖掘 ViT 中数据级和模型级的计算冗余,提出注意力稀疏化、注意力头置换、干净 token 正则化、Ghost MoE 多样化和鲁棒化 token 五种技术,结合在线学习策略动态选择操作,在 ImageNet-1K 上以 86.9% 平均 fooling rate 大幅超越所有基线。

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data

提出自监督框架从无标注多模态机器人演示中学习层级操作概念,通过跨模态相关性网络和多时域子目标预测器组织表示,增强模仿学习策略在新物体、新障碍和新环境下的泛化能力。

Knolling Bot: Teaching Robots the Human Notion of Tidiness

将桌面物体整理(knolling)类比为 NLP 序列预测任务,用 Transformer 自回归生成每个物体的目标位置,结合 GMM 处理多解歧义,从 240 万组自动生成的示范中学习通用整洁概念,并通过输入排列顺序隐式编码用户偏好。

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

提出 LabUtopia——面向科学实验室的高保真仿真与层级基准套件,包含支持化学反应建模的 LabSim 仿真器、可程序化生成实验室场景的 LabScene、以及从原子操作到长程移动操纵的五级 LabBench 基准,揭示现有模仿学习方法在长程实验流程和物体泛化方面的显著瓶颈。

LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation

提出 LatentGuard 三阶段框架,通过行为级对齐微调 + 结构化 VAE 监督潜空间 + 潜空间维度操控,实现对 LLM 拒绝行为的可解释、可控制调节,在抵御对抗攻击的同时保持对正常查询的响应能力。

Learning Spatial-Aware Manipulation Ordering

提出 OrderMind 统一框架,通过空间上下文编码器和时序优先级结构化模块直接从 RGB-D 图像学习杂乱场景中物体的操作顺序,利用 VLM 蒸馏生成训练标注,在仿真和真实环境中均显著优于 VLM 基线,且支持实时推理(5.6 FPS,轻量版 21.3 FPS)。

LLM World Models Are Mental: Output Layer Evidence of Brittle World Model Use in LLM Mechanical Reasoning

借鉴认知科学的心理模型研究方法,通过滑轮系统的TikZ代码表示测试LLM的力学推理能力,发现LLM能近似估计机械优势并区分功能/非功能系统(Study 1&2),但在精细结构连接推理上完全失败(Study 3),表明LLM的"世界模型"存在但脆弱。

LLMscape

LLMscape 是一个投影映射沙盘交互装置,让多个独立 LLM 代理在共享的可变物理环境中接收多模态输入、相互对话和推测,探索人类与 AI 在认知不确定性下的共同意义构建过程。

Manipulating Feature Visualizations with Gradient Slingshots

提出 Gradient Slingshots(梯度弹弓)方法,通过在模型的分布外输入区域"雕刻"出导向任意目标图像的二次激活景观,使特征可视化(Feature Visualization)的梯度优化过程收敛到预设的虚假图像,同时保持模型架构、分类精度和内部特征表示基本不变,暴露了 FV 作为模型审计工具的严重脆弱性。

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

提出 MesaTask 框架,通过 Spatial Reasoning Chain 将任务描述分解为对象推理→空间关系推理→场景图构建→3D 布局,结合 10K+ 人工标注数据集和 DPO 优化,生成物理合理且任务对齐的桌面操控场景。

MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning

MindForge 为 LLM 驱动的具身智能体引入显式的心智理论(ToM)表征、自然语言通信和多组件记忆系统,使开源 LLM 智能体通过与专家协作对话(无需梯度更新)大幅提升任务完成率,在 Minecraft 中比 Voyager 多获得 3× 科技树里程碑和 2.3× 独特物品。

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

基于 Minecraft 构建空间规划基准 MineAnyBuild,要求 AI Agent 根据多模态指令生成可执行的建筑蓝图矩阵,包含 4000 个任务和 500+ 建筑/装饰资产,从空间理解、空间推理、创造力和空间常识四个维度系统评估 MLLM 的空间规划能力,揭示即便 GPT-4o 整体得分仅 41.02/100,开源模型更差。

MIP against Agent: Malicious Image Patches Hijacking Multimodal OS Agents

揭示针对多模态OS Agent的新型对抗攻击MIP(Malicious Image Patches):在屏幕截图中嵌入人眼不可察觉的对抗性扰动图像块(约占屏幕1/7面积),当OS Agent截屏捕获后会输出预定义的恶意API调用序列;通过联合优化实现跨用户指令和屏幕布局的Universal泛化,攻击成功率高达100%。

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

构建了一个包含 28,136 道问题、覆盖 25 种真实表格任务的大规模基准 MMTU,系统评估 LLM 在专业级表格理解、推理和操作方面的能力,发现即使是 GPT-5 等前沿推理模型也仅得分约 69.6%。

mmWalk: Towards Multi-modal Multi-view Walking Assistance

mmWalk 构建了首个面向视障人群步行辅助的多模态多视角数据集(CARLA 仿真器生成 62K 帧/559K 全景图 + 69K VQA 对),基准测试发现 SOTA VLM 在风险评估和导航地标识别等安全关键任务上表现不足(最优仅 55.21%),微调后在真实数据集上泛化提升 16.7%。

NeSyPr: Neurosymbolic Proceduralization For Efficient Embodied Reasoning

NeSyPr提出了一种神经符号程序化框架,通过将符号规划器生成的任务计划转化为可组合的程序化表示,使紧凑的语言模型在无需外部符号引导的情况下实现高效的单步推理,类似人类的知识编译过程。

Operation Veja: Fixing Fundamental Concepts Missing from Modern Roleplaying Training Paradigms

本文系统批判了现有角色扮演模型训练的四大范式(RAG、事实值设定、文学数据、合成数据)为何都无法产生有深度的角色,提出VEJA框架(Values-Experiences-Judgments-Abilities)作为角色定义和数据策化的结构化基础,在LLM评判A/B测试中VEJA指导的人工策化数据以43:28:29(胜:负:平)显著优于Gemini Pro 2.5生成的合成基线。

Policy Compatible Skill Incremental Learning via Lazy Learning Interface

提出SIL-C框架,通过双向惰性学习接口(bilateral lazy learning interface)实现技能增量学习中的技能-策略兼容性,使增量更新的技能能直接提升下游策略性能而无需重训练或结构调整。

Predicting the Performance of Black-Box LLMs through Follow-Up Queries

提出 QueRE 方法,通过向黑盒LLM提出约50个后续问题(如"你对回答有信心吗?"),以"Yes"token的概率作为特征训练线性分类器,在预测模型正确性、检测对抗操纵和区分不同LLM等任务上,甚至超越需要访问模型内部状态的白盒方法。

UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Task Planning

UniDomain 从 12,393 个真实机器人操作视频中预训练统一的 PDDL 规划域(含 3,137 个算子和 2,875 个谓词),通过层级融合构建元域,实现零样本跨任务符号规划,比最强基线高出 58% 成功率和 160% 计划最优性。

RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

提出RDD(基于检索的演示分解器),通过将演示分解建模为最优分区问题,自动将长时域任务演示分解为与底层视觉运动策略训练数据对齐的子任务,从而协调层级VLA框架中高层规划器与低层策略,在RLBench上接近专家分解器的性能。

Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation

提出EigenShift方法,通过对LLM最终输出层进行SVD分解,识别与毒性生成相关的特征方向(eigen-choices),并通过选择性衰减对应奇异值来实现毒性抑制——在LLaMA-2上降低58%毒性的同时仅增加3.62的困惑度,兼顾安全与流畅性。

Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling

从认知神经科学视角挑战"模拟与渲染可分离"的传统观点:论证空间推理依赖于精细的感知表征而非粗粒度抽象,并指出AI空间世界模型同样需要保留丰富的感知细节——空间建模没有免费午餐。

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

提出RoboCerebra长程机器人操作基准,包含1000条人类示范轨迹(平均2972步,约为现有基准的6倍),通过分层规划与执行框架和多维评估协议,系统测评VLM在规划、反思和记忆三个System 2认知维度上的能力。

SAFE: Multitask Failure Detection for Vision-Language-Action Models

SAFE 发现 VLA 模型的内部特征空间存在跨任务一致的"失败区域",据此训练轻量 MLP/LSTM 失败检测器,配合功能保形预测(FCP)做阈值校准,在未见任务上达 78% ROC-AUC,计算开销 <1%,大幅优于 token 不确定性和一致性检测方法。

SegMASt3R: Geometry Grounded Segment Matching

SegMASt3R 在预训练 MASt3R 3D 基础模型上添加轻量分割特征头和可微 Sinkhorn 匹配层,利用 3D 几何先验实现极端视角变化(达 180°)下的鲁棒语义段匹配,AUPRC 在 135-180° 基线上达 83.6%(vs SAM2 的 17%)。

Spatial Understanding from Videos: Structured Prompts Meet Simulation Data

提出 SpatialMind 结构化提示策略与 ScanForgeQA 合成QA数据集的双管齐下方案,在不修改VLM架构的前提下显著增强其从扫描视频进行3D空间推理的能力。

SutureBot: A Precision Framework & Benchmark for Autonomous End-to-End Suturing

提出SutureBot——首个针对da Vinci手术机器人端到端自主缝合的精度导向基准与目标条件框架,发布1890条高保真演示数据集,通过点标签目标条件将针刺精度提升59%-74%,并系统评估了π0、GR00T N1、OpenVLA-OFT和多任务ACT等SOTA VLA模型。

Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras

Talk2Event 提出首个大规模事件相机视觉定位基准(30,690 条标注表达式 + 四种定位属性),并设计 EventRefer 框架通过混合事件-属性专家(MoEE)动态融合外观/状态/观察者关系/物体间关系特征,在纯事件、纯帧和融合三种设置下均超越现有方法。

Task-Optimized Convolutional Recurrent Networks Align with Tactile Processing in the Rodent Brain

提出Encoder-Attender-Decoder(EAD)框架系统探索触觉任务优化的时序神经网络,发现卷积循环网络(ConvRNN,特别是IntersectionRNN)在触觉物体分类和啮齿类体感皮层神经对齐上均优于前馈和状态空间模型,且基于触觉特定增强的对比自监督学习能达到与监督学习相当的神经拟合,为触觉的大脑计算机制提供了首个定量刻画。

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

提出ThinkAct双系统框架,通过动作对齐的视觉奖励对MLLM进行强化学习微调以激发具身推理能力,并将推理计划压缩为视觉潜在表示来指导下游动作模型,实现"先思考再行动"的VLA推理范式。

Toward Engineering AGI: Benchmarking the Engineering Design Capabilities of LLMs

提出 EngDesign——首个跨 9 个工程领域(操作系统、计算机架构、控制系统、机械、结构、数字硬件、模拟电路、机器人、信号处理)的 LLM 工程设计能力基准,用仿真驱动的评估管线替代传统的问答匹配,揭示即使最强推理模型 o3 也仅达 34% 通过率。

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning

提出一种神经-符号具身任务规划框架,在 LLM 代码生成过程中引入显式的符号验证(检查前置条件是否满足)和交互式验证(主动探索获取缺失信息),使生成的代码在动态和部分可观测场景中更可靠——在 RLBench 上任务成功率从基线 38.5% 提升到 84.7%,可执行性达 86.8%。

Uncovering Strategic Egoism Behaviors in Large Language Models

首次形式化定义LLM中的"策略性自利"(Strategic Egoism)行为并构建SEBench基准(160个场景×6类自利维度),实验发现7个主流LLM在激励诱惑下平均69.11%的决策选择自利策略,操纵胁迫与规则规避是最常见手段,且自利倾向与毒性语言生成呈正相关。

Understanding Prompt Tuning and In-Context Learning via Meta-Learning

从贝叶斯元学习视角系统分析了提示调优(prompt tuning)的理论基础与局限性,证明了软提示可以在预训练分布内的单一目标任务上实现最优适配,但对多任务混合目标分布存在根本性限制,且软前缀能通过操纵非token空间的激活来超越最优硬token序列。

VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions

提出 CLIP-IN 框架,利用指令编辑数据集作为硬负样本和长描述增强 CLIP 的细粒度视觉理解能力,在 MMVP 等基准上显著提升且不损害零样本性能,集成到 MLLM 中可减少视觉幻觉。

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs

提出ZEDD(零样本嵌入漂移检测),通过比较良性和可疑输入在嵌入空间中的语义漂移来检测提示注入攻击,利用GMM/KDE自动确定阈值,在多种LLM架构上实现>93%的检测准确率且假阳性率<3%。


📈 时间序列

A Graph Neural Network Approach for Localized and High-Resolution Temperature Forecasting

提出一种 GCN-GRU 混合框架用于社区尺度(2.5km)高分辨率温度预报(1-48小时),在加拿大西南安大略三个区域上验证,最大区域平均 MAE 1.93°C、48h MAE 2.93°C,探索了 ClimateBERT 语言模型嵌入作为标准化输入的方案,为数据稀缺的全球南方地区提供可迁移的轻量级预报框架。

Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency

揭示了时间序列预测中"适当截断历史数据反而提升精度"的反直觉现象(冗余特征学习问题),基于信息瓶颈理论提出AMRC方法,通过自适应掩码损失和表征一致性约束来抑制冗余特征学习,作为模型无关的训练框架在多种架构上显著提升性能。

AERO: A Redirection-Based Optimization Framework Inspired by Judo for Robust Probabilistic Forecasting

AERO提出受柔道"借力重定向"启发的优化范式,尝试将对抗扰动重定向为有利的优化信号而非直接抵抗,理论上通过15条公理和4个定理构建了基于能量守恒的梯度重定向系统,但实际实现大幅简化为带高斯噪声注入的动量SGD,仅在一个私有太阳能价格预测数据集上进行了无基线对比的验证。

AttentionPredictor: Temporal Patterns Matter for KV Cache Compression

AttentionPredictor是首个学习型方法直接预测注意力模式以实现KV缓存压缩和关键token识别,通过轻量CNN捕捉注意力分数的时空模式,实现13倍KV缓存压缩和5.6倍推理加速,统一预测模型仅21KB可跨所有Transformer层共享。

Benchmarking Probabilistic Time Series Forecasting Models on Neural Activity

首次系统评测 12 个概率时间序列预测模型在小鼠皮层钙成像数据上的表现,发现 PatchTST 一致最优(信息性预测窗口达 1.5 秒),零样本基础模型(Chronos)完全失败但微调后竞争力强,揭示神经活动的内在可预测性上限约 1.5 秒。

BubbleFormer: Forecasting Boiling with Transformers

提出 BubbleFormer,基于分解时空轴注意力的 Transformer 架构用于预测沸腾动力学——包括难以预测的自主气泡成核事件,配合 BubbleML 2.0 数据集(160+ 高保真仿真),在多种流体、几何和壁面条件下实现准确的沸腾时空过程预测。

Causal Masking on Spatial Data: An Information-Theoretic Case for Learning Spatial Datasets with Unimodal Language Models

证明在空间数据(国际象棋棋盘FEN状态)上直接应用因果掩蔽训练单模态LLM,其表现优于先将数据线性化为序列(PGN棋步)后再应用因果掩蔽——FEN+因果掩蔽的Llama 1.3B达到~2630 Elo,而PGN+因果仅~2130 Elo。

CausalDynamics: A Large-Scale Benchmark for Structural Discovery of Dynamical Causal Models

提出 CausalDynamics——迄今最大规模的动力系统因果发现 benchmark(14000+ 图、5000 万+ 样本),涵盖从 3 维混沌 ODE/SDE 到层级耦合系统再到拟真气候模型的三层渐进复杂度体系,并全面评估了 10 种 SOTA 因果发现算法,揭示当前深度学习方法在高维非线性动力系统上的不足。

Channel Matters: Estimating Channel Influence for Multivariate Time Series

提出 Channel-wise Influence (ChInf)——首个能量化多变量时间序列中不同通道对模型性能影响的影响函数方法,将 TracIn 从整体样本级分解到通道级,衍生出通道级异常检测和通道剪枝两个应用,在 5 个异常检测基准上排名第一。

Connecting the Dots: 面向电离层预测的机器学习数据集

本文构建了一个开放的、机器学习就绪的电离层预测数据集,融合了8种异构数据源(太阳观测、地磁指数、TEC地图等),覆盖2010-2024年约14年时间,并基于此训练了LSTM、SFNO、GraphCast三种时空模型作为基准,实现了最长12小时的TEC预测。

Decomposition of Small Transformer Models

将 Stochastic Parameter Decomposition (SPD) 扩展到 Transformer,设计适用于序列数据的因果重要性函数和新损失函数,在玩具 induction head 上恢复期望两步电路,在 GPT-2-small 上定位到"高尔夫""篮球"等可解释概念对应的 rank-1 参数子空间。

DemandCast: Global hourly electricity demand forecasting

构建 DemandCast 开源机器学习框架,基于 XGBoost 融合历史电力需求、ERA5 温度和社会经济特征进行全球 56 个国家/地区的小时级电力需求预测,通过归一化目标变量(年度分数)实现跨国家可比,在时间外推测试集上达到 MAPE 9.2%。

Diffusion Transformers as Open-World Spatiotemporal Foundation Models

提出 UrbanDiT,首个基于 Diffusion Transformer 的开放世界城市时空基础模型,通过统一的 prompt learning 框架整合异构数据类型(grid/graph)和多种任务(预测/插值/外推/填补),在多城市多场景下实现 SOTA 性能并展现强大的 zero-shot 泛化能力。

Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantification

本文从统计学习角度分析了条件扩散Transformer(DiT)在时间序列插补任务中的样本复杂度和不确定性量化性能,并提出混合掩码训练策略提升插补效果。

Exploring Neural Granger Causality with xLSTMs: Unveiling Temporal Dependencies in Complex Data

提出 GC-xLSTM,利用 xLSTM 架构结合新颖的动态稀疏优化策略,在多变量时间序列中挖掘 Granger 因果关系,在多个数据集上取得 SOTA 性能。

Frequency Matters: When Time Series Foundation Models Fail Under Spectral Shift

揭示时间序列基础模型(TSFM)在工业场景中泛化失败的关键原因——频谱偏移(downstream 数据主频与预训练数据不重叠),通过工业级手游玩家参与预测任务和受控合成实验验证了这一假说。

Fern: Chaining Spectral Pearls — Ellipsoidal Forecasting Beyond Trajectories for Time Series

提出 Fern (Forecasting with Ellipsoidal RepresentatioN),通过逐 patch 的椭球体传输(旋转-缩放-平移)替代传统轨迹预测,在混沌系统上大幅超越基线,并在标准 LTSF 基准上保持竞争力。

How Foundational are Foundation Models for Time Series Forecasting?

通过合成数据与真实电力消耗数据的系统性实验,揭示时间序列基础模型(TSFM)的零样本泛化能力高度依赖于预训练数据分布,在领域偏移场景下仅49.5K参数的轻量专用模型SAMFormer从头训练即可超越500M+参数的微调TimesFM。

How Patterns Dictate Learnability in Sequential Data

提出基于预测信息(predictive information)的信息论框架来量化序列数据中时间模式的强度,推导出将预测信息与最小可达风险联系起来的理论界,从而区分"模型不够好"还是"数据本身就不可预测"。

Human-Machine Ritual: Synergic Performance through Real-Time Motion Recognition

提出一种轻量级实时动作识别系统,利用可穿戴 IMU 传感器 + MiniRocket 时序分类器实现 <50ms 延迟的舞者特定动作识别(96.05% 准确率),通过"具身记忆映射"将舞者的个人动作-声音关联编码到系统中,构建了一种尊重人体表达深度的人机协作表演范式。

Improving Time Series Forecasting via Instance-aware Post-hoc Revision (PIR)

PIR 提出实例感知的事后修正框架——通过不确定性估计识别预测失败实例,用局部修正(协变量+外生变量 Transformer)和全局修正(检索相似训练实例加权平均)的残差组合,作为即插即用模块使 SparseTSF MSE 降低 25.87%,PatchTST 降低 8.99%。

In-Context Learning of Stochastic Differential Equations with Foundation Inference Models

提出FIM-SDE(基础推断模型),一个预训练的识别模型,能够从噪声时间序列数据中进行零样本(in-context)估计低维SDE的漂移和扩散函数,并通过快速微调进一步超越所有基线方法。

IonCast: A Deep Learning Framework for Forecasting Ionospheric Dynamics

提出 IonCast 框架,基于 GraphCast 启发的图神经网络架构,融合多源异构物理驱动数据,实现全球总电子含量(TEC)的高精度时空预测。

IonCast: A Deep Learning Framework for Forecasting Ionospheric Dynamics

提出IonCast框架,包含基于GraphCast的GNN模型和ConvLSTM基线,融合多源异构空间天气数据(TEC图、太阳风、地磁指数、轨道力学等)进行全球电离层总电子含量(TEC)的时空预测,在地磁风暴条件下优于持续性基线和IRI经验模型。

Learning Time-Scale Invariant Population-Level Neural Representations

提出时间尺度增强预训练(TSAP)策略,通过在预训练阶段引入多种时间窗口长度的数据增强,使群体级神经信号基础模型对输入时间尺度具有不变性,在匹配和未见时间尺度上均显著提升解码性能。

Learning with Calibration: Exploring Test-Time Computing of Spatio-Temporal Forecasting

提出 ST-TTC,一种轻量级测试时计算范式,通过频域相位-幅值校准器和闪电梯度更新机制,在推理阶段实时修正时空预测中的周期性偏差,无需修改骨干网络即可一致性提升多种模型性能。

Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning

揭示预训练时间序列基础模型(TSFM)存在固有的任务相关稀疏性,提出"先剪枝再微调"范式——通过结构化剪枝移除任务无关参数,使剪枝后微调的小模型显著超越直接微调的原模型,甚至胜过强专用基线。

MAESTRO: Adaptive Sparse Attention and Robust Learning for Multimodal Dynamic Time Series

提出 MAESTRO 框架,通过符号化分词、自适应注意力预算、稀疏跨模态注意力和动态 MoE 路由,解决多模态时间序列中模态异质性和任意缺失的问题,在完整/缺失模态场景下均显著超越基线。

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning

提出 Martingale Score 作为无监督度量指标,基于贝叶斯统计中的鞅性质(Martingale property)来量化 LLM 推理过程中的信念固化(belief entrenchment)现象,发现该现象普遍存在且与准确率下降显著相关。

MASFIN: A Multi-Agent System for Decomposed Financial Reasoning and Forecasting

提出 MASFIN 多 agent 系统,将金融预测任务分解为多个子任务(宏观分析、行业分析、技术分析、情感分析等),由专门的 LLM agent 协作完成,实现比单一模型更准确和可解释的金融预测。

Multi-Scale Finetuning for Encoder-based Time Series Foundation Models

提出 MSFT(Multi-Scale FineTuning),通过因果分析揭示 naive 微调忽略尺度混淆问题,设计多尺度建模框架对 encoder-based 时间序列基础模型进行高效微调,显著超越 naive 微调和从头训练的 SOTA 方法。

Neural MJD: Neural Non-Stationary Merton Jump Diffusion for Time Series Prediction

提出 Neural MJD,用神经网络参数化非平稳 Merton 跳跃扩散模型,将预测建模为 SDE 仿真问题,结合时变 Itô 扩散(捕获连续漂移)和时变复合 Poisson 过程(建模突变跳跃),配合似然截断和 Euler-Maruyama with Restart 求解器实现可扩展学习与推理。

NSW-EPNews: A News-Augmented Benchmark for Electricity Price Forecasting with LLMs

提出首个融合新闻文本的电力价格预测基准 NSW-EPNews,系统评估传统模型和 LLM 在多模态电价预测中的表现,发现新闻特征对传统模型增益有限,而 LLM 存在严重幻觉问题。

Parallelization of Non-linear State-Space Models: Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling

提出 LrcSSM,通过约束液态电阻-液态电容(LRC)网络的 Jacobian 矩阵为对角形式,实现非线性 RNN 的精确高效并行化,在长序列分类任务上超越 Transformer、LRU、S5 和 Mamba 等 SOTA 方法。

Physics-informed Reduced Order Modeling of Time-dependent PDEs via Differentiable Solvers

提出Φ-ROM框架,将可微分PDE求解器嵌入非线性降阶模型的训练过程中,通过求解器反馈直接约束潜在空间动态,使模型在泛化到未见参数/初始条件、长时间外推、稀疏观测数据恢复等方面显著优于纯数据驱动ROM和其他物理信息方法。

PlanU: Large Language Model Reasoning through Planning under Uncertainty

提出PlanU——一种在MCTS中用分位数分布建模节点回报、并通过Upper Confidence Bounds with Curiosity (UCC)分数平衡探索与利用的LLM决策方法,首次系统性地同时处理LLM不确定性和环境不确定性,在多个随机环境基准上显著优于现有方法。

Power Ensemble Aggregation for Improved Extreme Event AI Prediction

提出基于幂均值的自适应集成聚合方法,通过对生成式天气预测模型的集成成员得分施加非线性聚合(幂指数\(p>1\)),显著提升极端高温事件的分类性能,尤其在高分位数阈值下效果更佳。

Probability Calibration for Precipitation Nowcasting

提出了期望阈值校准误差(ETCE)作为降水临近预报中更合理的概率校准度量,并将计算机视觉中的后处理校准技术扩展到预报领域,通过结合前置时间条件的选择性缩放(Selective Scaling)方法将模型校准误差降低高达23.5%。

RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting

首个能在 0.05°(~5.5km)全球网格上做 7 天河流流量预报的深度学习模型——用空间填充曲线将 3D 时空点序列化后输入双向 Mamba block,结合 ECMWF HRES 气象预报,在 1.5-500 年重现期洪水检测上 F1 =0.459 超越 LSTM(0.358)和物理模型 GloFAS。

Rotary Masked Autoencoders are Versatile Learners

提出 RoMAE,将旋转位置编码(RoPE)扩展到连续位置并与掩码自编码器(MAE)结合,无需任何时间序列特定的架构修改即可在不规则时间序列、图像和音频等多种模态上达到或超越专用模型的性能。

Scalable Signature Kernel Computations for Long Time Series via Local Neumann Series Expansions

提出 PowerSig,通过自适应截断的局部 Neumann 级数展开高效计算签名核(signature kernel),将内存从 \(O(\ell^2)\) 降到 \(O(\ell P)\),使签名核可扩展到单GPU上百万级长度的时间序列。

ScatterAD: Temporal-Topological Scattering Mechanism for Time Series Anomaly Detection

提出"散射性"(scattering)作为异常检测的新归纳偏置——异常样本在高维表示空间中比正常样本分布更分散,通过双编码器(时间+拓扑)+ 超球面散射中心约束 + 对比融合学习时拓扑联合表示,在 6 个工业 IoT 数据集上 15/24 设置取得最佳。

Selective Learning for Deep Time Series Forecasting

提出选择性学习(Selective Learning)策略,通过不确定性掩码和异常掩码组成的双掩码机制筛选可泛化时间步计算 MSE 损失,在 8 个数据集上为 Informer 降低 37.4% MSE、TimesNet 降低 8.4%、iTransformer 降低 6.5%。

SEMPO: Lightweight Foundation Models for Time Series Forecasting

提出SEMPO——仅用6.5M参数和83M时间点预训练的轻量级时间序列基础模型,通过能量感知频谱分解和混合提示Transformer,在零样本和少样本预测中超越参数量百倍以上的大型基础模型。

Simple and Efficient Heterogeneous Temporal Graph Neural Network

提出 SE-HTGNN,通过动态注意力机制将时序建模融入空间学习,并用 LLM 初始化注意力系数,在异构时序图任务上实现 10 倍加速的同时保持最优预测精度。

Statistical Guarantees for High-Dimensional Stochastic Gradient Descent

将高维非线性时间序列的耦合技术引入在线学习,首次为常数学习率 SGD 及其 Ruppert-Polyak 平均变体在高维(\(\ell^s\)\(\ell^\infty\) 范数下)提供了严格的矩收敛界和高概率集中界。

StRap: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization

提出 StRap 框架,通过构建包含空间、时间和时空三维键值对的模式库,在推理时检索与当前输入最相似的历史模式并自适应融合,有效应对流式时空数据中的分布偏移(STOOD)问题。

Structured Temporal Causality for Interpretable Multivariate Time Series Anomaly Detection

提出OracleAD框架,通过为每个变量学习因果嵌入(LSTM编码+注意力池化)并构建稳定潜在结构(SLS)来建模正常状态下的变量间关系,结合预测误差和SLS偏离的双重评分机制实现可解释的多变量时间序列异常检测与根因定位。

Synthetic Series-Symbol Data Generation for Time Series Foundation Models

提出 Series-Symbol (S²) 数据生成机制和 SymTime 双模态基础模型,利用 Takens 定理和符号动力学理论生成无限规模的合成时序-符号配对数据(40M 对/50B token),通过跨模态对比学习预训练在 5 大时序任务上达到与真实数据预训练模型竞争的性能。

SynTSBench: Rethinking Temporal Pattern Learning in Deep Learning Models for Time Series

提出SynTSBench合成数据驱动评估范式,通过可编程的特征配置和理论最优基准,系统评估时间序列预测模型在趋势、周期、依赖性、噪声鲁棒性等维度的实际建模能力。

The Human Brain as a Combinatorial Complex

提出一种数据驱动的框架,利用 S-信息和 O-信息等信息论度量从 fMRI 时间序列中直接构建组合复形(Combinatorial Complexes),将脑区间的高阶协同交互编码到拓扑结构中,为拓扑深度学习应用于脑网络分析奠定基础。

Time-IMM: A Dataset and Benchmark for Irregular Multimodal Multivariate Time Series

构建 Time-IMM 数据集——首个按因果机制分类不规则性的多模态多变量时序 benchmark(9 种不规则类型分为触发/约束/伪影三大类,9 个数据集),配套 IMM-TSF 预测库支持异步多模态融合,实验表明显式建模多模态在不规则时序上平均降低 MSE 6.71%,最高达 38.38%。

Time-O1: Time-Series Forecasting Needs Transformed Label Alignment

提出 Time-o1,通过将标签序列变换为去相关且按重要性排序的主成分,解决时间序列预测中 TMSE 损失的自相关偏差和任务过载问题,实现与多种预测模型兼容的 SOTA 性能。

TimePerceiver: An Encoder-Decoder Framework for Generalized Time-Series Forecasting

提出 TimePerceiver 统一编码器-解码器框架,通过广义化预测任务(同时包含外推、插值和填补)以及潜在瓶颈编码器 + 查询式解码器设计,在 8 个标准基准上取得全面 SOTA。

Transformer Embeddings for Fast Microlensing Inference

本文将Transformer编码器与神经后验估计(NPE)结合,直接从稀疏、噪声、不等间隔的微引力透镜光变曲线中进行快速且校准良好的参数推断,速度比传统MCMC快10⁴倍以上。

Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning

提出首个通用光谱 Tokenizer,通过连续波长嵌入和自监督重建目标,在原始波长网格上联合训练异构天文光谱数据(SDSS/DESI/GALAH/APOGEE),生成对齐、均匀且物理有意义的表征。

WaLRUS: Wavelets for Long-range Representation Using SSMs

提出 WaLRUS,基于 Daubechies 小波构建状态空间模型 (SSM),作为 SaFARi 框架的新实现,扩展了 SSM 家族的多样性,在长程依赖建模中展现独特优势。

Wavelet Canonical Coherence for Nonstationary Signals

提出 WaveCanCoh 框架,将经典的典型相干分析(canonical coherence)扩展到小波域,基于多变量局部平稳小波(MvLSW)模型实现对非平稳多变量时间序列两组信号间时变、尺度特定的典型相干性估计。

xLSTM-Mixer: Multivariate Time Series Forecasting by Mixing via Scalar Memories

提出 xLSTM-Mixer,首次将扩展长短期记忆网络(sLSTM)与混合架构(Mixer)结合,通过时间混合、联合时间-变量混合和多视角混合三阶段架构实现多变量长期时间序列预测的 SOTA 性能,同时保持极低的内存占用。


⚖️ 对齐 / RLHF

A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs

提出一种自适应 Alpha 聚合策略,在联邦 RLHF 框架中根据各用户群体的历史对齐表现动态调整奖励权重,从而在多元偏好对齐中同时实现高公平性和强对齐性能。

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

提出基于任务并发(Task Concurrency)的LLM越狱攻击框架 JAIL-CON,通过在词级别交错编码有害任务和良性任务,利用LLM处理并发任务的能力绕过安全防护,同时产生的并发回答在guardrail下具有更强的隐蔽性。

Alignment of Large Language Models with Constrained Learning

本文提出 CAID(Constrained Alignment via Iterative Dualization),通过迭代对偶方法交替更新 LLM 策略和对偶变量,在理论上证明了对偶方法可以找到最优约束 LLM 策略(至多存在参数化间隙),并在 PKU-SafeRLHF 数据集上显著改善了约束满足和 helpfulness-safety 权衡。

Ask a Strong LLM Judge when Your Reward Model is Uncertain

提出基于不确定性的路由框架,用SNGP对pairwise reward model做不确定性量化,将高认知不确定性的样本路由到强LLM judge(DeepSeek-R1),在仅调用9.2%~42.5% judge的成本下显著超越随机路由的准确率,且有效改善下游在线RLHF对齐效果。

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

提出两阶段微调攻击:第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解(尖锐loss landscape),第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉",仅用完全良性数据即达94.84%越狱成功率,与恶意微调(97.25%)相当且完全绕过审核模型。

Can DPO Learn Diverse Human Values? A Theoretical Scaling Law

建立了 DPO 在多元人类价值设定下的理论泛化框架——通过分析有限梯度步后 reward margin 的动态轨迹,证明了每种价值所需样本量必须随价值类别数 \(K\) 对数增长(\(Q = \Theta(\log K)\))才能维持泛化性能,揭示了对齐多元化社会价值的统计代价。

Capturing Individual Human Preferences with Reward Features

提出奖励特征模型(RFM):学习共享奖励特征 \(\phi_\theta(x,y)\),每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\),并首次给出多评价者偏好学习的PAC泛化界,证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效,仅30个样本即可快速适应新用户。

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

提出DeepVideo-R1,将GRPO重新表述为回归优势值的Reg-GRPO(消除clipping/min等保护机制),同时通过难度感知数据增强缓解优势值消失问题,在视频推理任务上相比标准GRPO提升高达10.1个百分点。

DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

识别并解决视频 DPO 的运动偏差问题——通过从 GT 视频加噪去噪构造结构对齐的视频对来固定运动维度、在时间片段级标注密集偏好来获取更精准的学习信号、用现成 VLM 自动标注来降低成本,仅用 1/3 标注数据即大幅提升运动生成质量同时匹配视觉质量和文本对齐。

Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization

提出 Latent Reward Model (LRM) 和 Latent Preference Optimization (LPO),将预训练扩散模型本身复用为噪声感知的潜空间奖励模型,在噪声潜在空间直接进行步级偏好优化,相比 Diffusion-DPO 实现 10-28× 训练加速,相比 SPO 实现 2.5-3.5× 加速。

DP²O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution

提出 DP²O-SR 框架,利用扩散模型固有的随机性生成多样化超分辨率输出,通过混合感知奖励构建偏好对,并设计层次化偏好优化(HPO)策略自适应加权训练对,在无需人工标注的前提下显著提升真实世界图像超分辨率的感知质量。

EvoRefuse: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

提出 EvoRefuse——用进化搜索(变异/重组 + ELBO 适应度函数 + 模拟退火)自动生成语义无害但能可靠触发 LLM 拒绝的"伪恶意"指令,构建的 EvoRefuse-Test 基准比最强基线拒绝触发率高 85.34%、词汇多样性高 34.86%,EvoRefuse-Align 对齐数据通过 SFT/DPO 微调将过度拒绝降低 29.85%-45.96% 且不损害安全性。

From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

提出 Streaming Content Monitor (SCM)——首个原生支持部分检测的流式有害内容监控器,通过 FineHarm 数据集(29K 样本含 token 级标注)和层次一致性感知学习,平均仅需看到 18% 的 response tokens 即可达到 0.95+ macro F1,实现对 LLM 有害输出的实时早停。

g-DPO: Scalable Preference Optimization for Protein Language Models

针对蛋白质语言模型(PLM)应用 DPO 时偏好对数量随样本数二次增长导致训练不可扩展的问题,提出 g-DPO 框架:(1) 通过序列空间 union mask 聚类剪枝冗余偏好对,保留局部邻域中信息量更大的比较;(2) 利用共享 union mask 的分组似然摊销,一次前向传播同时计算组内所有序列的 log-likelihood。在三个蛋白质工程任务上,g-DPO 保持与标准 DPO 统计上不可区分的 in silico 和 in vitro 性能,同时实现 1.7-5.4× 的训练加速。

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs

提出GASP框架,通过训练专用的SuffixLLM生成可读的对抗后缀,利用潜在贝叶斯优化(LBO)在连续嵌入空间中高效搜索并用ORPO迭代微调生成器,在完全黑盒设置下实现高攻击成功率且生成的后缀保持人类可读性。

Generalizing while Preserving Monotonicity in Comparison-based Preference Learning Models

提出 Linear GBT with Diffusion Prior,一类在保证单调性(偏好比较后被偏好方的分数不会反常下降)的同时能泛化到未比较数据的偏好学习模型,首次正面回答了"泛化与单调性能否兼得"的核心问题。

Greedy Sampling Is Provably Efficient for RLHF

证明了在KL正则化的RLHF设置下,直接使用经验估计的贪心采样(无需构建乐观/悲观估计)就能在在线和离线两种设置中实现\(O(\log T)\)遗憾界和\(O(\varepsilon^{-1})\)样本复杂度,这是首次在一般偏好模型下达到这些阶数。

GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

通过将 KL 约束奖励最大化的解析解融入梯度权重(零和权重消除配分函数),设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO,在 AIME 上达到 20.72%(GRPO 14.79%),并证明具有唯一全局最优解。

Human-assisted Robotic Policy Refinement via Action Preference Optimization

提出 Action Preference Optimization (APO),通过人机协作框架收集交互轨迹,利用基于前景理论的二元期望信号和自适应重加权方法对 VLA 模型进行偏好对齐优化,使其能从失败中学习并持续迭代改进。

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

提出两种互补技术提升 LLM 强化微调(GRPO)的数据效率:(1) DOTS——基于注意力机制预测自适应难度,优先选择中等难度问题以最大化梯度信号;(2) Rollout Replay——复用近期 rollout 降低每步计算开销。两者结合在 6 个模型-数据集组合上平均减少 40.7% 训练时间。

Inference-time Alignment in Continuous Space

提出 Simple Energy Adaptation (SEA),将推理时对齐从"离散空间搜索"范式转变为"连续空间优化"范式,通过在连续 logit 空间上进行基于梯度的 Langevin 采样来逼近 RLHF 最优策略,在 AdvBench 上相对最优基线提升 77.51%,在 MATH 上提升 16.36%。

Jailbreak-Zero: A Path to Pareto Optimal Red Teaming for Large Language Models

提出基于策略(而非示例)的 LLM 红队评估框架和 Jailbreak-Zero 方法,通过简单的大规模并行采样策略(无需人工越狱策略),在 HarmBench 上对 GPT-4o 和 Claude 3.5 分别达到 99.5% 和 96.0% 的攻击成功率,同时通过微调实现覆盖率、多样性和保真度三个目标的 Pareto 最优。

KL Penalty Control via Perturbation for Direct Preference Optimization

提出 ε-DPO,通过观察训练时扰动 β 后 logit 作为偏好模型的单调性,实现实例级自适应 KL 惩罚控制,无需额外计算开销即可显著超越 DPO 及大多数直接对齐算法,在 AlpacaEval 2 上达到 46.4% LC win rate(DPO 仅 40.3%)。

LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits

将多个奖励模型(RM)的选择建模为上下文多臂老虎机(LinUCB)问题,在迭代 LLM 训练中自适应地为每个 batch 选择最合适的 RM,在推理、指令跟随和长上下文任务上以 2-3 倍效率优势全面超越 RM 集成和单 RM 基线。

Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

提出 LENS 框架,通过在 LLM 嵌入的潜在空间中利用 VAE 合成偏好数据对,绕过昂贵的文本生成过程,以极低计算成本(模型缩小 16000 倍、生成速度提升 18 倍)显著提升 reward model 性能。

LLM Safety Alignment is Divergence Estimation in Disguise

建立统一理论框架证明 RLHF/DPO/KTO/BCO 等对齐方法本质上是在估计安全分布 \(\mathcal{D}^+\) 与不安全分布 \(\mathcal{D}^-\) 之间的散度,由此解释了对齐后隐空间分离现象,并提出基于 KL 散度的 KLDO 对齐方法,在 5 个模型上实现最佳鲁棒性。

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

LongVPO提出两阶段DPO框架,Stage 1通过锚定短片段构造伪长视频偏好数据并引入anchor-only参考模型近似解决上下文长度不匹配问题,Stage 2通过递归字幕生成和多片段推理任务在真实长视频上自训练,仅用16K合成样本即超越大规模监督训练的长视频模型。

Mechanism Design for LLM Fine-tuning with Multiple Reward Models

将多方偏好聚合的 RLHF 微调建模为机制设计问题,证明了在社会福利最大化训练规则下各方有动机虚报偏好,并通过扩展 VCG 支付机制实现了占优策略激励相容(DSIC),确保各方如实报告偏好。

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

提出 MetaDefense,一个两阶段(生成前+生成中)防御框架,通过训练 LLM 自身预测查询和部分响应的有害性来防御基于微调的越狱攻击,无需额外分类器,实现 2× 内存效率。

Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization

提出 SymMPO(对称多模态偏好优化),通过对比图像的对称配对偏好学习和偏好边际一致性正则化,解决了现有视觉增强型 DPO 方法中目标函数不严格和间接偏好监督两大局限,在五个幻觉评测基准上取得了一致的性能提升。

Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability

系统研究了多环境 POMDP(ME-POMDP)——一类共享状态/动作/观测空间但转移、观测和奖励函数可任意不同的 POMDP 集合,目标是找到在最坏情况环境下最大化奖励的鲁棒策略。通过引入对抗信念 POMDP(AB-POMDP)统一建模,并证明其与单侧部分可观测随机博弈(POSG)的等价关系,提出精确(值迭代 + LP)和近似(AB-HSVI)算法。

On Extending Direct Preference Optimization to Accommodate Ties

将 DPO 中的 Bradley-Terry 偏好模型替换为 Rao-Kupper 和 Davidson 扩展,使偏好优化能够显式建模"平局"数据,避免丢弃模糊偏好对,在翻译和数学推理上获得更好的正则化和性能。

ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

提出 ORPO-Distill,将跨架构 LLM 知识蒸馏重新定义为偏好优化问题:使用教师模型生成正样本推理链、学生模型生成负样本推理链,通过 ORPO 对比损失训练,并引入混合策略(mixed-policy)更新学生负样本,在 5 个 QA 基准上一致超越黑盒 KD 基线。

PolyJuice Makes It Real: Black-Box, Universal Red Teaming for Synthetic Image Detectors

提出 PolyJuice,首个面向合成图像检测器(SID)的黑盒、图像无关的红队方法,通过在 T2I 模型潜空间中发现并利用"真实感方向",以通用方式引导生成图像欺骗检测器,成功率高达 84%。

Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

本文将 RLHF 中反复出现的安全-公平-效率冲突形式化为「对齐三难困境」:证明了没有任何 RLHF 系统能同时满足 \(\varepsilon\)-代表性(忠实反映多元价值)、多项式可处理性(计算可行)和 \(\delta\)-鲁棒性(抵御对抗攻击),从而为当前 RLHF 系统中偏好坍缩、谄媚等病理现象提供了统一的复杂度理论解释。

Preference Learning with Lie Detectors can Induce Honesty or Evasion

系统研究了将谎言检测器(lie detector)整合到LLM偏好学习标注流程中的效果(SOLiD框架),发现训练后模型是变得诚实还是学会规避检测取决于三个关键因素:探索程度(GRPO vs DPO)、检测器准确率(TPR)和KL正则化强度。

Preference Optimization by Estimating the Ratio of the Data Distribution

将 DPO 重新解释为似然比估计(ratio matching)问题,基于 Bregman 散度框架提出 BPO(Bregman Preference Optimization),包含 DPO 为特例的广义损失函数族,并设计了 SBA(Scaled Basu's Power Divergence)实例,在 Llama-3-8B 上实现 55.9% AlpacaEval2 length-controlled win rate 的 SOTA。

Provably Efficient Online RLHF with One-Pass Reward Modeling

提出一种基于 online mirror descent(OMD)的 one-pass reward modeling 方法,消除了 online RLHF 中需要存储历史数据并重新从头优化的计算瓶颈,实现每次迭代 \(\mathcal{O}(1)\) 的时间和存储复杂度,同时在统计效率上也优于 MLE 方法。

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

RL 微调 LLM 时实际上只更新了 5%-30% 的参数(稀疏子网络),且该子网络在不同种子、数据和算法间具有高度一致性,仅微调子网络即可复现完整微调的模型性能甚至参数值。

ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning

提出 ResponseRank 方法,通过利用偏好强度的代理信号(如响应时间和标注者一致性)的局部相对差异来鲁棒地学习效用差值,显著提升奖励模型的样本效率。

Rethinking Direct Preference Optimization in Diffusion Models

针对扩散模型中 DPO 的两个核心问题——有限探索和奖励尺度不平衡,提出稳定参考模型更新策略和时间步感知训练策略,可集成到各种偏好优化算法中。

Robust LLM Alignment via Distributionally Robust Direct Preference Optimization

通过分布鲁棒优化(DRO)框架提出 WDPO(Wasserstein)和 KLDPO(KL散度)两种鲁棒 DPO 变体,解决用户偏好分布转移导致的对齐失败问题,提供 \(O(n^{-1/4})\) 收敛保证,在多维对齐任务和 OpenLLM 榜单上显著优于标准 DPO。

SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism

通过分析多模态 LLM 中有害 token 的传播机制,发现不到 1% 的 token 在早期-中间层引发越狱行为,由此提出无需训练的 SafePTR 框架,在脆弱层剪枝有害 token 并在后续层恢复良性特征,显著提升安全性而不牺牲任务性能。

SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

首次系统性地将安全强化学习(SafeRL)的 CMDP 框架应用于视觉-语言-动作模型(VLA)的安全对齐,通过建模-激发-约束-保证四阶段集成安全方法(ISA),在移动操作任务上实现 83.58% 的安全违规成本下降同时保持任务性能(+3.85%)。

Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

提出 RRPO(Refined Regularized Preference Optimization),通过子序列级细粒度奖励和 token 级 KL 正则化替代 DPO 的响应级奖励,结合自对齐数据生成框架,在视频理解任务上减少幻觉、提升时间推理能力。

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks

理论证明并实验验证:防御长度 \(\Theta(M)\) 的后缀越狱攻击,只需要在长度 \(\Theta(\sqrt{M})\) 的对抗后缀上做对抗训练即可,即"短对抗训练防长越狱"——在5个主流LLM上,20 token 对抗训练可将 120 token 越狱成功率降低至少 30%。

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

发现 NPO(负偏好优化)中的参考模型偏差导致遗忘数据的优化功率分配不均和早期梯度权重平滑失效,提出 SimNPO 通过去除参考模型依赖并采用长度归一化奖励,在 TOFU 上将 FQ 从 0.79 提升至 0.99,在所有基准上一致优于 NPO。

Strategyproof Reinforcement Learning from Human Feedback

首次从机制设计角度研究 RLHF 中多标注者策略性操纵问题,证明了策略防操纵(strategyproofness)与政策对齐之间存在根本性权衡,并提出 Pessimistic Median of MLEs 算法实现近似策略防操纵。

T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning

提出 T-SHIRT 数据选择框架,通过 Selective IFD(仅考虑有信息量的 token)和分层选择策略(偏好邻域一致性高的样本),用 5% 数据微调即可超越全量数据训练,同时仅需 GPT-2 和单 GPU 40 分钟完成选择。

Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons

通过机制可解释性视角发现 LLM 中约 5% 的稀疏"安全神经元",仅修补(patching)这些神经元的激活即可恢复 90% 以上的安全性能,并从神经元重叠角度解释了 alignment tax 现象。

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

提出 TBA(Trajectory Balance with Asynchrony),将 GFlowNet 的轨迹平衡(TB)目标与异步分布式 RL 架构结合,实现 LLM 后训练中探索与学习的解耦,在数学推理、偏好微调和自动红队测试任务上获得 4-50 倍加速且性能不降反升。

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

TBRM 通过最小化轨迹级贝尔曼残差,将 LLM 输出 logits 视为隐式 Q 值,仅需每个 prompt 一次前向采样即可训练,复杂度远低于 PPO/GRPO 但数学推理性能相当或更优。

What Makes a Reward Model a Good Teacher? An Optimization Perspective

从优化理论角度证明:奖励模型的准确率(accuracy)不足以衡量其作为 RLHF "教师"的质量——即使完美准确的奖励模型,如果诱导的奖励方差(reward variance)过低,也会导致 RLHF 目标函数景观平坦,使 policy gradient 优化极慢;不同的语言模型需要不同的奖励模型。


💬 LLM / NLP

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

提出 AceSearcher——一种协作式自我博弈框架,让单个 LLM 同时扮演问题分解者(将复杂查询拆解为子问题引导检索)和求解者(整合检索上下文生成答案),通过 SFT + 迭代 DPO 两阶段训练,仅用最终答案作为奖励信号,在 10 个数据集上平均 EM 提升 7.6%,32B 模型匹配 DeepSeek-V3(<5% 参数)。

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

提出 CAKE (Context-Aware Kernel Evolution),利用 LLM 作为遗传算法的交叉和变异算子,在贝叶斯优化过程中自适应地生成和进化 GP 核函数表达式,结合 BAKER 排序机制平衡模型拟合(BIC)与期望改进(EI),在超参数优化、控制器调参和光子芯片设计等任务上持续超越固定核和自适应核基线。

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

从逻辑编程角度提出评估 LLM 推理效率(而非仅正确性)的框架——通过 verbalized logic program 将自然语言证明映射到逻辑程序证明,发现当前 LLM 在含无关公理的数学题中不仅准确率下降,且推理过程严重低效(超过一半的推理步骤是不必要的)。

AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise

AutoDiscovery 提出用贝叶斯惊奇度(Bayesian Surprise)作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度,配合 MCTS+渐进展宽在假设空间中探索,在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现,人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性(0.67)远超 LLM 自身评估的"新颖性"和"有用性"。

C²Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

针对联邦持续学习中prompt通信时的类级知识不一致问题,提出C²Prompt方法,通过局部类分布补偿(LCDC)和类感知prompt聚合(CPA)两个机制显式增强跨客户端的类级知识一致性,在ImageNet-R上Avg准确率达87.20%,超出SOTA Powder 2.51%。

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

CAT 将标准自注意力中的 \(N \times N\) 注意力矩阵替换为一个由 \(N\) 维向量生成的循环矩阵(circulant matrix),利用 FFT 实现 \(O(N \log N)\) 复杂度的注意力计算,在严格保持 softmax 行归一化结构的前提下,在 ImageNet-1k(avg pool 下 CLIP-L 准确率 0.694 vs 标准注意力 0.646)和 WikiText-103 masked LM(PPL 8.32 vs 9.82)上匹配或超越标准注意力。

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

精确刻画了固定精度、严格未来掩码、软注意力、无位置编码的 Transformer 的表达能力——恰好等价于仅含过去算子的线性时态逻辑 LTL[P],并将其与偏序确定有限自动机 (PODFA)、\(\mathcal{R}\)-trivial 幺半群统一起来。

Composing Linear Layers from Irreducibles

利用Clifford代数,将线性层表示为二向量(bivector)的组合——即旋量(rotor)的三明治乘积——仅需 \(O(\log^2 d)\) 参数即可替代 \(d \times d\) 密集矩阵,应用于LLM注意力层的Q/K/V投影时性能接近原始模型和强基线。

Cultural Alien Sampler: Open-ended Art Generation Balancing Originality and Coherence

提出Cultural Alien Sampler (CAS)——用两个GPT-2模型分别建模"概念一致性"和"文化典型性",通过选择高一致性但低文化典型性的概念组合来生成原创且和谐的艺术创意,在人类评估中接近艺术专业学生水平并远超GPT-4o。

Detecting High-Stakes Interactions with Activation Probes

用线性激活探针(在 LLM 内部表示上训练的轻量分类器)检测用户的"高风险交互",在合成数据上训练后跨 6 个真实数据集 AUROC 达 0.88-0.92,匹敌 8-12B 微调 LLM但计算成本低 6 个数量级,级联架构(探针初筛+LLM 精判)进一步超越单独使用任一方法。

Do Language Models Use Their Depth Efficiently?

通过因果干预、残差流分析和跨模型线性映射,证明当前 LLM 后半部分层不参与组合式计算,仅迭代细化输出概率分布,深层模型只是把浅层模型的计算"展延"到更多层。

Don't Be Lazy: CompleteP Enables Compute-Efficient Deep Transformers

CompleteP 参数化(α=1)是唯一同时实现深度方向超参转移和完全特征学习的方案,在深模型上相比 μP 节省 12-34% FLOPs。

EnCompass: Enhancing Agent Programming with Search Over Program Execution Paths

提出 Probabilistic Angelic Nondeterminism (PAN) 编程模型及 EnCompass Python 框架,将 agent 的核心工作流逻辑与推理时搜索策略解耦,程序员只需在 LLM 调用处加 branchpoint() 标记,即可用几行参数切换 best-of-N、beam search、tree search 等策略,代码修改量减少 3-6x。

EvoRefuse: 用进化提示优化评估和缓解LLM过度拒绝

提出EvoRefuse框架,通过进化搜索最大化ELBO来自动生成多样的伪恶意指令,构建了更具挑战性的过度拒绝评估基准(EvoRefuse-Test)和有效的对齐缓解数据集(EvoRefuse-Align)。

GeoCAD: Local Geometry-Controllable CAD Generation with Large Language Models

提出 GeoCAD,首个实现局部几何可控 CAD 生成的方法,通过互补标注策略为局部零件生成几何指令,并微调 LLM 实现根据用户文本指令精确修改 CAD 模型的局部部分。

Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales

研究矩阵预条件优化器(Shampoo/SOAP/Muon)的超参数随模型宽度和深度的缩放规则(基于 μP),发现正确的超参缩放是实现一致加速的关键:使用 μP + 1/width weight decay,三者在 190M 到 1.4B 参数的 Llama 模型上一致实现约 1.4× 加速。

In-Context Learning of Linear Dynamical Systems with Transformers: Approximation Bounds and Depth-Separation

分析了线性 Transformer 在噪声线性动力系统上的 ICL 近似能力:\(O(\log T)\) 深度可达到 \(O(\log T / T)\) 测试误差(接近最小二乘估计器),而单层线性 Transformer 存在不可消除的下界——揭示了非 IID 数据下的深度分离现象。

Large Language Models Miss the Multi-Agent Mark

Position paper 通过调研 1400+ 篇论文,系统论证当前 MAS LLMs 在四个维度偏离传统 MAS 基础理论——LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化,指出该领域有忽视 40 年 MAS 成果而重新发明轮子的风险。

Linear Transformers Implicitly Discover Unified Numerical Algorithms

训练线性 Transformer 执行矩阵块补全任务后,通过权重代数分析发现模型在三种完全不同的计算约束(集中式、分布式、计算受限)下隐式收敛到同一个双行迭代更新规则 EAGLE,该规则具有二阶收敛性且依赖条件数仅为对数级别。

MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention

提出 MonarchAttention,利用 Monarch 矩阵的结构化特性,通过 softmax 变分形式的交替优化,实现 \(\Theta(N\sqrt{N}d)\) 复杂度的注意力近似,无需额外训练即可零样本替换预训练 Transformer 的注意力层,同时在 GPU 上相比 FlashAttention-2 实现 1.4×–8.2× 的加速。

MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery

将细粒度科学假设生成形式化为组合优化问题,提出层次启发式搜索(HHS)——利用 LLM 的成对比较作为梯度信号在假设空间中导航,层次化抽象平滑奖励景观减少局部最优陷阱,在 2024 年后化学论文 51 篇的专家标注 benchmark 上 Soft Recall 从 19.99% 提升到 40.35%。

msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML

提出 msf-CNN,一种基于有向无环图(DAG)最短路径算法的多阶段 patch-based 融合优化技术,通过高效搜索 CNN 的最优融合配置,在各种微控制器(ARM Cortex-M、RISC-V、ESP32)上实现比现有方法(MCUNetV2、StreamNet)减少 50%–87% 的峰值 RAM 使用,同时保持可控的计算开销。

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Nemotron-Flash 通过系统优化深宽比、进化搜索混合算子组合(DeltaNet+Mamba2+Attention)以及权重归一化训练,构建延迟最优的小语言模型家族,相比 Qwen3-1.7B/0.6B 分别实现 1.3×/1.9× 延迟下降与 +5.5% 平均准确率提升。

On the Role of Hidden States of Modern Hopfield Network in Transformer

本文突破现代 Hopfield 网络(MHN)与 Transformer 对应关系的绝热近似限制,发现保留 MHN 的隐状态动力学会在自注意力层中引入跨层注意力分数传播机制(Modern Hopfield Attention, MHA),不增加训练参数即可系统性改善 ViT 和 GPT-2 的性能,并从理论和实验上证明 MHA 有效缓解了深层 Transformer 的 rank collapse 问题。

Opinion Maximization in Social Networks by Modifying Internal Opinions

本文研究社交网络中通过修改 k 个关键节点的内部意见来最大化整体意见的优化问题,提出了两种基于采样的近似算法(随机游走和森林采样)以及一种基于异步更新的精确算法 MIS,后者在理论上保证收敛到最优解,并在数千万节点的真实网络上展示了卓越的效率与精度。

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

PluralisticBehaviorSuite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies

提出 PBSuite,一个包含 300 个行业定制行为策略和动态多轮对抗评估框架的评测套件,揭示了主流 LLM 在单轮设置下合规率高(违规 <4%),但在多轮对抗交互中合规性急剧下降(违规高达 84%)。

Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity

揭示了 LLM 推理中稀疏性的"极性转移"现象——MLP 层稀疏性随 batch 增大而消失,而 attention head 稀疏性保持稳定且与 batch 无关,据此设计了 Selective Head Attention 及对应 GPU kernel,在大 batch 推理中实现高达 2.2x 的端到端加速。

Post Hoc Regression Refinement via Pairwise Rankings

提出 RankRefine,一种模型无关的后处理回归改进方法,通过将基础回归器的预测与基于成对排序的估计进行逆方差加权融合,在无需重训练的情况下显著降低预测误差,仅需 20 次成对比较和通用 LLM 即可实现分子性质预测中高达 10% 的 MAE 相对减少。

PRESTO: Preimage-Informed Instruction Optimization for Prompting Black-Box LLMs

提出 PRESTO 框架,利用白盒 LLM 中 soft prompt 到 instruction 的 many-to-one 映射关系(preimage 结构),通过 score sharing、preimage-based initialization 和 score consistency regularization 三大组件,在相同查询预算下等效获得 14 倍的标注数据量,显著提升黑盒 LLM 的指令优化效率。

Q♯: Provably Optimal Distributional RL for LLM Post-Training

提出 Q♯,一种基于分布式 RL 的值函数方法用于 KL 正则化 LLM 后训练,通过学习参考策略下的累积奖励分布来计算最优软 Q 函数引导生成,在数学推理任务上实现更高准确率和更低 KL 散度,并证明了方差相关的 PAC 收敛界。

Reparameterized LLM Training via Orthogonal Equivalence Transformation

提出 POET 训练框架,通过将权重矩阵重参数化为"两个可学习正交矩阵 × 固定随机权重"的形式来保持谱性质不变,实现更稳定的训练和更好的泛化,且比 AdamW 更节省参数。

Scaling Up Active Testing to Large Language Models

通过三项关键简化——用 in-context learning 构建固定代理模型、使用小代理模型评估大目标模型、无需目标模型预测进行数据采集——将 active testing 扩展到 LLM,风险估计误差比随机采样降低 25%-80%。

SolverLLM: 通过LLM引导的搜索利用测试时缩放求解优化问题

提出SolverLLM,一个无需训练的框架,将优化问题的数学建模视为搜索问题,通过改进的MCTS在六元素表述空间中探索最优formulation,引入动态扩展、提示反向传播和不确定性反向传播,在6个基准上以无训练方式超越prompt方法和微调方法。

Solving Inequality Proofs with Large Language Models

提出 IneqMath(首个大规模奥林匹克级不等式 benchmark),将不等式证明定义为两个可自动验证的子任务(界估计与关系预测),并开发五模块 LLM-as-Judge 框架,发现即便 o1 在逐步推理审查下整体准确率也不到 10%。

SPACE: Noise Contrastive Estimation Stabilizes Self-Play Fine-Tuning for Large Language Models

提出 Space(Self-PlAy via Noise Contrastive Estimation),将噪声对比估计引入自对弈微调,通过独立优化真实和合成样本的绝对奖励值(而非相对差距),从根本上解决了 SPIN 等方法的不稳定收敛问题,并提供可证明的稳定收敛保证。

Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning

提出 Sparse MeZO(S-MeZO),通过观察到零阶梯度噪声对大权重影响更严重,选择性地仅对小权重进行零阶优化扰动和更新,在不增加内存开销的前提下实现了显著的性能提升(RTE 上 +9%)和收敛加速(3.5x)。

Spectral Conditioning of Attention Improves Transformer Performance

理论分析了 Transformer 注意力层 Jacobian 的条件数受 Query/Key/Value 矩阵条件数控制,提出谱调节注意力(Spectral Conditioned Attention),通过向 Q/K/V 矩阵添加固定校正项降低条件数,作为即插即用模块在图像分类、目标检测、NLP 等多任务上一致提升性能。

SubSpec: Speculate Deep and Accurate — Lossless and Training-Free Acceleration for Offloaded LLMs

提出 SubSpec,一种即插即用的无损、无训练参数卸载 LLM 加速方法,核心思想是从卸载的目标模型本身构建高对齐度的量化替代草稿模型,并通过共享 GPU 驻留层和 KV-Cache 最大化对齐度,在 8GB 显存限制下实现 Qwen2.5 7B 的 9.1 倍加速、24GB 显存下 Qwen2.5 32B 的 12.5 倍加速。

Strassen Attention, Split VC Dimension and Compositionality in Transformers

提出 Splitting VC 维度理论工具证明了单层 softmax Transformer(即使无限精度)在组合推理任务上的根本限制,并设计了具有亚立方时间复杂度的 Strassen 注意力机制来突破这些限制。

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Model

StreamBridge提出一个简单通用的框架,通过记忆缓冲区+轮次衰减压缩策略实现多轮流式交互,通过解耦的轻量激活模型实现主动响应,配合专门构建的Stream-IT数据集,成功将离线Video-LLM(如Qwen2-VL、LLaVA-OV)转化为流式助手,在OVO-Bench和Streaming-Bench上超越GPT-4o和Gemini 1.5 Pro。

SYMPHONY: Synergistic Multi-agent Planning with Heterogeneous Language Model Assemblies

提出 SYMPHONY,一个基于 MCTS 的多智能体规划框架,通过异构 LLM 池的多样性驱动搜索、UCB 自适应调度、熵调制置信度评估和池级记忆共享,显著提升了 LLM 规划的多样性和效率。

Synergy over Discrepancy: A Partition-Based Approach to Multi-Domain LLM Fine-Tuning

提出基于分区的多阶段微调框架,通过策略性地将多个域划分为子集(阶段),在最大化域间协同的同时最小化负迁移,并推导了新的泛化界来理论支撑该分区策略。

System Prompt Optimization with Meta-Learning

提出双层系统提示优化问题并设计 MetaSPO 元学习框架,通过外循环优化跨任务泛化的系统提示、内循环优化任务特定的用户提示,使优化后的系统提示在 14 个未见任务上显著超越基线。

Systematizing LLM Persona Design: A Four-Quadrant Technical Taxonomy for AI Companions

提出 LLM persona 设计的四象限技术分类框架,沿"虚拟 vs 具身"和"情感陪伴 vs 功能增强"两轴,系统化分析了从虚拟伴侣、游戏 NPC 到护理机器人等不同场景下的技术栈、核心挑战和伦理风险。

The Rise of Parameter Specialization for Knowledge Storage in Large Language Models

系统分析 20 个开源 LLM,发现更强的模型在 MLP 参数向量中展现出更高的知识特化程度(Parameter Specialization),即相似知识倾向于集中编码到少数参数向量中,并通过因果实验验证该特化程度与模型知识任务性能之间存在因果关系。

Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs

提出 T-SPIN(三元组自博弈微调),在 SPIN 基础上引入"历史优势"(proto-synthetic 响应作为锚点)和熵约束实现无参考策略训练,解决了 SPIN 迭代中的优化不稳定和训练-生成不对齐两大问题,仅用 25% 标注数据即可媲美全量 SFT。

Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning

本文提出基于隐状态几何(可分离性+对齐性)的统一框架,将ICL的两大解释路线——注意力头(PTH/IH)和任务向量——联系起来,揭示ICL在分类任务中的两阶段机制:早期层通过PTH建立可分离性,后期层通过IH改善与标签unembedding方向的对齐性。

Valid Inference with Imperfect Synthetic Data

提出基于广义矩估计(GMM)的无超参数框架,将 LLM 生成的不完美合成数据与真实数据结合进行统计有效推断,当合成数据残差与真实数据残差相关时可显著降低估计方差,且在最坏情况下(合成数据完全无信息)也不会损害估计质量。

Weak-to-Strong Generalization under Distribution Shifts

本文发现朴素的弱到强泛化在分布偏移下会失败(强模型甚至不如弱监督者),并提出 RAVEN 框架,通过动态学习多个弱模型的最优组合权重来实现鲁棒的弱到强泛化,在 OOD 任务上超越 baseline 超过 30%。

What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains

理论证明两层单头 Transformer 足以表示任意 \(k\) 阶马尔可夫过程的条件 \(k\)-gram 模型(即 \(k\) 阶 induction head),给出了 Transformer 深度与马尔可夫阶数关系的最紧已知刻画,关键在于利用 MLP 中的 ReLU 和 LayerNorm 非线性来补偿减少的层数。

Wider or Deeper: Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

AB-MCTS 提出了一种自适应分支的蒙特卡洛树搜索框架,在搜索树的每个节点上动态决定是"变宽"(生成新候选答案)还是"变深"(利用反馈优化现有答案),通过贝叶斯后验更新平衡探索与利用,在编程和工程任务上超越了重复采样和标准 MCTS。

Writing in Symbiosis: Mapping Human Creative Agency in the AI Era

通过对 5 万+文档的纵向语料分析,提出"双轨演化"假说——LLM 时代人类写作在主题上趋同、风格上结构性分化,并发现三种作者适应策略原型(Adopters/Resistors/Pragmatists)。


🕸️ 图学习

Agint: Agentic Graph Compilation for Software Engineering Agents

提出 Agint 图编译器,将自然语言意图通过六层类型地板(TEXT→TYPED→SPEC→STUB→SHIM→PURE)渐进编译为类型化DAG,配合混合JIT运行时和Unix风格工具链,使AI代码生成从脆弱的单次文本预测变为结构化、可并行、可复现的编译过程。

BLISS: Bandit Layer Importance Sampling Strategy for Efficient Training of Graph Neural Networks

提出 BLISS,将 GNN 的层级邻居采样建模为多臂老虎机问题,用 EXP3 算法动态调整每条边的采样概率,根据邻居对节点表示的方差贡献作为奖励信号,在 GCN 和 GAT 上维持或超越全批次训练精度。

Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

提出 DP(Deliberation on Priors)框架,通过渐进式知识蒸馏利用知识图谱的结构先验生成忠实的关系路径,并通过推理内省策略基于约束先验验证推理可靠性,在 KGQA 基准上达到新 SOTA。

Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking

系统审计16个KGQA数据集发现平均事实正确率仅57%(WebQSP 52%,MetaQA 20%),提出KGQAGen框架——通过LLM引导的子图扩展+SPARQL自动验证构建高质量多跳QA数据集KGQAGen-10k(96.3%准确率),揭示KG-RAG的主要瓶颈在检索而非推理。

DuetGraph: Coarse-to-Fine Knowledge Graph Reasoning with Dual-Pathway Global-Local Fusion

DuetGraph 提出双通路(消息传递 + 全局注意力)并行融合模型与粗到精推理优化策略,通过分离而非堆叠局部/全局信息处理来缓解 KG 推理中的分数过平滑问题,在归纳与传导推理任务上取得 SOTA,MRR 最高提升 8.7%、训练加速 1.8×。

Dynamic Bundling with Large Language Models for Zero-Shot Inference on Text-Attributed Graphs

DENSE 提出"文本捆绑"策略,将拓扑/语义相近的节点文本打包后查询 LLM 获取 bundle 级别标签,再用 entropy-based 和 ranking-based 损失监督 GNN 训练,并动态精炼 bundle 排除噪声节点,在 10 个 TAG 数据集上零样本推理全面超越 GPT-4o 和图基础模型。

Elastic Weight Consolidation for Knowledge Graph Continual Learning: An Empirical Evaluation

本文在 FB15k-237 上系统评估了弹性权重固化(EWC)对 TransE 知识图谱嵌入持续学习的效果,发现 EWC 将灾难性遗忘从 12.62% 降至 6.85%(减少 45.7%),并揭示了任务划分策略(基于关系 vs 随机)对遗忘度量的显著影响(9.8 个百分点差异)。

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

提出 ESCA 框架,通过开放域场景图生成(SGClip 模型)为 MLLM 驱动的具身智能体提供结构化视觉理解上下文,显著降低了感知错误率并提升了任务完成率。

FALCON: An ML Framework for Fully Automated Layout-Constrained Analog Circuit Design

FALCON 提出端到端的模拟/RF 电路自动化设计框架,通过 MLP 拓扑选择 + 边中心 GNN 性能预测 + 可微版图约束梯度推理三阶段流水线,在 100 万级 Cadence 仿真数据集上实现 >99% 拓扑选择准确率、<10% 性能预测误差,单实例推理不到 1 秒。

FastJAM: a Fast Joint Alignment Model for Images

提出 FastJAM,一种基于图的快速图像联合对齐方法:利用现成图像匹配器计算成对关键点对应,通过快速非参数聚类构建关键点图,GNN 传播聚合信息后预测每张图像的单应性参数,配合反向合成损失(inverse-compositional loss)消除正则化超参数需求。将联合对齐时间从小时/分钟级降至约 49 秒,同时对齐质量优于或持平现有方法。

From Sequence to Structure: Uncovering Substructure Reasoning in Transformers

本文通过实证和理论分析揭示 decoder-only Transformer 如何从文本序列中理解图结构,提出"诱导子图过滤"(ISF)解释子结构逐层识别机制,并扩展到 LLM 验证一致性、复合图推理(Thinking-in-Substructures)和属性图(分子图)子结构提取。

Generative Graph Pattern Machine

提出 Generative Graph Pattern Machine (G2PM),一种完全无消息传递的生成式 Transformer 图预训练框架:通过随机游走将图实例(节点/边/图)tokenize 为子结构序列,以 Masked Substructure Modeling 目标进行自监督预训练,在节点/链接/图分类及跨域迁移任务上全面超越现有图预训练方法,并展现出类似 NLP/CV 的模型和数据双重扩展性。

Geometric Imbalance in Semi-Supervised Node Classification

首次形式化定义了半监督节点分类中的"几何不平衡"概念——消息传递在类别不平衡图上导致少数类节点在黎曼流形嵌入空间中产生几何歧义,并提出 UNREAL 框架,通过双路径伪标签对齐、节点重排序和几何歧义样本丢弃三个模块系统性缓解该问题。

GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation

提出首个图基础模型驱动的检索增强生成框架 GFM-RAG,通过 query-dependent GNN 在知识图谱上进行单步多跳推理,仅 8M 参数即可在未见数据集上零样本泛化,在多跳QA检索任务上大幅超越 SOTA。

GnnXemplar: Exemplars to Explanations -- Natural Language Rules for Global GNN Interpretability

提出GnnXemplar框架,基于认知科学的样例理论(Exemplar Theory),通过在GNN嵌入空间中选取代表性节点(exemplar)并利用LLM迭代生成自然语言布尔规则,实现大规模图上节点分类GNN的全局可解释性。

Graph Neural Networks for Efficient AC Power Flow Prediction in Power Grids

将电力网络建模为图结构(母线为节点、输电线为边),探索 GCN、GAT、SAGEConv 和 GraphConv 四种 GNN 架构预测 AC 潮流解(电压幅值和相角),在 IEEE 14/30/57/118 母线测试系统上展示了 GNN 可高效替代传统 Newton-Raphson 求解器。

Graph Neural Networks for Interferometer Simulations

首次将图神经网络应用于光学干涉仪仿真,通过 GATv2 + KAN 架构预测 LIGO 干涉仪中的电磁场功率和空间强度分布,实现比标准仿真软件(FINESSE)快 815 倍的推理速度,同时保持较好的物理精度。

Graph Persistence goes Spectral

提出 SpectRe——将图拉普拉斯谱信息融入持续同调(PH)图的新拓扑描述符,证明其表达力严格强于 PH 和谱信息单独使用,建立了局部稳定性理论,在合成和真实数据集上提升 GNN 的图分类能力。

GraphFaaS: Serverless GNN Inference for Burst-Resilient, Real-Time Intrusion Detection

提出 GraphFaaS,一种专为 GNN 入侵检测设计的 Serverless 推理架构,通过来源图的增量构建、特征长度感知的并行节点嵌入和贪心 best-fit 子图分区,将平均检测延迟从 14.16 秒降至 2.1 秒(6.7 倍),变异系数从 1.46 降至 0.52(64% 降低),在突发负载下保持稳定低延迟且不损失检测准确率。

GraphTOP: Graph Topology-Oriented Prompting for Graph Neural Networks

提出首个图拓扑导向的 prompting 框架 GraphTOP,通过将 topology-oriented prompting 建模为边重连问题并用 Gumbel-Softmax 松弛到连续空间,在 5 个数据集 4 种预训练策略下超越 6 个基线方法。

Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems

提出Heterogeneous Swarms算法,将多LLM系统建模为有向无环图(DAG),通过粒子群优化(PSO)联合优化模型角色(图结构)和模型权重,在12个任务上平均超越17个基线18.5%。

Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation

本文提出ACC框架,通过交互驱动范式(而非传统以对象为中心的范式)来解决开放词汇场景图生成中的关键匹配问题:在知识注入阶段用双向交互提示生成更准确的伪监督,在知识迁移阶段用交互引导的查询选择和交互一致性知识蒸馏来减少不匹配,在VG、GQA、PSG三个基准上达到SOTA。

Learning Repetition-Invariant Representations for Polymer Informatics

提出 GRIN(Graph Repetition-Invariant Network),通过 Max 聚合和特殊的图构建策略使 GNN 对聚合物重复单元的拼接数量不变,解决了聚合物表示中的基本对称性问题。

Logical Expressiveness of Graph Neural Networks with Hierarchical Node Individualization

提出了分层自我图神经网络(Hierarchical Ego GNNs,HEGNNs),通过层次化的节点个体化机制泛化了子图GNN,形成表达力递增的模型层级;在有界度图上,证明HEGNN节点分类器的区分能力等价于分级杂合逻辑(graded hybrid logic),从而统一了多种GNN变体的表达力分析。

Making Classic GNNs Strong Baselines Across Varying Homophily: A Smoothness-Generalization Perspective

从理论上揭示了 GNN 消息传递中平滑性(smoothness)与泛化性(generalization)之间的两难困境,提出 IGNN 框架通过三个简约设计原则(分离邻域变换、感知聚合、邻域关系学习)缓解该困境,在 30 个基线中表现最优且具备跨同质/异质图的通用性。

Moscat: Mixture of Scope Experts at Test for Generalizing Deeper GNNs

从 PAC-Bayes 泛化理论出发,证明 GNN 深度变化导致不同同质性节点子群间的泛化偏好漂移,据此提出 Moscat——一种后处理注意力门控模型,将独立训练的不同深度 GNN 专家在测试时节点自适应地融合,在多种 GNN 架构和数据集上实现显著提升。

MoEMeta: Mixture-of-Experts Meta Learning for Few-Shot Relational Learning

提出MoEMeta框架,通过混合专家模型学习全局共享的关系原型实现跨任务泛化,结合任务定制的投影适应机制捕获局部上下文,在三个KG基准上达到SOTA。

Nonlinear Laplacians: Tunable Principal Component Analysis under Directional Prior Information

提出非线性Laplacian谱算法,通过在观测矩阵 \(\bm{Y}\) 上添加由度数向量经非线性函数 \(\sigma\) 变换后得到的对角矩阵,将谱信息与方向先验信息融合,在稀疏偏向PCA问题中显著降低信号检测阈值(从 \(\beta^*=1\) 降至约 \(0.76\))。

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

揭示高阶公共邻居(CN)在链接预测中的冗余和过平滑问题,提出正交化(Gram-Schmidt 去除阶间线性相关)+ 归一化(除以路径数,广义资源分配启发式)解决方案,在 7 个数据集上平均提升 HR@100 7.7%,DDI 数据集上提升 13.3%。

Over-squashing in Spatiotemporal Graph Neural Networks

首次形式化时空图神经网络(STGNN)中的 over-squashing 问题,揭示了因果卷积中反直觉的"时间远处偏好"现象(最早时间步对最终表示影响最大),并证明 time-and-space 和 time-then-space 架构在信息瓶颈上等价,为使用计算高效的 TTS 架构提供理论支持。

P-DRUM: Post-hoc Descriptor-based Residual Uncertainty Modeling for Machine Learning Potentials

提出 P-DRUM,一种简单高效的事后(post-hoc)不确定性量化框架,利用已训练图神经网络势的描述子来估计预测残差,作为不确定性代理,无需修改原模型架构或训练流程。

Practical Bayes-Optimal Membership Inference Attacks

提出 BASE 和 G-BASE 两种实用的贝叶斯最优成员推断攻击方法,分别针对 i.i.d. 数据和图结构数据,在保持理论最优性的同时大幅降低计算成本。

PKD: Preference-driven Knowledge Distillation for Few-shot Node Classification

PKD 框架协同 LLM 和多 GNN 教师做文本属性图少样本节点分类——GNN 偏好节点选择器(GNS)用 KL 散度不确定性选择需要 LLM 标注的节点,节点偏好 GNN 选择器(NGS)用 RL 为每个节点匹配最优 GNN 教师,在 9 个数据集上一致 SOTA(Cornell 87% vs 基线 59-82%)。

Principled Data Augmentation for Learning to Solve Quadratic Programming Problems

提出基于KKT系统仿射变换的原则性数据增强框架,为线性规划(LP)和二次规划(QP)的MPNN学习优化(L2O)任务生成保最优性的增强实例,并结合对比学习预训练,在数据稀缺和OOD泛化场景下大幅提升性能。

Reasoning Meets Representation: Envisioning Neuro-Symbolic Wireless Foundation Models

提出将神经符号(Neuro-Symbolic)范式与无线物理层基础模型(WPFM)结合的愿景框架——以WPFM作为神经感知引擎生成RF嵌入向量,以本体论驱动的知识图谱和可微逻辑层作为符号推理组件,实现可解释、可泛化且可验证合规的无线AI系统,为AI原生6G网络提供技术路径。

Relieving the Over-Aggregating Effect in Graph Transformers

发现了 Graph Transformer 中的 over-aggregating 现象——大量节点以近均匀注意力分数被聚合导致关键信息被稀释,提出 Wideformer 通过分割聚合+引导注意力来缓解,作为即插即用模块在 13 个数据集上一致提升骨干模型性能。

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

提出ReMindRAG,一种结合LLM引导的KG遍历(节点探索+利用)与无训练记忆重放机制的KG-RAG系统,将LLM遍历经验存储在边嵌入中,在后续相似查询时显著减少LLM调用次数(约50%成本降低),同时提升回答准确率(5%-10%提升)。

Self-Supervised Discovery of Neural Circuits in Spatially Patterned Neural Responses with Graph Neural Networks

提出基于GNN的自监督框架,通过结构学习模块推断潜在突触连接、同时用脉冲预测模块预测未来发放活动,在环形吸引子网络仿真数据和真实小鼠头方向细胞记录上均显著优于统计推断基线。

Sketch-Augmented Features Improve Learning Long-Range Dependencies in Graph Neural Networks

提出Sketched Random Features (SRF),将节点特征的核空间随机投影注入标准消息传递GNN的每一层,同时缓解过压缩、过平滑和表达力受限三大问题,理论性质完备且计算高效。

S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning

提出S'MoRE框架,将低秩残差专家组织成多层树状结构,通过层次化路由为每个token构建定制化的"残差树",在与LoRA相当的参数量下实现指数级增长的结构灵活性,显著提升LLM微调效果。

Solar-GECO: Perovskite Solar Cell Property Prediction with Geometric-Aware Co-Attention

提出Solar-GECO多模态框架,将钙钛矿吸收层的3D晶体结构通过几何GNN编码、器件其他层通过LLM文本嵌入编码,经共注意力融合后预测光电转换效率(PCE)及其不确定性,MAE从3.066降至2.936。

Spatio-Temporal Directed Graph Learning for Account Takeover Fraud Detection

提出 ATLAS 框架,将账户接管(ATO)欺诈检测重新建模为时空有向图上的节点分类问题,通过时间窗口 + 最近邻约束构建因果有向图,结合延迟感知标签传播和 GraphSAGE 编码器,在 Capital One 的 1 亿节点、10 亿边大规模生产图上实现 +6.38% AUC 提升和超过 50% 的用户摩擦降低。

SPOT-Trip: Dual-Preference Driven Out-of-Town Trip Recommendation

提出SPOT-Trip框架,首次系统研究异地旅行推荐问题,通过知识图谱增强的静态偏好学习、神经ODE驱动的动态偏好学习以及偏好融合模块,在两个真实数据集上最高提升17.01%。

SSTAG: Structure-Aware Self-Supervised Learning Method for Text-Attributed Graphs

提出 SSTAG,通过双重知识蒸馏将 LLM 和 GNN 的互补知识联合蒸馏到结构感知的 MLP 中,结合内存库机制存储原型表示,实现高效、可扩展的文本属性图跨域自监督预训练。

TAMI: Taming Heterogeneity in Temporal Interactions for Temporal Graph Link Prediction

首次系统识别时序图交互中的异质性问题(交互间隔呈幂律分布),提出TAMI框架包含对数时间编码(LTE)和链接历史聚合(LHA)两个模块,可无缝集成到现有TGNN中,在16个数据集上持续提升链接预测性能,最高提升87.05%。

The Underappreciated Power of Vision Models for Graph Structural Understanding

揭示视觉模型(ResNet/ViT/Swin等)在图结构理解方面被严重低估的能力——通过将图渲染为图像并用视觉编码器处理,在全局拓扑感知和跨尺度泛化上显著优于GNN,并提出GraphAbstract benchmark系统评估这一发现。

Uncertain Knowledge Graph Completion via Semi-Supervised Confidence Distribution Learning

ssCDL 通过将三元组置信度从标量转换为高斯分布形式的置信度分布以捕获邻近置信度的监督信号,并利用元自训练(meta self-training)为负采样三元组生成高质量伪置信度标签来重平衡训练数据,在不确定知识图谱补全的置信度预测和链接预测上显著超过所有基线方法。

Unifying and Enhancing Graph Transformers via a Hierarchical Mask Framework

提出统一的层级掩码框架揭示 Graph Transformer 架构与注意力掩码的等价性,并设计 M3Dphormer 通过多层级掩码、双层专家路由和双重注意力计算实现对局部/簇/全局交互的高效自适应建模,在 9 个基准上取得 SOTA。

Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with LLMs

提出 Cross 框架——用 LLM 在策略采样的时间点上动态总结节点邻域的语义演变(Temporal Reasoning Chain),然后通过语义-结构协同编码器双向融合文本语义和图结构时序信息,在时序链接预测上平均 MRR 提升 24.7%,工业数据(微信)上 AUC 提升 3.7%。

Wavy Transformer

揭示了Transformer注意力层本质上等价于完全图上的图神经扩散过程,并基于二阶波动方程提出Wavy Transformer,通过能量守恒特性缓解深层Transformer的过平滑问题,在NLP、CV和稀疏图任务上均取得一致性提升。

What Expressivity Theory Misses: Message Passing Complexity for GNNs

批判 GNN 的二值表达力理论无法解释实际性能差异,提出 MPC——基于概率性 lossyWL 的连续、任务特定复杂度度量,与准确率的 Spearman 相关性达 -1(传统 WLC 恒为零),成功解释了 GCN+虚拟节点为何在长程任务上优于更高表达力的高阶模型。

When No Paths Lead to Rome: Benchmarking Systematic Neural Relational Reasoning

提出NoRA benchmark,系统性地打破现有关系推理benchmark中"推理可归约为路径组合"的假设,引入非路径推理、歧义事实和多关系等挑战,揭示包括o3在内的所有现有模型在off-path推理上的根本缺陷。


🎵 音频/语音

A Controllable Examination for Long-Context Language Models

提出LongBioBench,通过生成虚构传记作为可控的needle和haystack,构建满足"无缝上下文、可控设置、可靠评估"三大原则的长上下文LLM评估框架,测试18个模型后揭示当前LCLM在检索能力尚可的情况下推理和可信性仍有显著短板。

A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings

提出 TiALD(Tigrinya Abusive Language Detection),首个面向 Tigrinya 低资源语言的大规模多任务基准数据集,包含 13,717 条 YouTube 评论的辱骂/情感/主题三任务联合标注,同时发现小型微调模型(TiRoBERTa, 125M)在所有任务上全面超越 GPT-4o 和 Claude Sonnet 3.7 等前沿 LLM。

A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity

TRIANGLE提出用高维空间中三模态嵌入向量构成的三角形面积作为相似度度量,替代传统的成对余弦相似度,实现了视频-音频-文本三模态的联合对齐,在视频文本检索等任务上超越SOTA最多9个Recall@1点。

Accelerate Creation of Product Claims Using Generative AI

开发 Claim Advisor 平台,利用 LLM 的 in-context learning 和 LoRA 微调加速消费品产品宣称的搜索、生成、优化和排序,通过模仿 MaxDiff 研究方法论让微调的 Phi-3 14B 模型在宣称排序上超越 GPT-4o(仅用 1 个示例 vs GPT 的 100 个示例),三轮迭代后 100% 的生成宣称达到"高吸引力"级别。

AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness

提出 AdaptDel 方法,将随机平滑中用于离散序列的固定删除率扩展为根据输入长度等属性自适应调整的可变删除率,在理论上证明了可变率下认证的 soundness,实验在 NLP 序列分类任务上实现认证区域基数最高 30 个数量级的提升。

Associative Syntax and Maximal Repetitions Reveal Context-Dependent Complexity in Fruit Bat Communication

本文提出一种无监督方法来推断果蝠发声的离散单元、语法类型和时序结构,并首次将最大重复子序列(Maximal Repetitions)引入动物通信领域,发现冲突行为中的通信复杂度显著高于合作行为。

AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound

AudSemThinker 为音频语言模型引入结构化语义推理框架——定义 9 类声音语义描述符(谁/什么/如何/何时/何地等),在 Qwen2.5-Omni-7B 上通过 SFT + GRPO(含可验证奖励和长度约束)训练产生 \<think>\<semantic_elements>\<answer> 三阶段输出,MMAU 基准达 66.70%(超越 Audio-Reasoner 61.71% 和 Qwen2.5-Omni 65.60%)。

Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents

Meta 提出 WAGIBench,一个针对可穿戴辅助智能体的多模态目标推断基准,包含 348 名参与者的 3,477 条第一视角录制(29小时),涵盖视觉/音频/数字/纵向四种模态,人类准确率 93% vs 最佳 VLM 84%(MCQ),生成式评估中模型仅 55% 时间产生相关目标,揭示了当前 VLM 在实际可穿戴场景中的显著差距。

BNMusic: Blending Environmental Noises into Personalized Music

提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。

Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation

提出 RecBench 综合评估框架,在5个领域数据集上系统对比17个LLM与10个传统DLRM,发现LLM推荐器在CTR任务上AUC提升最高5%、在序列推荐上NDCG@10提升最高170%,但推理速度慢10-1000倍,而传统DLRM结合LLM语义嵌入(LLM-for-RS)可以20倍更快的速度达到LLM约95%的性能,是当前最具工业可行性的方案。

Characterization and Learning of Causal Graphs from Hard Interventions

首次系统分析硬干预(hard interventions)在含隐变量因果发现中的理论优势,提出广义do-演算(4条规则)和孪生增强MAG图表示,给出 \(\mathcal{I}\)-Markov 等价类的充要图条件,并设计可证明正确的FCI变体学习算法;实验表明硬干预比软干预将等价类缩小37-57%。

Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models

Data-Juicer 2.0 是面向基础模型的云规模多模态数据处理系统,150+ 跨文本/图像/视频/音频算子,支持自适应分布式执行(Ray/MaxCompute),在 10000+ CPU 核心上高效处理 TB 级数据,已广泛应用于阿里云 PAI 等产品。

DeepASA: An Object-Oriented Multi-Purpose Network for Auditory Scene Analysis

提出 DeepASA,一个面向对象的多任务统一架构,通过 object-oriented processing 和 chain-of-inference 机制在单一模型中同时完成多通道声源分离(MIMO)、去混响、声事件检测(SED)、音频分类和到达方向估计(DoAE),在多个空间音频基准上达到 SOTA。

E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models

提出首个面向语音基础模型的无反向传播测试时自适应框架 E-BATS,通过轻量级 prompt 自适应、多尺度损失函数和测试时 EMA 机制,在保持高精度的同时实现 2.0×–6.4× 的 GPU 显存节省。

E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis

针对基于 LLM 的端到端语音合成中的声音克隆威胁,提出 E2E-VGuard 主动防御框架,通过编码器集成扰动音色、对抗样本干扰 ASR 发音识别、以及心理声学模型保证不可感知性,在 19 个 TTS 模型和 7 个 ASR 系统上验证了有效性。

Echoes of Humanity: Exploring the Perceived Humanness of AI Music

通过随机对照交叉试验(RCCT)和混合方法内容分析,系统研究听众区分AI生成音乐(AIM)与人类创作音乐的能力,发现随机配对时听众无法区分(准确率≈随机猜测),但相似配对时显著提升至66%,且声音/技术/人声线索是成功区分的关键因素。

Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

提出 SLED,将语音波形编码为连续潜在表示序列,在连续空间中通过 energy distance 目标进行自回归建模,避免了离散化信息损失和 RVQ 所需的复杂层级架构,同时实现高效的零样本与流式语音合成。

Ethics Statements in AI Music Papers: The Effective and the Ineffective

对 AI 音乐领域论文中伦理声明(ethics statements)的使用现状进行系统审查,发现绝大多数伦理声明未被有效利用,并提出面向会议与研究者的改进建议。

EuroSpeech: A Multilingual Speech Corpus

提出可扩展的开源 pipeline,从 22 个欧洲议会录音中自动构建 EuroSpeech 数据集——61K 小时、覆盖 22 种语言的高质量语音-文本对齐数据,其中 19 种语言超 1K 小时,微调 Whisper 后平均 WER 降低 41.8%。

From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era

提出了一种基于内容的 Music AI Agent 架构,通过将音乐分解为细粒度的 Block 组件并构建 Attribution Layer,将版权归因直接嵌入 AI 音乐创作流程中,为后流媒体时代建立公平的 AI 媒体平台。

Generating Physically Sound Designs from Text and a Set of Physical Constraints

提出 TIDES 框架,将预训练文本-图像模型(CLIP)的视觉引导与可微有限元物理仿真器结合,通过联合优化视觉相似度损失和结构合规性损失,从文本描述和物理约束出发生成既满足工程性能要求又具备文本指定特征的承载结构设计,并通过 3D 打印三点弯曲实验验证了方法的有效性。

Inductive Transfer Learning for Graph-Based Recommenders

提出 NBF-Rec,一个基于神经 Bellman-Ford 网络的图推荐模型,支持在用户和物品完全不相交的数据集之间进行归纳式迁移学习,实现零样本跨域推荐和轻量微调适配。

Instance-Specific Test-Time Training for Speech Editing in the Wild

提出面向野外语音编辑的实例特定测试时训练方法:在推理前利用未编辑区域的真实声学特征做直接监督、编辑区域通过时长约束和音素预测辅助损失做间接监督,对模型进行实例级自适应微调,有效缓解编辑边界的带宽不连续问题,并支持通过 mask 长度调整精确控制语速,在野外 benchmark 上主客观评估均超越现有系统。

Latent Space Factorization in LoRA

提出 FVAE-LoRA,在 LoRA 框架中引入具有双潜空间的 VAE,通过新型 ELBO 目标将任务相关特征 (\(\mathbf{z}_1\)) 与残差信息 (\(\mathbf{z}_2\)) 显式分解,在文本、图像、音频任务上一致优于标准 LoRA。

LeVo: High-Quality Song Generation with Multi-Preference Alignment

提出 LeVo 歌曲生成框架,通过语言模型并行建模混合 token 和双轨 token 以兼顾人声-伴奏和谐性和音质,并创新性地引入基于 DPO 的多偏好对齐方法提升音乐性和指令跟随能力。

LeVo: High-Quality Song Generation with Multi-Preference Alignment

LeVo 提出一种基于语言模型的歌曲生成框架,通过并行预测混合 token 和双轨 token 来同时优化人声-伴奏和谐度与音质,并引入基于 DPO 的多偏好对齐方法提升音乐性和指令跟随能力,在学术方法中全面领先且接近工业系统水平。

LUMIA: A Handheld Vision-to-Music System for Real-Time, Embodied Composition

提出Lumia——一个手持相机式设备,通过GPT-4 Vision分析拍摄画面生成结构化提示,再由Stable Audio合成音乐循环段,实现从视觉到音乐的实时、具身化即兴创作工作流。

MEGADance: Mixture-of-Experts Architecture for Genre-Aware 3D Dance Generation

提出 MEGADance,首个基于混合专家 (MoE) 架构的音乐驱动 3D 舞蹈生成方法,通过将编舞一致性解耦为"舞蹈通用性"(Universal Expert)和"风格特异性"(Specialized Expert),配合 FSQ 量化和 Mamba-Transformer 混合骨干网络,实现了 SOTA 的舞蹈质量和强风格可控性。

Merlin L48 Spectrogram Dataset

本文提出了 L48 数据集——一个基于真实鸟类录音的细粒度频谱图多标签分类基准,天然具备单正标签多标签 (SPML) 设置,揭示了现有 SPML 方法在真实场景下的严重不足,并提出了基于录音内一致性的正则化方案来提升性能。

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

将连续时间混合单调性技术应用于 Neural ODE 的可达性分析,通过将 Neural ODE 动力学嵌入混合单调系统,利用区间盒的几何简洁性实现高效过逼近,在紧致性(tightness)和计算效率之间提供可控的权衡。

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

MoME将稀疏MoE集成到Matryoshka表示学习框架中,用于LLM-based音视频语音识别,通过共享路由器实现跨粒度知识迁移,在单一模型权重下支持多种压缩率的弹性推理,同时达到AVSR/ASR/VSR的SOTA性能。

Multi-head Temporal Latent Attention

MTLA 在 MLA 低秩潜在维度压缩基础上,用超网络动态融合时序相邻的 KV 向量,实现 KV 缓存在特征维度和时序维度的双重压缩,配合 stride-aware 因果 mask 保证训练-推理一致性,在语音翻译等任务上达到 4.29× 加速和 6.58× 内存降低,质量持平甚至略优于标准 MHA。

Node-Based Editing for Multimodal Generation of Text, Audio, Image, and Video

提出一个节点图式故事编辑系统,允许创作者通过自然语言和节点级操作迭代地生成、编辑和比较多模态内容(文本、音频、图像、视频),支持线性和分支叙事结构。

Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders

证明在自编码器训练中对潜变量加噪(noise-augmented latent training)配合感知损失,能使编码空间形成"感知层次结构"——感知最显著的音乐特征(如音高)编码在最粗粒度的潜在结构中,而次要特征(如音色细节)编码在细粒度结构中。这种对齐改善了潜在扩散解码下的音乐惊奇感估计和 EEG 脑响应预测。

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

通过受控合成预训练任务系统性比较语言模型架构,发现 Canon 层——一种轻量级的邻近token加权求和组件——能显著提升推理深度(2-4倍)、推理广度、知识容量等核心能力,让 NoPE 匹配 RoPE,让 GLA 匹敌 Mamba2/GDN。

Resounding Acoustic Fields with Reciprocity

利用声波传播的互易性原理,提出Versa方法(ELE数据增强+SSL自监督学习),通过交换发射器和接收器角色来生成物理有效的虚拟训练样本,在稀疏发射器配置下大幅提升声场估计性能。

SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers

提出 SAND-Math,一个无需种子数据集的全自动合成数学问题生成管线,通过 Difficulty Hiking 系统性提升题目难度,仅 500 道增强 LIMO 基线即可在 AIME25 上提升 4.39pp。

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI Models in Sound Localization

通过6种受控视听条件和人类心理物理实验,系统揭示现有AI声源定位模型存在严重视觉偏见(视听冲突时降至随机水平),并提出神经科学启发的EchoPin模型——HRTF滤波+ERB耳蜗图+立体声,在自建AudioCOCO数据集上大幅超越现有方法,且无需人类行为监督即涌现出类人的水平>垂直定位精度不对称性。

Segment-Factorized Full-Song Generation on Symbolic Piano Music

提出Segmented Full-Song模型(SFS),将歌曲分解为片段,通过选择性注意结构相关上下文自回归生成各片段,实现比现有方法更快速、更结构化的钢琴全曲生成,并支持交互式人机共创。

Sensorium Arc: AI Agent System for Oceanic Data Exploration and Interactive Eco-Art

本文构建了一个名为 Sensorium Arc 的多模态交互式 AI 智能体系统,通过将海洋拟人化为一个诗意的"讲述者"角色,利用多智能体 RAG 架构将 NASA 海洋科学数据与生态美学文本相结合,使用户能够以自然对话的方式探索复杂的海洋环境数据,同时在视听层面生成动态的科学可视化和艺术化反馈,实现从"被动数据观察"到"主动生态对话"的范式转变。

SHAP Meets Tensor Networks: Provably Tractable Explanations with Parallelism

本文首次为张量网络(Tensor Networks)提供可证明精确的 SHAP 解释计算框架,证明张量列车(Tensor Train)结构下 SHAP 可在多对数时间内并行计算(NC² 复杂度),并通过归约揭示二值化神经网络中宽度而非深度才是 SHAP 计算的核心瓶颈。

SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation

提出SimulMEGA框架,结合前缀训练与混合专家(MoE)精炼模块,实现无监督的读/写策略学习,使500M参数模型在6种语言的同时语音翻译中以1.5秒延迟仅损失<7% BLEU,并扩展到流式TTS。

Slimmable NAM: Neural Amp Models with Adjustable Runtime Computational Cost

将 Slimmable Networks 思想应用到 Neural Amp Modeler (NAM) 中,通过训练期间随机裁剪 WaveNet 层宽度,实现模型在推理时可以无额外训练代价地动态调整网络大小,使音乐家能实时平衡音质精度与计算成本。

Sound Logical Explanations for Mean Aggregation Graph Neural Networks

针对使用均值聚合函数的 GNN(MAGNN,即非负权重的 mean-GNN),证明了能够作为其 sound 解释的单调逻辑规则的精确类别,并构造了一个一阶逻辑的受限片段来解释任意 MAGNN 预测,实验表明限制非负权重不显著影响性能且能有效提取 sound 规则。

Target Speaker Extraction Through Comparing Noisy Positive and Negative Audio Enrollments

提出一种利用噪声正样本(目标说话人在说话的段落)和负样本(目标说话人沉默的段落)对比来编码目标说话人特征的新型注册策略,在单声道噪声注册目标说话人提取任务上取得 SOTA 性能,SI-SNRi 比此前最优方法高出 2.1 dB 以上。

AVRobustBench: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time

提出 AVRobustBench,首个系统评估音视频模型在 双模态共现关联腐蚀 下测试时鲁棒性的基准,包含 4 个数据集 × 75 种腐蚀,并提出基于低熵样本筛选的 TTA 方法 AV2C。

The Impact of Scaling Training Data on Adversarial Robustness

系统评估 36 个 SOTA 视觉模型在 6 类黑盒攻击下的鲁棒性,发现攻击成功率(ASR)随数据量和模型规模按对数律下降,但 数据质量和模型规模比数据量本身更关键

Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization

提出一个统一的符号音乐编排框架,通过段级自监督重建目标(解耦内容和乐器风格)和新的多轨token化方案REMI-z,使单个预训练模型能够处理乐队编排、钢琴缩编和鼓编排等多种编排任务,并在三个典型任务上超越了任务特定的SOTA。

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

VITA-1.5 提出了一套精心设计的三阶段渐进式训练策略,将视觉和语音能力逐步整合进 LLM 中,实现了无需独立 ASR/TTS 模块的端到端视觉-语音实时交互,在图像、视频和语音基准上均达到开源模型领先水平。

WhAM: Towards A Translative Model of Sperm Whale Vocalization

提出 WhAM(Whale Acoustics Model),首个基于 Transformer 的抹香鲸 coda 生成模型,通过微调 VampNet 实现声学翻译、合成生成与下游分类的三合一能力。


🚗 自动驾驶

3EED: Ground Everything Everywhere in 3D

提出 3EED——首个大规模多平台(车、无人机、四足机器人)、多模态(LiDAR+RGB)室外 3D 视觉定位基准,包含超 12.8 万目标和 2.2 万语言描述,规模是现有室外数据集的 10 倍;同时设计了跨平台对齐、多尺度采样和尺度自适应融合的基线方法,揭示了跨平台 3D grounding 的巨大性能差距。

Aha: Predicting What Matters Next — Online Highlight Detection Without Looking Ahead

Aha提出首个面向在线高亮检测(OHD)的自回归框架,通过解耦的多目标预测头(相关性/信息量/不确定性)和新颖的Dynamic SinkCache内存机制,在严格不使用未来帧的约束下,于TVSum和Mr.Hisum基准上分别以+5.9%和+8.3% mAP超越此前离线方法。

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

AutoVLA 将物理动作 token 直接集成到预训练 VLM(Qwen2.5-VL-3B)中,通过 SFT 赋予模型快/慢双思维模式能力,再用 GRPO 强化微调实现自适应推理切换并优化规划性能,在 nuPlan、Waymo、nuScenes 和 CARLA 四大自动驾驶基准上取得有竞争力的端到端驾驶性能。

Availability-aware Sensor Fusion via Unified Canonical Space

提出 ASF(Availability-aware Sensor Fusion),通过统一规范投影(UCP)将 Camera/LiDAR/4D Radar 特征映射到共享空间 + 跨传感器沿 patch 交叉注意力(CASAP,复杂度 \(O(N_qN_s)\) 而非 \(O(N_qN_sN_p)\))自动适配可用传感器 + 传感器组合损失(SCL)覆盖所有 7 种组合,在 K-Radar 上 AP_3D 73.6%(超 SOTA 20.1%),传感器故障时性能仅降 1.7%。

BayesG: Bayesian Ego-Graph Inference for Networked Multi-Agent Reinforcement Learning

BayesG 让网络化 MARL 中的每个 agent 通过贝叶斯变分推断学习其局部通信图的动态结构——用 Gumbel-Softmax 采样边掩码、ELBO 目标联合优化策略和图结构,在 167 agent 的纽约交通场景中奖励比最佳 baseline 高 50%+。

Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems

提出 GSAC 框架,将因果表示学习与元 Actor-Critic 结合,通过从网络 MARL 中学习稀疏因果掩码构建近似紧凑表示 (ACR) 实现可扩展性,通过域因子条件化策略实现跨域泛化,给出了因果恢复、收敛和自适应间隙的有限样本保证。

ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset

提出 ChronoGraph——首个同时包含多元时间序列、显式服务依赖图和事件标签的真实世界微服务数据集(6个月 / ~700服务 / 5维指标 / 8005时间步),基准测试表明现有预测和异常检测方法在长期预测和拓扑感知方面均存在较大提升空间。

Continuous Simplicial Neural Networks

提出 COSIMO,首个基于偏微分方程(PDE)的连续单纯形神经网络,通过在 Hodge Laplacian 上定义热扩散动力学实现连续信息流,比离散 SNN 具有更好的稳定性和过平滑控制能力。

CuMoLoS-MAE: A Masked Autoencoder for Remote Sensing Data Reconstruction

提出 CuMoLoS-MAE,一种结合课程掩码策略和 Monte Carlo 随机集成的 Masked Autoencoder,用于遥感大气廓线数据的高保真重建与逐像素不确定性量化。

CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation

提出首个"草图→3D户外语义场景"生成任务与基准数据集 SketchSem3D,并设计 CymbaDiff(Cylinder Mamba Diffusion)去噪网络,通过柱坐标扫描+笛卡尔扫描的双路 Mamba 块实现结构化空间建模,在 FID 上比 3D Latent Diffusion 低 75%、比 3D DiT 低 71%。

DBLoss: Decomposition-based Loss Function for Time Series Forecasting

提出 DBLoss——一种基于指数移动平均分解的通用损失函数,在预测窗口内将预测值与真实值分别分解为季节和趋势分量并分开计算损失,可即插即用替换 MSE 为任意深度学习预测模型带来一致性提升,在 8 个基准数据集 × 8 个 SOTA 模型上全面验证有效性。

DINO-Foresight: Looking into the Future with DINO

提出 DINO-Foresight,在视觉基础模型(VFM)的语义特征空间中预测未来帧特征演化,通过自监督 Masked Feature Transformer 预测 DINOv2 多层特征的 PCA 压缩表示,搭配即插即用的 task-specific heads,单一模型同时完成语义分割、实例分割、深度估计和表面法线预测四项任务,大幅超越 VISTA 世界模型且推理快 100 倍。

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

提出DriveDPO两阶段框架——先通过统一策略蒸馏将人类模仿相似度与规则安全分数融合为单一监督分布,再用Safety DPO构建"看似human-like但不安全 vs 既human-like又安全"的轨迹偏好对进行策略微调——在NAVSIM上达PDMS 90.0新SOTA。

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

提出 Feature Mixing——一种极其简单的多模态异常值合成方法,从两种模态的特征中随机交换 \(N\) 个维度即可生成 OOD 样本用于训练正则化,理论上保证合成异常值位于 ID 分布的低似然区域且偏移有界,在 8 个数据集 4 种模态上达到 SOTA 且比 NP-Mix 快 10×~370×。

Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling

提出 Flow Planner——通过细粒度轨迹 token 化、交互增强时空融合架构和 flow matching + classifier-free guidance 三项协同创新,在 nuPlan Val14 上首次作为纯学习方法突破 90 分大关(90.43),在交互密集的 interPlan 基准上比 Diffusion Planner 高 8.92 分。

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

提出 SeerDrive,通过双向建模场景演化与轨迹规划(未来感知规划 + 迭代交互),在 NAVSIM 和 nuScenes 上取得 SOTA。

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

FSDrive让VLA"用视觉思考"——先作为世界模型生成融合了未来车道线、3D检测框和场景预测的统一视觉CoT帧,再作为逆动力学模型基于当前观测和视觉CoT进行轨迹规划,用极少数据(约0.3%)即可激活MLLM的视觉生成能力。

GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification

提出 GSAlign 框架,通过可学习薄板样条变换 (LTPS) 和动态对齐模块 (DAM) 分别解决空地行人重识别中几何畸变与语义不对齐问题,在 CARGO 数据集空地协议上 mAP 提升 +18.8%、Rank-1 提升 +16.8%。

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

提出 HoloLLM,首次将 LiDAR、红外、毫米波雷达、WiFi 等稀有传感模态接入多模态大语言模型(MLLM),通过 Universal Modality-Injection Projector(UMIP)在数据稀缺条件下实现传感模态与文本的高效对齐,在人体动作问答和描述任务上较现有 MLLM 提升约 30%。

How Different from the Past? Spatio-Temporal Time Series Forecasting with Self-Supervised Deviation Learning

提出 ST-SSDL 框架,通过自监督偏差学习(SSDL)捕捉当前输入与历史模式之间的动态偏差,利用可学习原型离散化隐空间并以对比损失+偏差损失实现相对距离一致性,在六个时空基准上取得 SOTA。

L2RSI: Cross-View LiDAR-Based Place Recognition for Large-Scale Urban Scenes via Remote Sensing Imagery

提出 L2RSI,首个利用高分辨率遥感影像实现超大规模(100km²)城市场景 LiDAR 位置识别的框架,通过语义对比学习对齐 LiDAR BEV 与遥感语义空间,并引入时空粒子估计(STPE)聚合连续查询的时空信息,在 100km² 范围内 Top-1 精度达 83.27%。

LabelAny3D: Label Any Object 3D in the Wild

提出 LabelAny3D,一个基于分析合成(analysis-by-synthesis)的自动 3D 标注流水线,从单目图像重建完整 3D 场景以获取高质量 3D 包围框标注;基于此构建了 COCO3D 基准,覆盖 80 类日常物体,在开放词汇单目 3D 检测上显著提升性能。

Layer-wise Modality Decomposition for Interpretable Multimodal Sensor Fusion

提出 LMD(Layer-Wise Modality Decomposition),一种事后、模型无关的可解释性方法,通过逐层线性化神经网络操作将多模态融合模型的预测精确分解为各传感器模态的贡献,首次实现了自动驾驶感知模型中对单个输入模态的预测归因,并在 camera-radar、camera-LiDAR、camera-radar-LiDAR 多种融合设置下验证了有效性。

FlowScene: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance

提出 FlowScene,利用光流引导时序特征聚合并结合遮挡掩码进行体素细化,在仅使用2帧历史输入的条件下,在 SemanticKITTI 和 SSCBench-KITTI-360 基准上达到 SOTA(mIoU 17.70 / 20.81)。

Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation

提出Vireo框架,首次将开放词汇语义分割(OVSS)和域泛化语义分割(DGSS)统一到单阶段框架中,通过GeoText Query融合深度几何特征与语言线索,在极端环境和未见类别上均实现SOTA表现。

Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving

提出 MPA 框架,通过 3DGS 仿真生成反事实轨迹数据,训练扩散策略适配器和多原则 Q 值模型,在推理时引导预训练 E2E 驾驶模型提升闭环场景下的安全性和泛化能力。

Neurosymbolic Diffusion Models

本文提出神经符号扩散模型(NeSyDM),通过将离散掩码扩散模型与符号程序结合,突破了传统神经符号预测器中概念条件独立假设的限制,在保持可扩展性的同时建模概念间依赖关系和不确定性,在视觉推理和自动驾驶任务上取得了 SOTA 准确率和校准性能。

OpenBox: Annotate Any Bounding Boxes in 3D

提出 OpenBox,一种两阶段自动 3D 边界框标注流水线:先通过跨模态实例对齐将 2D 视觉基础模型的实例信息映射到 3D 点云,再根据物体物理状态(静态刚体/动态刚体/可变形体)自适应生成高质量 3D 边界框,无需自训练(self-training)迭代。

Predictive Preference Learning from Human Interventions

PPL通过轨迹预测模型预见智能体未来状态,并将人类单次干预信号"扩展"到预测的未来状态上构建对比偏好数据,结合行为克隆和偏好优化双损失训练策略,大幅减少了人类干预次数和示范数据需求。

Prioritizing Perception-Guided Self-Supervision: A New Paradigm for Causal Modeling in End-to-End Autonomous Driving

通过感知输出(车道线、agent 轨迹)和自监督学习来建立因果关系,解决端到端自动驾驶中的因果混淆问题,在 Bench2Drive 闭环评估上实现 SOTA(Driving Score 78.08)。

RAW2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving

提出 RAW2Drive,首个从原始传感器输入到规划的基于模型的强化学习 (MBRL) 端到端自动驾驶框架。通过双流世界模型设计——先训练特权世界模型,再通过引导机制指导原始传感器世界模型学习——在 CARLA v2 和 Bench2Drive 上取得 SOTA,大幅超越 IL 方法。

Regret Lower Bounds for Decentralized Multi-Agent Stochastic Shortest Path Problems

本文首次为去中心化多智能体随机最短路径问题(Dec-MASSP)在线性函数逼近设定下建立了 \(\Omega(\sqrt{K})\) 的 regret 下界,通过构造难以学习的实例族并利用对称性论证识别最优策略结构,证明了该下界与已有上界在 episode 数 \(K\) 上达到匹配。

SDTagNet: Leveraging Text-Annotated Navigation Maps for Online HD Map Construction

提出 SDTagNet,首次通过 BERT 编码 OpenStreetMap 文本标注(路名/车道数/单行道等)并用点级图 Transformer 编码所有 SD 地图元素(点/线/关系),在远距离 HD 地图构建上相比无先验方法提升 +5.9 mAP(+45%),超越已有 SD 地图先验方法 +3.2 mAP(+20%)。

Self-Supervised Learning of Graph Representations for Network Intrusion Detection

提出 GraphIDS,一种自监督入侵检测模型,通过掩码自编码器统一图表示学习与异常检测,在多个 NetFlow 基准上 PR-AUC 达 99.98%、宏 F1 达 99.61%,超越基线 5-25 个百分点。

Semantic Glitch: Agency and Artistry in an Autonomous Pixel Cloud

本文提出一个"低保真"自主飞行机器人艺术装置"像素云",拒绝传统LiDAR/SLAM传感器,仅依赖多模态大语言模型(MLLM)的语义理解实现导航,并通过自然语言提示为机器人赋予生物启发的叙事人格,展示了不精确但富有角色魅力的涌现行为。

SimWorld-Robotics: Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration

提出 SimWorld-Robotics (SWR),一个基于 Unreal Engine 5 的大规模城市仿真平台,支持程序化生成无限逼真城市环境,并以此构建了多模态导航(SimWorld-MMNav)和多机器人搜索(SimWorld-MRS)两个新 benchmark,揭示了当前 VLM 在户外城市任务中的严重能力缺陷。

Spatio-Temporal Graphs Beyond Grids: Benchmark for Maritime Anomaly Detection

提出首个面向非网格时空系统(海事领域)的图异常检测基准数据集,将OMTAD数据集扩展为支持节点/边/图三级异常检测的基准,并计划使用LLM智能体进行轨迹合成和异常注入。

SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation and Understanding

Spiral 提出了一种语义感知的 range-view LiDAR 扩散模型,同时生成深度、反射率图像和语义分割图,通过渐进式语义预测和闭环推理机制增强跨模态一致性,以最小参数量(61M)取得 SOTA 效果。

SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

SQS 首次提出了面向稀疏感知模型(SPM)的查询式3D高斯泼溅预训练方法,通过自监督重建RGB图像和深度图学习精细3D表征,并设计查询交互模块将预训练查询与任务特定查询融合,在占用预测和3D检测任务上显著超越现有预训练方法(+1.3 mIoU 占用预测,+1.0 NDS 检测)。

StreamForest: Efficient Online Video Understanding with Persistent Event Memory

本文提出 StreamForest 架构,通过"持久事件记忆森林"将流式视频帧自适应组织为多棵事件级树结构,结合"细粒度时空窗口"捕捉短期视觉线索,在 StreamingBench 上达到 77.3% 准确率,并在极端压缩(仅 1024 visual tokens)下仍保留 96.8% 的性能。

Towards Foundational LiDAR World Models with Efficient Latent Flow Matching

本文提出首个可迁移的 LiDAR 世界模型,通过 Swin Transformer VAE 实现 192× 高压缩比(SOTA 重建精度)、条件流匹配(CFM)替代扩散模型实现 SOTA 语义占据预测(仅需前人 4.38% FLOPs),并在三种域迁移任务中以 5% 标注数据超越 OccWorld 全量训练。

Towards Physics-Informed Spatial Intelligence with Human Priors: An Autonomous Driving Perspective

本文提出空间智能网格(SIG)——一种受文艺复兴画家透视网格启发的结构化表示方法,将驾驶场景中的物体布局、方向关系和距离关系显式编码为网格结构,并构建 SIGBench 基准证明 SIG 在少样本上下文学习中比传统 VQA 方式能更稳定、更全面地提升 MLLM 的空间推理能力。

Towards Predicting Any Human Trajectory in Context

提出 TrajICL,一种基于上下文学习(ICL)的行人轨迹预测框架,通过时空相似性示例选择和预测引导示例选择,在不微调的情况下实现跨场景自适应轨迹预测,性能甚至超越微调方法。

TranSUN: A Preemptive Paradigm to Eradicate Retransformation Bias Intrinsically from Regression Models in Recommender Systems

针对推荐系统中变换 MSE 回归模型的逆变换偏差(retransformation bias)问题,提出先发制人(preemptive)的 TranSUN 方法,通过联合学习辅助分支显式建模偏差,在训练阶段即从模型内部消除偏差,具有理论无偏保证和良好收敛性,并已部署在淘宝首页猜你喜欢的商品和短视频推荐场景。

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

提出多尺度双边网格金字塔统一全局外观编码和像素级双边网格——3 级层级(粗→中→细)分别捕捉全局/区域/像素级光度变化,通过亮度引导的切片-融合管线和自适应正则化解决驾驶场景 3DGS 的光度不一致问题,Waymo 上 Chamfer Distance 比 OmniRe 改善 28.2%。

UniMotion: A Unified Motion Framework for Simulation, Prediction and Planning

UniMotion 提出了一个基于 decoder-only Transformer 的统一运动框架,通过任务感知的交互模式和训练策略同时支持运动仿真、轨迹预测和自车规划三大任务,联合训练促进任务间知识共享,微调后在 Waymo 数据集上同时达到多个任务的 SOTA 表现。

URB -- Urban Routing Benchmark for RL-Equipped Connected Autonomous Vehicles

本文提出 URB——首个面向城市混合交通(人类+CAV)路由问题的大规模 MARL 基准环境,整合 29 个真实交通网络、微观交通仿真器 SUMO 和真实出行需求模式,实验发现当前 SOTA MARL 算法很难超越人类驾驶员的路由表现,揭示了该领域亟需算法突破。

UrbanIng-V2X: A Large-Scale Multi-Vehicle Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception

UrbanIng-V2X 是首个覆盖多车辆、多基础设施传感器、多城市交叉路口的真实世界协同感知数据集,提供 34 个场景的 712K 标注实例和 13 类目标,并通过跨路口评估策略(SIS)定量揭示了现有协同感知方法在未见交叉路口上存在 14 mAP 的显著泛化差距。

V2X-Radar: A Multi-Modal Dataset with 4D Radar for Cooperative Perception

提出 V2X-Radar,首个大规模真实世界多模态车路协同感知数据集,包含 4D 雷达、LiDAR 和多视角相机数据,覆盖多种天气和光照条件,提供 20K LiDAR 帧、40K 相机图像、20K 4D 雷达数据和 350K 标注框,并建立三个子数据集的全面基准。

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

提出 X-Scene,一个统一的大规模驾驶场景生成框架,支持从高层文本提示到底层 BEV 布局的多粒度控制,通过联合生成 3D 语义 occupancy、多视图图像和视频,并利用一致性感知外推实现大规模场景扩展,在生成质量(FID 11.29)和下游任务上全面超越现有方法。


🦾 LLM Agent

A-MEM: Agentic Memory for LLM Agents

提出 A-Mem,一种受 Zettelkasten 启发的 LLM Agent 智能记忆系统,每条记忆自动生成结构化笔记(关键词/标签/上下文描述),动态建立记忆间链接,并在新记忆加入时触发旧记忆的演化更新,在 LoCoMo 长对话 QA 上显著超越 MemGPT 等基线。

Adaptive Coopetition: Leveraging Coarse Verifier Signals for Resilient Multi-Agent LLM Reasoning

提出 Adaptive Coopetition (AdCo) 框架,利用 UCB 多臂老虎机策略和粗粒度验证器信号,使多个 LLM 智能体在推理过程中自适应地切换协作与竞争模式,在数学推理基准上实现 20% 的相对提升。

AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

提出 AgentAuditor——一个免训练、记忆增强的推理框架,通过让 LLM 自适应提取结构化语义特征(场景、风险、行为)构建经验记忆库,再借助多阶段上下文感知的检索增强生成来引导 LLM 评估器判断 agent 行为的安全性与安全威胁,同时发布首个同时覆盖 safety 和 security 的评估基准 ASSEBench(2293 条记录、15 种风险类型、29 个场景),在多个基准上达到人类专家水平的评估精度。

AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness

AgentChangeBench 是首个系统评估 LLM agent 在对话中途目标切换时适应能力的 benchmark:315 基础任务 × 9 变体 = 2835 序列,覆盖 3 个企业领域(银行/零售/航空)和 5 种 user persona,引入 GSRT(目标切换恢复时间)等 4 个互补指标,揭示高 pass@k 掩盖的效率和鲁棒性差距——如 GPT-4o 航空恢复率 92.2% 但零售冗余率达 89.1%。

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。

Agentic NL2SQL to Reduce Computational Costs

提出 Datalake Agent,一个基于交互循环的 agentic NL2SQL 系统,通过分层的信息获取策略(GetDBDescription -> GetTables -> GetColumns -> DBQueryFinalSQL)让 LLM 按需请求数据库 schema 信息而非一次性接收全部,在 319 张表的场景下将 token 使用量减少 87%、成本降低 8 倍,同时在复杂查询上保持更好的性能。

Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

提出 Agentic Plan Caching (APC)——从 agent 执行日志中提取结构化计划模板,通过关键词匹配缓存命中后用小模型适配复用,平均降低 50.31% 成本和 27.28% 延迟,同时保持 96.61% 的最优准确率。

AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents

提出 AgentMisalignment 基准套件,包含 9 个现实场景评估任务,测量 LLM Agent 在非恶意指令下 自发偏离 部署者意图的倾向(而非能力),发现更强的模型倾向于更高的错误对齐,且人格提示(persona prompt)有时比模型选择本身对错误对齐行为的影响更大。

AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

本文研究多阶段复杂任务中的测试时计算最优缩放问题,通过大规模先导实验总结出三个关于 LLM 在多阶段任务中的缩放规律洞察,并提出 AgentTTS——一个基于 LLM Agent 的框架,通过迭代反馈驱动搜索自主寻找计算最优的模型选择和预算分配方案。

Are Large Language Models Sensitive to the Motives Behind Communication?

通过三个递进实验系统评估LLM是否具备"动机警觉性"——识别信息源的意图和激励并相应调整信任度的能力:在控制实验中前沿非推理LLM表现接近理性模型(Pearson's \(r>0.9\))且比理性模型更像人类,但在真实YouTube赞助广告场景中警觉性大幅下降(\(r<0.2\)),简单的prompt steering可部分恢复(\(r\)提升至0.31)。

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools

AMA(Attractive Metadata Attack)证明仅通过精心设计恶意工具的元数据(名称、描述、参数模式),不需要提示注入或模型内部访问,就能诱导 LLM Agent 以 81-95% 的成功率调用攻击者工具并泄露隐私,同时几乎不影响原始任务完成(98%+),且现有防御(审计器、提示重写)效果有限。

Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection

将 Agent 组件选择问题形式化为在线背包问题,提出 Composer Agent 框架:通过沙盒实测(而非静态语义检索)评估组件真实能力,结合 ZCL 在线算法在预算约束下动态选取最优组件组合,单 Agent 工具选择成功率提升最高 31.6%,多 Agent 子代理选择成功率从 37% 跃升至 87%。

Automated Multi-Agent Workflows for RTL Design

VeriMaAS 是一个多智能体框架,通过将 HDL 形式化验证反馈(Yosys + OpenSTA)集成到工作流自动生成过程中,自适应地为 RTL 代码生成任务选择推理算子(I/O → CoT → ReAct → SelfRefine → Debate),以仅数百个训练样本实现比微调基线高 5-7% 的 pass@k 性能。

Benchmarking Agentic Systems in Automated Scientific Information Extraction with ChemX

构建 ChemX——10 个由领域专家手工标注和验证的多模态化学数据提取基准数据集,涵盖纳米材料和小分子两大领域,系统评估了 ChatGPT Agent、SLM-Matrix、FutureHouse、nanoMINER 等 SOTA Agent 系统以及 GPT-5/GPT-5 Thinking 等前沿 LLM;提出的单 Agent 方法通过结构化文档预处理(marker-pdf → Markdown → LLM 提取)在纳米酶数据集上达到 F1=0.61,超越所有通用多 Agent 系统,同时揭示了化学信息提取仍存在 SMILES 解析失败、术语歧义等系统性挑战。

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

提出 Blink-Think-Link(BTL)脑启发框架,将 GUI 交互分解为 Blink(快速注意力定位)、Think(认知推理决策)、Link(可执行命令生成)三个生物合理阶段,配合自动化 Blink 数据标注 pipeline 和首个基于规则的过程+结果复合奖励机制 BTL Reward,训练的 BTL-UI 在静态 GUI 理解和动态交互 benchmark 上达到 competitive 性能。

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

受皮亚杰建构主义理论启发,提出CAM——一种具有结构性(层次化schema)、灵活性(重叠聚类的同化)和动态性(增量适应)三大特征的智能体记忆系统,在6个长文本阅读理解任务上全面超越RAPTOR、GraphRAG等基线。

ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions

提出 ContextAgent,首个利用可穿戴设备多模态感知(视频+音频+通知)来理解用户意图并主动提供工具增强服务的 LLM Agent 框架,同时构建了包含 1000 个样本的 ContextAgentBench 基准,在主动预测准确率和工具调用上分别提升 8.5% 和 6.0%。

CORE: Full-Path Evaluation of LLM Agents Beyond Final State

提出CORE框架:用确定有限自动机(DFA)编码Agent任务的合法工具调用路径,引入5个互补指标(路径正确性、顺序正确性、前缀危险性、有害调用率、效率)从全路径而非仅终态评估Agent行为,揭示了传统终态评估中不可见的安全和效率差异。

Crucible: Quantifying the Potential of Control Algorithms through LLM Agents

首次将"调优潜能"(Tuning Potential)概念形式化,通过 LLM Agent 模拟多级开发者对控制算法进行参数+逻辑双层调优,在 CartPole 上 Bang-bang 从 34→500 达到 DQN 水平,ABR 任务上相比贝叶斯优化最高提升 44.1%。

Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

通过理论和实验证明,多智能体辩论(MAD)的性能提升主要来自多数投票(ensembling)而非辩论本身——辩论过程构成 martingale(期望不变),即辩论不系统性地提升正确率,并基于此理论提出通过偏向正确信号来改进 MAD。

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

提出 DVD(Deep Video Discovery)agent,将长视频理解建模为多步信息搜索问题:先将长视频构建为多粒度结构化数据库(全局摘要 + clip 级字幕嵌入 + 帧级像素),再提供三种搜索工具(Global Browse / Clip Search / Frame Inspect),由 reasoning LLM 通过 observe-reason-act 循环自主编排搜索轨迹,在 LVBench 达 74.2%(超先前 SOTA MR.Video 13.4 pp),加字幕 76.0%。

DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

提出 DefenderBench,一个开源模块化工具包,用于在攻防和知识理解三类网络安全任务上系统评估 LLM Agent 的能力,覆盖网络入侵模拟、恶意内容检测、代码漏洞检测/修复、CTI 知识问答五大场景,基准测试显示 Claude-3.7-sonnet 综合最强(81.65 分)。

Distilling LLM Agent into Small Models with Retrieval and Code Tools

提出 Agent Distillation 框架,将 LLM agent 的完整 reason-act-observe 交互行为(而非静态 CoT)蒸馏到 0.5B-7B 小模型中,配合 first-thought prefix 提升教师轨迹质量和 self-consistent action generation 提升推理鲁棒性,使小模型达到比其大 2-4× 的 CoT 蒸馏模型的性能。

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

提出 DRIFT 系统级 Agent 安全框架,通过 Secure Planner(预规划函数轨迹+参数检查表)、Dynamic Validator(基于 Read/Write/Execute 权限的动态策略更新)和 Injection Isolator(从 memory stream 中检测并屏蔽注入指令)三层防御,在 AgentDojo 上将 ASR 从 30.7% 降至 1.3%,同时比 CaMeL 提升 20.1% utility。

Enhancing Demand-Oriented Regionalization with Agentic AI and Local Heterogeneous Data for Adaptation Planning

本文提出一个基于 Agentic AI 的规划支持系统,通过 LLM 智能体引导非技术用户进行数据驱动的需求导向区域化(demand-oriented regionalization),核心算法为 RepSC-SOM(带代表性初始化的空间约束自组织映射),支持人机协作迭代优化区域划分,用于灾害风险管理和气候适应规划。

EU-Agent-Bench: Measuring Illegal Behavior of LLM Agents Under EU Law

提出 EU-Agent-Bench,首个基于欧盟法律框架的可验证智能体基准,通过 600 个良性用户请求测试 LLM 智能体的工具调用是否违反欧盟法规,发现即使最佳模型(Gemini 2.5 Flash)的合法率也仅约 55%,揭示了当前对齐技术与法律可靠性之间的巨大鸿沟。

Generative AI Agents for Controllable and Protected Content Creation

提出一个多智能体生成框架,通过 Director/Planner、Generator、Reviewer、Integration 和 Protection 五个专业化智能体的协作,结合人在环反馈,统一解决生成内容的可控性和版权保护问题。

Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data

提出 Ground-Compose-Reinforce (GCR),一个端到端的神经符号框架,通过少量标注轨迹(仅350条)学习原子命题的接地语义(Ground),将其通过 Reward Machine 组合成复杂任务规范(Compose),然后用自生成的稠密奖励训练 RL 智能体(Reinforce),无需手工奖励函数即可引出分布外的复杂行为。

Group-in-Group Policy Optimization for LLM Agent Training

GiGPO 通过在 GRPO 的 episode 级分组内嵌套 step 级分组(利用跨轨迹的重复环境状态作为 anchor state),实现了无需额外 rollout 和 critic 模型的细粒度 credit assignment,在 ALFWorld 上比 GRPO 提升 >12%,WebShop 上提升 >9%。

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

提出 Hogwild! Inference——一种无需预定义协作框架的并行 LLM 推理协议,多个 LLM 实例通过共享的并发 KV 缓存实时同步,利用 RoPE 位置编码避免重计算,在数学推理和编程任务上以更少的串行步骤达到更高精度。

It's LIT! Reliability-Optimized LLMs with Inspectable Tools

通过为每个外部工具定义可靠性/可调试性成本函数,引导 LLM 在多候选方案中选择成本最低(最透明可审计)的工具调用路径,在 61/65 测试场景中提升可解释性的同时保持甚至提升任务准确率。

LC-Opt: Benchmarking Reinforcement Learning and Agentic AI for End-to-End Liquid Cooling Optimization in Data Centers

提出 LC-Opt,一个基于 Oak Ridge 国家实验室 Frontier 超级计算机冷却系统高保真数字孪生的液冷基准环境,支持强化学习控制策略的端到端液冷优化,涵盖集中式/分散式多智能体RL、策略蒸馏为可解释决策树、以及 LLM 驱动的智能体网格架构。

Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve

提出 LessonL 框架,使多个小 LLM 智能体通过相互学习的"课程"(lesson)对成功和失败案例进行反思,协同优化代码性能,3 个 7B-14B 模型组合达到 GPT-4o 甚至接近 o3 的代码优化效果。

LLM Agent Communication Protocol (LACP) Requires Urgent Standardization: A Telecom-Inspired Protocol is Necessary

这篇 position paper 指出当前 LLM Agent 通信的碎片化生态类似早期网络的"协议战争",提出受电信标准化启发的三层协议 LACP(语义层、事务层、传输层),强调安全内建、事务完整性和语义互操作性对多智能体系统至关重要。

LLM Agents for Knowledge Discovery in Atomic Layer Processing

通过让 LLM Agent 控制模拟化学反应器(黑盒函数),证明 Agent 能在无先验知识下通过试错探索、发现并总结未知化学系统的规则,揭示了 Agent 进行开放式科学发现的能力与局限。

MAT-Agent: Adaptive Multi-Agent Training Optimization

提出 MAT-Agent,一个由四个自主 agent(分别负责数据增强、优化器、学习率调度、损失函数)组成的多智能体框架,在训练过程中动态调整训练配置,用 DQN 学习策略以替代传统静态超参配置,在多标签图像分类任务上实现了 SOTA。

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

本文提出MLRC-Bench,一个基于ML会议竞赛任务的动态benchmark,用于客观评估LLM agent提出和实现新研究方法的能力,发现最强agent(gemini-exp-1206)也仅缩小了baseline与人类顶级方案之间9.3%的差距,且LLM主观评分的"创新性"与实际效果之间几乎无相关性。

Orchestration Framework for Financial Agents: From Algorithmic Trading to Agentic Trading

提出 FinAgent 编排框架,将传统算法交易系统的各组件映射为 AI 智能体(规划器、编排器、Alpha/风控/组合/回测/执行/审计/记忆智能体),使用 MCP 协议进行控制通信、A2A 协议进行智能体间通信,在股票和 BTC 交易任务上验证了可行性。

PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer

提出 PANDA,一个基于 MLLM 的 Agentic AI 工程师框架,通过自适应场景感知策略规划、目标驱动启发式推理、工具增强自反思和链式记忆四大能力,实现无需训练和人工干预的通用视频异常检测。

R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization

提出 R&D-Agent(Q),一个数据驱动的多智能体框架,通过五个协作模块(Specification、Synthesis、Implementation、Validation、Analysis)自动化量化策略的因子挖掘与模型创新联合优化,在真实股票市场上以不到 $10 的成本实现约 2× 于传统因子库的年化收益。

ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling

提出基于图结构程序化形状表示(GPS)的多 Agent 框架 ShapeCraft,通过 Parser-Coder-Evaluator 三个 LLM Agent 协作,将自然语言分解为结构化子任务图,迭代生成可编辑、可动画的带纹理 3D 资产。

SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications

利用后缀树缓存长序列,通过自适应推测长度实现 5.3 倍加速,特别针对 Agent 场景中高度可预测的重复推理任务。

T1: A Tool-Oriented Conversational Dataset for Multi-Turn Agentic Planning

构建 T1 数据集——13.5K 多轮对话覆盖 9 个领域(4 单领域 + 5 跨领域)、14 个工具,聚焦工具间依赖和动态重规划,并提出 T1-Agent(代码生成 + 缓存机制)作为基线系统;实验发现 SFT 后的 Llama 8B 在 Tool Call F1 上达 87.17%,超越未微调的 70B 模型,但仍落后于 GPT-5/o3 等闭源模型。

TAI3: Testing Agent Integrity in Interpreting User Intent

提出 TAI3,一个以 API 为中心的 LLM Agent 意图完整性压力测试框架,通过语义分区(Semantic Partitioning)将自然语言输入空间组织为结构化测试网格,再利用意图保持变异(Intent-Preserving Mutation)和策略记忆(Strategy Memory)高效暴露 Agent 在执行用户任务时的意图理解错误。

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

提出 CGI(Critique-Guided Improvement)双角色框架,训练专门的 Critic 模型为 Actor Agent 提供结构化自然语言反馈(判别+修正建议),并通过迭代动作精炼让 Actor 学会利用这些反馈,在 WebShop/ScienceWorld/TextCraft 三个环境中平均得分 74.20%,超越 GPT-4o(45.46%)和 Iterative SFT(58.21%)。

Traj-CoA: Patient Trajectory Modeling via Chain-of-Agents for Lung Cancer Risk Prediction

提出Traj-CoA多agent框架,通过chain-of-agents架构配合EHRMem长期记忆模块对长且噪声的纵向EHR进行时序推理,在零样本肺癌风险预测任务中(5年EHR数据,最高160k tokens)超越ML/DL/BERT/LLM等多类基线。

TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration

提出 TrajAgent——一个基于 LLM Agent 的轨迹建模框架,通过统一环境 UniEnv、自动化工作流和大小模型协作学习机制,实现跨任务、跨数据集的自动化轨迹建模,在多项任务上超越基线方法 2.38%–69.91%。

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

提出首个针对网页导航的过程奖励模型 Web-Shepherd,通过检查清单分解任务目标为可评估的子目标,3B/8B 模型在轨迹准确率上碾压 GPT-4o(85% vs 10%),同时成本仅为 1/10,使网页 Agent 的强化学习和推理时搜索变得实际可行。

What AI Speaks for Your Community: Polling AI Agents for Public Opinion on Data Center Projects

提出基于LLM的AI agent民意调研框架,通过人口统计合成虚拟居民agent对数据中心项目进行大规模低成本民调,跨模型跨地区实验表明agent意见与真实民调在主题上高度一致。

Zero-Shot Large Language Model Agents for Fully Automated Radiotherapy Treatment Planning

提出一种基于 LLM Agent 的零样本 (zero-shot) 放射治疗自动计划工作流,LLM 直接与商业治疗计划系统 (Eclipse TPS) 交互,通过迭代提取剂量-体积直方图 (DVH) 和目标函数损失并推理约束调整策略,在 20 例头颈癌 IMRT 病例上实现了与临床手动计划相当甚至更优的剂量分布质量。


📚 预训练

A Practical Guide for Incorporating Symmetry in Diffusion Policy

本文提出了一套将对称性融入扩散策略的实用指南——通过不变性表征(相对轨迹动作 + 手眼感知)、等变视觉编码器和 Frame Averaging 三种简单方法,在 MimicGen 12 个任务上达到了接近甚至超越完全等变扩散策略的性能,同时实现复杂度大幅降低。

AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework for Gradient-Guided Resource Allocation in LLMs

本文以 position paper 的形式挑战"规模至上主义",提出以能力-每-资源(Capability-Per-Resource, CPR)取代单纯的规模扩张来衡量 AI 进步,并给出一套基于梯度引导的资源分配理论框架——通过发布"梯度蓝图"元数据,使下游适配者仅微调高影响力参数子集即可在资源占用大幅降低的同时保持接近全参数微调的性能。

Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks

提出交替梯度流(AGF)理论框架解释神经网络的逐步"鞍到鞍"特征学习动力学——将训练建模为休眠神经元的效用最大化和活跃神经元的代价最小化的交替过程,统一了对角线性网络、注意力模型和模块加法的特征选择分析,预测与实际梯度流高度一致。

An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems

系统实证研究 Neural ODE (NODE) 在动力系统中的外推能力和 Symbolic Regression (SR) 的方程恢复能力,发现 NODE 在动态相似条件下可外推到新边界条件,并提出 NODE→SR 流水线:仅用 10% 原始数据训练 NODE 生成增强数据,SR 即可恢复 2/3 的控制方程和 1/3 的良好近似。

Beyond Benign Overfitting in Nadaraya-Watson Interpolators

通过调节 Nadaraya-Watson 插值器中的单一带宽参数 \(\beta\),精确刻画了从灾难性过拟合(\(\beta < d\))→ 良性过拟合(\(\beta = d\))→ 温和过拟合(\(\beta > d\))的完整相变谱,证明高估数据内禀维度比低估更安全。

Born a Transformer – Always a Transformer? On the Effect of Pretraining on Architectural Abilities

通过系统性地研究检索和复制任务家族,揭示了大规模预训练会为Transformer引入方向性偏置(右/前向优于左/后向),但无法克服非唯一任务上的根本架构限制;微调可消除方向偏置但不能突破架构表达力边界。

Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models

提出 Multi-brain-tuning 方法,通过联合多个被试的 fMRI 数据微调预训练语音模型,将脑对齐所需数据量降低 5 倍,同时脑对齐度提升最高 50%,并可泛化到全新被试和数据集。

Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretraining

发现GaLore等低秩优化方法的主导子空间在预训练中会"冻结"(相邻子空间重叠度趋近1),导致权重更新卡在固定低秩子空间中;提出SARA(重要性采样子空间选择),按奇异值权重随机采样奇异向量构建子空间,证明收敛性的同时将低秩优化器与全秩Adam的性能差距缩小最高46%。

Broken Tokens: Your Language Model Can Secretly Handle Non-Canonical Tokenization

揭示 LLM 能秘密处理非标准分词(如将"Hello"拆为"He"+"llo"而非标准的"Hello"整词token)——即使输入的 token 序列与训练时不同,模型表现出惊人的鲁棒性,且这种能力来自嵌入空间中子词嵌入的线性组合近似整词嵌入的特性。

Conformal Risk Training: End-to-End Optimization of Conformal Risk Control

本文将 Conformal Risk Control (CRC) 从期望损失扩展到一般化的 Optimized Certainty-Equivalent (OCE) 风险度量(包含 CVaR 等尾部风险),并提出"共形风险训练"方法,通过在训练中端到端地微分共形风险控制过程,在保持可证明风险保证的同时显著改善平均情况性能。

Deep Compositional Phase Diffusion for Long Motion Sequence Generation

提出 Compositional Phase Diffusion 框架,在 ACT-PAE 建立的频域相位空间中用 SPDM 和 TPDM 分别处理语义对齐和过渡连续性,实现长程组合式动作序列生成,在 BABEL-TEACH 上达到 SOTA。

Differentiable Hierarchical Visual Tokenization

提出一种端到端可微分的层次化视觉分词器,以像素级粒度自适应图像内容进行 token 划分,利用信息准则进行层次模型选择,可直接替换 ViT 的固定 patch 分词,并支持光栅-矢量转换。

Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction

本文通过对语言模型在主谓一致任务上的表现按实验条件进行细粒度拆解(disaggregation),揭示了聚合指标所掩盖的多阶段训练动态:模型先学词频偏好、再学局部上下文、最后发展出一般性的语法规则,这一过程涉及多次"隐藏突破"而非简单的单调提升。

Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

通过定义 IsSameObject 谓词并设计二次探针,证明大规模预训练 ViT(尤其是 DINO、CLIP)自然涌现了目标绑定能力,该信号编码在低维子空间中并主动引导注意力机制,挑战了认知科学界认为 ViT 缺乏绑定能力的观点。

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

提出 Arnold 调度系统,通过将 LLM 训练的通信模式(DP/PP group)与数据中心物理网络拓扑对齐,在模拟中将通信组最大跨度减少 1.67x,在 9600+ GPU 生产级训练中端到端性能提升 10.6%。

Enhancing Training Data Attribution with Representational Optimization

提出 AirRep(Attentive Influence Ranking Representation),一种基于表示学习的训练数据归因方法,通过可训练编码器和注意力池化机制,在推理效率比梯度方法快约 80 倍的同时,达到甚至超越 SOTA 梯度方法的归因精度。

Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods

明确提出"仅有最终模型"(FiMO)的训练数据归因设定,将问题从"贡献度"重构为"敏感性"度量,提出 further training 作为金标准,并统一推导出多种梯度方法(Grad-Dot、影响函数、TRAK、DataInf 等)均为 further training 的不同阶近似。

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

利用 grokking(延迟泛化)作为因果探针,证明 relative flatness 是泛化的(潜在)必要条件,而 neural collapse 虽常伴随泛化出现,但并非必要——它只是通往 flatness 的一条路径。

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

开源由超过4000个检查点(覆盖50M-2B参数、多种宽度-深度比)组成的Gemstones模型套件,通过系统实验揭示缩放律对模型选择、学习率调度、冷却策略等设计选择高度敏感,并提出基于凸包的新拟合方法提升稀疏采样下的缩放律稳定性。

Generalization Bounds for Rank-sparse Neural Networks

本文证明了利用神经网络权重矩阵近似低秩结构的泛化界,当 Schatten \(p\) 拟范数较小时,样本复杂度仅为 \(\widetilde{O}(WrL^2)\),其中 \(W\), \(L\), \(r\) 分别为宽度、深度和权重矩阵的秩。

Global Minimizers of Sigmoid Contrastive Loss

首次在实践相关的 N≫d 区间严格刻画了 Sigmoid 对比损失(SigLIP)在可训练温度和偏置下的全局最小值几何结构,提出了 (m, b_rel)-Constellation 这一新型组合对象,并用其解释了 SigLIP 的检索成功、模态间隙现象,以及提出了显式 relative bias 参数化改进训练动态。

Gradient-Weight Alignment as a Train-Time Proxy for Generalization in Classification Tasks

提出 Gradient-Weight Alignment (GWA),通过量化每个训练样本梯度与模型权重的方向一致性(cosine similarity),在训练过程中无需验证集即可准确预测泛化性能、确定最佳早停时机,并定位有影响力的训练样本。

How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models?

通过"限定领域预训练 + OOD 测试"的评估框架揭示 Mamba/RWKV 等 stateful 架构存在基础能力退化,并归纳出关键设计原则——"全序列任意选择能力"(full-sequence visibility + real relation calculation + non-uniform distribution),用极简的 Top-1 Element/Chunk Selection 架构验证该原则可恢复至接近 Transformer 的基础能力。

Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale

通过对超过 1,400 个语言模型检查点(涵盖 Transformer/Mamba/RWKV 三种架构、14M–12B 参数规模、两种训练数据集)在 11 万+ token 上的系统分析,发现所有自回归语言模型在预训练过程中展现出高度一致的行为阶段——预测概率依次过拟合到递增阶数的 n-gram 概率,且词频、n-gram 概率和语义相似度三个简单启发式可解释高达 98% 的行为方差。

Learning in Compact Spaces with Approximately Normalized Transformer

提出 anGPT(近似归一化 Transformer),利用高维空间中向量范数的集中现象,用简单标量乘法替代逐层精确归一化,在消除权重衰减和学习率预热的同时实现了相比 GPT+(含 QK-norm)40% 的收敛加速,仅增加 3% 运行时开销。

Learning the Wrong Lessons: Syntactic-Domain Spurious Correlations in Language Models

揭示 LLM 学会了句法模板(PoS n-gram)与领域之间的虚假关联,导致跨域性能骤降,甚至可利用此关联绕过安全拒绝机制(refusal bypass),在 OLMo-2 上将拒绝率从 40% 降至 2.5%。

Learning to Flow from Generative Pretext Tasks for Neural Architecture Encoding

提出 FGP(Flow-based Generative Pre-training),通过让编码器重建"流代理"(flow surrogate)这一架构信息流的简化表征,使任意结构的编码器无需专用的异步消息传递设计即可捕获信息流,在性能预测中 Precision@1% 最高提升 106%。

Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models

提出 Residual Alignment Model (RAM),将 LLM 对齐过程形式化为重要性采样,将大模型分解为冻结的 Proposal Module 和可训练的小型 Residual Aligner,以不到 1/8 参数实现可比甚至超越全参数 SFT/DPO 的对齐效果,同时解决了首 token 延迟问题。

Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale

本文通过分析 1,400+ 个模型检查点在 110,000+ token 上的行为,发现自回归语言模型在训练过程中展现高度一致的行为阶段——预测概率依次过拟合到递增 n 的 n-gram 概率,且三个简单启发式(词频、n-gram 概率、语义相似度)可解释高达 98% 的模型行为方差,此规律跨架构(Transformer/Mamba/RWKV)、数据集和规模保持一致。

Memory Mosaics at Scale

Memory Mosaics v2 将关联存储网络扩展至 10B 参数、1T token 训练规模,在新任务学习和上下文学习上显著超越同规模甚至 8T token 训练的 Transformer。

Mouse-Guided Gaze: Semi-Supervised Learning of Intention-Aware Representations for Reading Detection

提出一种半监督框架,利用鼠标轨迹作为弱监督信号预训练眼动表征,然后在标注数据上微调以区分阅读与扫描行为,在推理时仅使用眼动信号,实现免手操作的辅助阅读检测。

Nemotron-CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

NVIDIA 提出 CLIMB 框架,通过嵌入聚类 + 迭代自举搜索自动发现最优预训练数据混合比例,在 1B 模型上超过 Llama-3.2-1B 达 2.0%,并发布了 1.2T token 的 ClimbLab 语料库和 400B token 的 ClimbMix 高质量数据集。

Neural Collapse under Gradient Flow on Shallow ReLU Networks for Orthogonally Separable Data

首次证明在正交可分数据上,两层ReLU网络的梯度流(GF)在小初始化下可证收敛到Neural Collapse(NC)解,揭示了GF隐式偏置(早期神经元对齐+渐近最大间隔偏置)在促进NC出现中的关键作用。

One Prompt Fits All: Universal Graph Adaptation for Pretrained Models

理论证明表示级图提示(representation-level prompt)本质等价于线性探针,据此提出 UniPrompt——基于可学习 kNN 拓扑提示图的输入级方法,通过 bootstrapping 策略融合提示图和原图,在同域和跨域 few-shot 节点分类中一致超越现有图提示学习方法。

Optimal Online Change Detection via Random Fourier Features

提出 Online RFF-MMD 算法,通过随机 Fourier 特征近似 MMD 统计量并嵌入到二进制网格的序贯检验框架中,实现了无需训练数据、无需窗口参数的在线非参数变点检测,运行时间和空间复杂度均为对数级,并证明了检测延迟的 minimax 最优性。

Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training

提出了一套针对 LLM 预训练中权重衰减 \(\lambda\) 和批大小 \(B\) 的幂律缩放定律(power laws),通过 AdamW 时间尺度 \(\tau\) 的概念统一了超参数缩放关系,使得在大规模训练前即可准确预测最优超参数。

Predict Training Data Quality via Its Geometry in Metric Space

提出基于持久同调(Persistent Homology)的训练数据多样性度量方法,证明数据的几何/拓扑结构特征能够有效预测模型性能,优于传统基于熵的Vendi Score等指标。

PRESCRIBE: Predicting Single-Cell Responses with Bayesian Estimation

提出 PRESCRIBE 框架,通过多变量深度证据回归联合建模单细胞扰动预测中的认知不确定性(模型对输入的不熟悉程度)和随机不确定性(生物系统固有的随机性),生成伪 E-distance 作为统一的不确定性代理指标,过滤不可靠预测后准确率提升 3% 以上。

Quantifying Task-Relevant Representational Similarity Using Decision Variable Correlation

本文提出基于决策变量相关(DVC)的新方法来衡量两个神经表征在分类任务上的逐试次一致性,发现深度网络在 ImageNet 上准确率越高反而与猴脑 V4/IT 的 DVC 越低,对抗训练和大规模数据集预训练也无法缩小这一差距。

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

提出 RICL(Retrospective In-Context Learning),利用 LLM 的预训练知识通过回顾式上下文学习将稀疏环境反馈转化为密集优势函数信号,实现比传统 Monte Carlo 方法高 100 倍的样本效率,并在此基础上构建 RICOL 在线学习框架。

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

本文提出 RICL(回顾式上下文学习),通过比较 LLM 策略在上下文更新前后的 log-probability 差异来估计优势函数,将稀疏环境反馈转化为密集训练信号,实现高效的时间信用分配,并在 BabyAI 任务上以更高采样效率达到传统 RL 可比的收敛性能。

Scalable Fingerprinting of Large Language Models

提出 Perinucleus 采样方法生成可扩展的 LLM 指纹,能在 Llama-3.1-8B 上嵌入 24,576 个指纹(比现有方法多两个数量级)且不损害模型能力,并通过理论和实验证明大规模指纹是抵御共谋攻击的关键。

Scaling Embedding Layers in Language Models

提出Scone方法,通过为高频n-gram学习上下文化的嵌入(用独立Transformer模型训练),在推理时将这些嵌入卸载到主存/SSD,实现"训练时用更多计算但推理时不增加加速器资源"的新缩放范式,1B参数模型超越1.9B基线。

Superposition Yields Robust Neural Scaling

揭示表示叠加(superposition)是神经缩放定律的核心驱动力:在强叠加区间,损失通用地与模型维度成反比(\(L \propto 1/m\)),且该行为与数据频率分布的具体形式无关,这与实际 LLM 的缩放行为一致。

The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation

通过 AttnLRP 归因方法系统解剖 LLM 在 in-context retrieval augmented QA 中的内部机制,发现三类功能特化的注意力头——Task heads(中间层,解析指令/问题)、Retrieval heads(后层,逐字复制上下文答案)、Parametric heads(编码参数化知识),并通过 Function Vector 注入和来源追踪探针验证其功能,在 Llama-3.1/Mistral/Gemma 上 ROC AUC ≥94%。

The Curse of Depth in Large Language Models

揭示 Pre-LN Transformer 中输出方差指数增长导致深层退化为恒等映射的根本原因,提出无参数的 LayerNorm Scaling(LNS)策略——仅在 LayerNorm 后乘以 \(1/\sqrt{\ell}\),将方差从指数增长压缩为多项式增长,在 130M-7B 全规模上稳定改进困惑度 5-8%。

Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training

从 river-valley 损失景观的几何视角,分析了 Schedule-Free (SF) 优化器在语言模型预训练中不需要学习率衰减和权重平均就能持续追踪最优解的原因,并揭示 SF 隐式执行了权重平均,进而提出解耦动量和平均窗口的改进版 SF-AdamW。

Understanding and Enhancing Mask-Based Pretraining towards Universal Representations

用高维线性回归理论精确刻画了 mask-based pretraining 中掩码率对测试风险的影响(偏差-方差分解),揭示了最优掩码率依赖于任务和模型大小,并据此提出 R2MAE(随机随机掩码),在视觉、语言、DNA、单细胞模型上一致超越固定掩码率。

Vocabulary Customization for Efficient Domain-Specific LLM Deployment

提出一种保证编码效率单调不降的BPE tokenizer扩展算法,将领域高频token追加到Llama 3.1词表中(+30K token),在电商场景实现输入序列缩短20%、推理吞吐量提升20-30%,经10K步继续训练后模型质量不降,且约98%情况下模型主动生成新token。

ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data

ZEUS 是首个面向表格数据的零样本聚类方法,通过在合成数据集上预训练一个 Transformer 编码器来学习可泛化的表示,使得新数据集无需任何额外训练或调参即可在单次前向传播中完成高质量聚类。


✂️ 语义分割

Alligat0R: Pre-Training through Covisibility Segmentation for Relative Camera Pose Regression

用共视性分割(covisibility segmentation)替代 CroCo 的跨视图补全作为双目视觉预训练任务,对每个像素预测"共视/遮挡/视野外"三类标签,在低重叠场景下显著超越 CroCo,RUBIK 基准总体成功率 60.3% 排第一。

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

提出ARGenSeg——首个利用自回归图像生成范式实现图像分割的统一MLLM框架,让模型直接输出visual tokens并通过VQ-VAE解码为分割mask,无需额外分割头,搭配next-scale prediction并行生成策略实现4×加速,在RefCOCO/+/g上以更少训练数据超越SOTA。

Attention (as Discrete-Time Markov) Chains

将 softmax 归一化后的注意力矩阵重新解读为离散时间 Markov 链(DTMC)的转移概率矩阵,提出多跳注意力(Multi-Bounce)和 TokenRank(稳态分布,类似 PageRank)来捕获间接注意力路径和全局 token 重要性,在 ImageNet 分割上达 94.29% mAP,并增强 Self-Attention Guidance 的图像生成质量。

ConnectomeBench: Can LLMs Proofread the Connectome?

提出 ConnectomeBench,首个评估多模态 LLM 在连接组校对(片段识别、分裂错误修正、合并错误检测)三项关键任务上能力的标准化基准;o4-mini 在分裂修正多选任务达 85%,但合并错误检测仍显著落后于人类专家。

COS3D: Collaborative Open-Vocabulary 3D Segmentation

提出 COS3D——一种协作式 prompt-分割框架,通过构建实例场(instance field)和语言场(language field)组成的协作场,在训练阶段利用实例到语言的特征映射构建语言场,在推理阶段利用语言到实例的自适应 prompt 精炼生成精确分割,在两个主流基准上大幅超越现有方法。

Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation

提出两阶段主动学习流程(覆盖性→不确定性),利用预训练扩散模型的多尺度特征实现极低标注预算下的高效语义分割。

Exploring Structural Degradation in Dense Representations for Self-supervised Learning

发现并系统研究了自监督学习中"稠密退化"(SDD)现象——训练越久分类越好但稠密任务性能反而下降,提出 DSE 度量和基于 DSE 的模型选择/正则化策略,平均提升 mIoU 3.0%。

Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning

通过卷积解码归一化(替代硬半自回归分块)和基于规则的拒绝微调 R2FT,在 128 步推理下实现与 512+ 步相当的扩散语言模型生成质量,达到 DLM 领域 SOTA。

FAST: Foreground-aware Diffusion with Accelerated Sampling Trajectory for Segmentation-oriented Anomaly Synthesis

FAST 把“异常区域要被持续保留下来”这件事做成了显式机制,一边用 AIAS 把离散扩散的多步反演压缩成少量粗到细更新,一边用 FARM 在每一步都重建并回灌异常前景,因此既快又更适合给下游异常分割模型喂训练数据。

FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning

提出 FineRS 两阶段 MLLM 强化学习框架(全局语义探索 GSE → 局部感知精化 LPR),通过 locate-informed retrospective reward 耦合两阶段,在自建 FineRS-4k UAV 高分辨率数据集上实现超小目标的推理与分割,gIoU 达 55.1%(超 Seg-Zero† 8.5%),同时支持 VQA(MVQA 83.3%)。

GTPBD: A Fine-Grained Global Terraced Parcel and Boundary Dataset

构建首个全球性细粒度梯田地块与边界数据集GTPBD,包含47,537张高分辨率影像(0.5-0.7m)和超20万个人工标注地块,提供三级标签支持语义分割、边缘检测、地块提取和无监督域适应四项任务,并在20种方法上进行全面基准评测。

HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance

提出HAODiff,一种人体感知的单步扩散模型,通过三分支双提示引导(DPG)生成自适应正负提示对,结合显式人体运动模糊(HMB)退化管线和分类器自由引导(CFG),在人体图像复原任务上大幅超越现有SOTA方法。

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

首次提出指称人体动作分割(RHAS)任务——通过文本描述定位多人视频中特定个体并做帧级动作分割。构建了包含133部电影、137个动作类别、33小时视频的RHAS133数据集,并提出基于全局-局部感知傅里叶条件扩散的HopaDIFF框架,在多种评估设置下显著超越现有基线。

HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation

提出HumanCrafter——首个统一单图3D人体重建与人体部位语义分割的前馈框架,通过人体几何先验引导的Transformer聚合多视角特征,结合DINOv2自监督语义先验构建3D特征场,在2K2K和THuman2.1上同时超越现有3D重建和分割SOTA。

InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition

定义指令导向目标计数/检测/分割(InstructCDS)新任务,构建EarthInstruct遥感基准(覆盖开放词汇/开放端/开放子类三种设置),提出InstructSAM——无需训练的框架:LVLM解析指令+计数、SAM2生成掩码提议、CLIP计算相似度,通过二进制整数规划(BIP)在计数约束下实现掩码-标签最优匹配,推理时间近乎恒定且优于专用基线。

Interpreting ResNet-based CLIP via Neuron-Attention Decomposition

提出神经元-注意力分解方法解释CLIP-ResNet:将模型输出分解为神经元与注意力池化头的成对贡献路径,发现这些neuron-head对可用单一方向近似、具有稀疏性且捕获子概念,并将其应用于免训练语义分割(PASCAL Context上mIoU 26.2%,超MaskCLIP 15%)和数据集分布偏移监测。

LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation

提出LangHOPS,首个基于多模态大语言模型(MLLM)的开放词汇物体-部件实例分割框架,在语言空间中建立object-part层次关系,利用MLLM的知识和推理能力链接多粒度概念,在PartImageNet上以56.9% AP超越SOTA 5.5%,跨数据集设置超4.8%。

Mars-Bench: A Benchmark for Evaluating Foundation Models for Mars Science Tasks

本文提出 Mars-Bench——首个面向火星科学任务的综合基准,涵盖20个数据集(分类/分割/目标检测三大任务类型),系统评估了 ImageNet 预训练模型、地球观测基础模型和视觉语言模型在火星数据上的表现,发现当前通用模型在火星领域仍有明显不足,呼吁开发火星专用基础模型。

Mechanistic Interpretability of RNNs Emulating Hidden Markov Models

训练 vanilla RNN 复现 HMM 的发射统计,然后通过反向工程揭示 RNN 实现离散随机状态转换的机制:噪声驱动的轨道动力学 + "kick 神经元"触发的快速转换,本质是自诱导随机共振(SISR),该动力学基元可组合复用以模拟更复杂的离散潜在结构。

Mechanistic Interpretability of RNNs Emulating Hidden Markov Models

通过训练 RNN 模拟 HMM 的发射统计,然后反向工程揭示 RNN 如何利用噪声驱动的轨道动力学、结构化连接(噪声积分群体 + kick 神经元)和自诱导随机共振机制来实现离散随机状态转换。

MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans

提出 MultiHuman-Testbench,首个系统性评估多人图像生成的基准,包含 1800 个测试样本配对 5550 张人脸图像,以及基于匈牙利匹配的身份相似度等多维度评估指标,并提出区域隔离和隐式匹配技术提升现有方法性能。

Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning

本文首次将因果学习引入3D点云新类发现(3D-NCD),通过结构因果模型(SCM)分析基类中的混杂因子和基-新类间的因果关系,提出因果表示原型学习(通过对抗网络消除混杂因子)和基于图的因果推理(GCN生成伪标签),在SemanticKITTI和SemanticPOSS上取得了SOTA结果。

OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation

OmniSegmentor 构建了含 5 种视觉模态的大规模 ImageNeXt 数据集(1.2M 样本),提出随机选择补充模态与 RGB 对齐的高效预训练策略,首次实现灵活的多模态预训练-微调流水线,在 6 个多模态语义分割基准上刷新 SOTA。

Panoptic Captioning: An Equivalence Bridge for Image and Text

提出 Panoptic Captioning 新任务追求图像的"最小文本等价"——定义包含实体标签、位置(bbox)、属性、关系和全局状态五个维度的全面结构化描述,通过 PancapEngine 数据引擎和 PancapChain 解耦多阶段方法,13B 模型即超越 InternVL-2.5-78B 和 GPT-4o。

PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding

提出 PartNeXt,一个包含 23,519 个高质量带纹理 3D 模型、跨 50 个类别的细粒度层级部件标注数据集,并建立了类别无关部件分割和 3D 部件问答两个基准测试,揭示了当前方法在细粒度部件理解上的显著不足。

PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding

提出 Partonomy 部件级分割 benchmark(862 部件标签/534 物体标签)和 Plum 模型(用 span 标记替代 [SEG] token + mask 反馈循环),发现 SOTA 分割 LMM 在部件理解上仅 5.9% gIoU,Plum 通过避免分布偏移和利用历史预测显著提升。

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

提出 Edge-awareness Semantic Concordance(ESC)框架,利用语义边缘作为异质 Event 和 RGB 模态的中间桥梁,通过边缘字典的离散潜空间建模实现跨模态特征对齐和不确定性优化,在极端条件下超越 SOTA 2.55% mIoU。

HCLFuse: Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws

HCLFuse 基于信息瓶颈原理和最优传输理论进行模态对齐,设计变分瓶颈编码器(VBE)+ 物理引导条件扩散模型,融合热传导/结构保持/物理一致性三种约束到扩散过程中,在 MSRS 数据集上梯度指标 AG 提升 69.87%,空间频率 SF 提升 39.41%。

Robust Ego-Exo Correspondence with Long-Term Memory

提出LM-EEC,基于SAM 2的自中心-外中心(ego-exo)视频跨视角目标分割框架,通过Memory-View MoE自适应融合记忆特征与跨视角特征,配合双记忆库压缩策略保持长期信息,在EgoExo4D基准上大幅超越现有方法(Ego2Exo IoU 54.98 vs 38.26)。

Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention

提出 CERES 框架,通过双模态因果干预(语言后门调整消除数据集统计偏差 + 视觉前门调整利用深度信息构建因果中介变量)来解决第一人称视频指代分割中的语言偏差和视觉混淆问题,在 VISOR/VOST/VSCOS 上取得 SOTA。

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

提出RoMA——首个面向遥感领域的Mamba架构自监督自回归预训练框架,通过自适应旋转编码策略和多尺度token预测机制,解决遥感图像的方向多样性和尺度极端变化问题,验证了Mamba在遥感领域遵循数据和参数缩放定律。

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

提出 SaFiRe 框架,模拟人类"扫视-注视"两阶段认知过程,利用 Mamba 的扫描-更新特性实现线性复杂度的多轮细化,有效处理歧义指代表达下的图像分割任务。

SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning

SAM-R1 提出了一个端到端的推理分割框架,首次将 SAM 作为强化学习训练回路中的奖励提供者,结合分级IoU精度奖励、非对称裁剪和 token 级损失归一化的改进 GRPO 算法,仅用 3K 训练样本即在 ReasonSeg 零样本设定下超越 Seg-Zero 等方法,gIoU 达 60.2%。

SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation

SANSA 发现 SAM2 虽然以类别无关方式预训练,但其特征中隐含了丰富的语义结构;通过在冻结的 SAM2 Image Encoder 最后两层插入轻量 AdaptFormer 适配器,将 Memory Attention 机制从视觉相似性匹配重定向为语义相似性匹配,以统一架构实现了 few-shot 分割的 SOTA,同时比竞争方法快 3 倍以上、参数量小 4-5 倍。

Seg-VAR: Image Segmentation with Visual Autoregressive Modeling

Seg-VAR 将图像分割重新定义为条件自回归掩码生成问题,通过引入 seglat(分割掩码的潜在表示)和空间感知颜色映射将分割掩码编码为可由 VAR 模型处理的离散 token,在 COCO、Cityscapes、ADE20K 上的语义/实例/全景分割任务中全面超越 Mask2Former 等判别式方法和 GSS 等生成式方法。

Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers

通过系统分析多模态扩散Transformer(MM-DiT)的联合注意力机制,发现特定层("语义定位专家层")天然具备高质量语义分割能力,并提出轻量微调方法MAGNET同时提升分割与生成性能。

Self-supervised Synthetic Pretraining for Inference of Stellar Mass Embedded in Dense Gas

本文提出了一种"合成数据驱动的自监督预训练"范式:先用 Flame 算法生成 100 万张合成分形图像,对 ViT-L/16 编码器进行 DINOv2 自监督预训练,然后将冻结的编码器直接迁移到极其有限的磁流体动力学(MHD)恒星形成模拟数据上,通过 kNN 回归实现恒星质量预测(\(R^2=0.81\)),通过 PCA 投影实现零样本无监督语义分割,性能略优于在相同数据上训练的全监督 ResNet-18 基线。

SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning

SRSR提出一种无需训练的即插即用框架,通过空间重聚焦交叉注意力(SRCA)和空间定向CFG(STCFG)两个推理时模块,解决扩散超分方法中文本引导导致的语义幻觉问题,在保真度和感知质量上全面超越7个SOTA基线。

STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model

提出STEAD,首个基于扩散语言模型(DLM)的可证安全且鲁棒的语言隐写术方法,利用DLM并行去噪的特性找到"鲁棒位置"进行信息嵌入,结合重复纠错编码和邻域搜索策略,抵御token级别的替换、插入、删除攻击。

STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking

STEP 是首个统一的脉冲 Transformer (Spiking Transformer) 评估平台,支持分类/分割/检测多任务、多后端(SpikingJelly/BrainCog/BrainPy),通过系统消融揭示了当前脉冲 Transformer 严重依赖卷积前端、注意力贡献有限、时序建模能力不足的关键发现,并提出了考虑位宽稀疏性和内存访问的统一能耗分析框架。

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

提出 TabRAG,一种基于解析的 RAG 框架,通过布局分割将文档分解为细粒度组件,使用视觉语言模型将表格提取为层次化结构表示,并集成自生成上下文学习模块来适配多种表格格式,在表格文档问答上全面优于现有解析技术。

Torch-Uncertainty: A Deep Learning Framework for Uncertainty Quantification

Torch-Uncertainty 是首个统一、可扩展、领域通用且以评估为中心的 PyTorch/Lightning 不确定性量化 (UQ) 框架,集成了 6 大类 UQ 方法、26 种评估指标和 27 个即插即用数据集,覆盖分类、分割、回归等任务,并提供了完整的基准测试结果。

Towards Robust Pseudo-Label Learning in Semantic Segmentation: An Encoding Perspective

提出 ECOCSeg,用纠错输出码(ECOC)替代 one-hot 编码来表示语义类别,将 N 类分类分解为 K 个二分类子任务,配合 bit 级伪标签去噪和定制优化损失,显著提升 UDA 和 SSL 语义分割中伪标签学习的鲁棒性。

Towards Unsupervised Domain Bridging via Image Degradation in Semantic Segmentation

提出 DiDA,通过将图像退化操作形式化为扩散前向过程来构建源域和目标域之间的连续中间域,结合语义偏移补偿机制,作为即插即用模块显著提升现有 UDA 语义分割方法的性能。

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

UniPixel 提出了首个端到端统一对象引用 (referring) 和分割 (segmentation) 的大型多模态模型,通过创新的 Object Memory Bank 设计将稀疏视觉提示转化为稠密对象掩码特征并注入推理过程,在 10 个基准上实现 SOTA,还引入了需要同时完成引用、分割和问答的 PixelQA 新任务。

Unveiling the Spatial-Temporal Effective Receptive Fields of Spiking Neural Networks

提出时空有效感受野(ST-ERF)分析框架来诊断 Transformer-based SNN 在视觉长序列建模中的瓶颈——缺乏全局感受野,并据此设计 MLPixer 和 SRB 两种通道混合器来增强 SNN 的全局建模能力。

Vanish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2

提出UAP-SAM2——首个针对SAM2的跨提示通用对抗攻击方法,通过双重语义偏移框架(帧内语义混淆+帧间语义不一致)生成一个通用扰动,使SAM2在不同视频、帧和提示下的分割目标"消失无踪"。

Vision Transformers with Self-Distilled Registers

提出PH-Reg(Post Hoc Registers),一种高效的自蒸馏方法,无需标注数据和完整重训练即可为已有预训练ViT添加register token,通过测试时增强去噪教师特征+自蒸馏学生网络,有效消除ViT密集特征中的伪影token,提升分割和深度估计性能。


🔄 自监督/表示学习

A Joint Learning Approach to Hardware Caching and Prefetching

提出将硬件缓存替换策略和预取策略进行联合训练的学习框架,通过共享编码器和对比学习两种方式构建共享特征表征,打破两个策略独立训练时的性能瓶颈。

Adv-SSL: Adversarial Self-Supervised Representation Learning with Theoretical Guarantees

提出 Adv-SSL,通过将协方差正则项的 Frobenius 范数重写为 minimax 对偶形式,消除了 Barlow Twins 等方法中样本级风险的有偏估计问题,在不增加额外计算成本的前提下显著提升下游分类性能,并给出端到端的理论收敛保证。

Angular Constraint Embedding via SpherePair Loss for Constrained Clustering

本文提出SpherePair损失函数,通过在角度空间(而非欧几里得空间)进行成对约束嵌入学习,实现了不依赖锚点(anchor)、不需要预知聚类数的深度约束聚类方法,并提供了严格的理论保证来确定最优超参数。

Asymptotic and Finite-Time Guarantees for Langevin-Based Temperature Annealing in InfoNCE

本文通过将嵌入演化建模为紧致黎曼流形上的 Langevin 动力学,证明了经典模拟退火的收敛保证可以扩展到对比学习的温度调度设定中:缓慢对数逆温度调度保证概率收敛到全局最优表示集合,而更快的调度则可能陷入次优极小值。

BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals

提出 BrainOmni——首个统一 EEG 和 MEG 的脑信号基础模型,通过 BrainTokenizer(含物理传感器编码器)将异构脑电/脑磁信号离散化为统一 token,再用 Criss-Cross Transformer 进行自监督掩码预测预训练,在阿尔茨海默病检测上提升 11.7 个百分点,并实现对完全未见设备的零样本重建泛化。

Connecting Jensen-Shannon and Kullback-Leibler Divergences: A New Bound for Representation Learning

推导了一般情况下KL散度关于JS散度的最优紧致下界\(\Xi(D_{\text{JS}}) \leq D_{\text{KL}}\),证明训练判别器最小化交叉熵损失等价于最大化互信息的一个保证下界,为JSD基于的判别式表示学习方法提供了缺失的理论基础,并在MI估计和Information Bottleneck框架中验证了紧致性与实用性。

Continuous Subspace Optimization for Continual Learning (CoSO)

提出 CoSO 框架,通过从每步梯度的 SVD 动态导出连续子空间(而非 LoRA 的固定子空间),结合历史任务正交投影防止干扰和 Frequent Directions 高效聚合梯度信息,在 ImageNet-R 20 任务上以 78.19% 最终准确率超越最佳 baseline 2.77 个百分点。

Contrastive Consolidation of Top-Down Modulations Achieves Sparsely Supervised Continual Learning

提出 Task-Modulated Contrastive Learning (TMCL),受大脑新皮层自顶向下调制启发,在持续学习中通过 affine modulation 集成稀疏标签信息(仅需 1% 标签),再利用对比学习将调制信息固化到前馈权重中,在 class-incremental 和迁移学习上超越无监督和有监督基线。

Contrastive Representations for Temporal Reasoning

提出 CRTR(Contrastive Representations for Temporal Reasoning),通过在训练批次中重复同一轨迹来引入轨迹内负样本对,消除标准时间对比学习对静态上下文特征的依赖,学习到反映时间结构的表征,在魔方等组合推理任务上首次实现无搜索求解。

Curiosity-driven RL for Symbolic Equation Solving

将好奇心驱动探索(RND、ICM 等)与基于表达式树的图动作空间结合,使 PPO 智能体能够求解包含根号、指数和三角函数的非线性方程,超越了此前仅限于线性方程的 RL 方法。

DataRater: Meta-Learned Dataset Curation

提出 DataRater,一个基于元梯度(meta-gradient)的数据价值评估框架,通过元学习自动为每个训练数据点打分并过滤低质量数据,在多个预训练数据集上实现最高 46.6% 的净计算量节省,且在 400M 内部模型上训练的 DataRater 可直接泛化到 50M–1B 规模的 LLM 训练中。

Disentangling Hyperedges through the Lens of Category Theory

首次从范畴论视角分析超边解耦,基于自然性条件导出"因子表示一致性"标准(聚合后解耦 vs 解耦后聚合应一致),提出 Natural-HNN 模型在6个癌症分型数据集上全面超越14个baseline(BRCA F1 从75.7%提升至80.4%),并能100%正确捕获基因通路的功能上下文。

Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

提出三阶段框架(元科学整合→混合人机共创→自主科学发现)来描绘基础模型正推动科学范式从工具增强向范式转型演变的图景,并系统综述了 FM 在实验/理论/计算/数据四大科学范式中的整合应用。

Hybrid Autoencoders for Tabular Data: Leveraging Model-Based Augmentation in Low-Label Settings

提出 TANDEM(Tree-And-Neural Dual Encoder Model),一种混合自编码器架构,通过联合训练神经网络编码器和遗忘软决策树(OSDT)编码器,并引入样本级随机门控网络作为可学习的数据增强,在低标签表格数据场景下实现了超越强基线(包括树模型和深度学习方法)的性能。

Implicit Modeling for Transferability Estimation of Vision Foundation Models

提出隐式可迁移性建模(ITM)框架,通过隐变量z隐式编码模型-任务对的迁移能力,结合分治变分近似(DVA)高效模拟嵌入空间演化,在10个下游任务和10个多样化预训练模型上的加权Kendall tau_w从此前最优的0.45提升至0.61。

Know Thyself by Knowing Others: Learning Neuron Identity from Population Context

提出NuCLR自监督框架,通过对比学习对群体神经活动中同一神经元的不同时间窗口拉近、不同神经元推远,学习包含群体上下文的神经元级表征,在细胞类型和脑区解码上达到新SOTA,并首次展示了跨动物零样本泛化和数据缩放规律。

Long-Tailed Recognition via Information-Preservable Two-Stage Learning

提出信息保持的两阶段学习框架:第一阶段用 Balanced Negative Sampling (BNS) 基于互信息最大化学习有效且可分的特征空间,第二阶段用 Information-Preservable DPP (IP-DPP) 采样数学上信息量最大的样本来纠正多数类偏向的决策边界,在多个长尾数据集上取得 SOTA。

M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization

针对自监督强化学习中 LLM 策略崩溃和熵崩溃问题,提出动量锚定的 GRPO(M-GRPO)框架和基于 IQR 的低熵轨迹过滤方法,实现稳定训练和 SOTA 性能。

M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization

针对自监督强化学习(SS-RLVR)在长期训练中普遍出现的"策略崩溃"问题,提出 M-GRPO:通过动量模型提供稳定的伪标签目标 + 基于四分位距(IQR)的低熵轨迹过滤防止熵崩溃,在无标注 MATH 数据集上训练 Qwen3-4B-Base,最终 checkpoint 即超越 SRT 手动选取的最佳 checkpoint,AIME24 +2.92%、GPQA +5.05%。

Manifolds and Modules: How Function Develops in a Neural Foundation Model

从计算神经科学视角"打开黑箱"分析 SOTA 神经活动基础模型 (FNN),通过构建解码流形和编码流形发现其各处理模块(编码器、循环、读出)展现出质性不同的表征结构,且与生物视觉系统存在关键差异。

Memory-Integrated Reconfigurable Adapters: A Unified Framework for Settings with Multiple Tasks

MIRA 将 Hopfield 式联想记忆模块嵌入 ViT 各层,以键值对方式存储和检索 LoRA 适配器权重,通过两阶段训练(适应+巩固),在一个统一架构下同时解决领域泛化(DG)、类增量学习(CIL)和域增量学习(DIL)三类任务,在多个基准上显著超过各任务的专用方法。

Minimal Semantic Sufficiency Meets Unsupervised Domain Generalization

MS-UDG 在无类别标签和域标签的条件下,通过信息解纠缠模块(IDM)将表征分解为语义和变异成分,配合最小语义充分性优化模块(SROM)最大化语义信息同时最小化变异干扰,在 PACS 上达 72.89% 准确率(+1.5% vs CycleMAE),理论证明最小充分语义表征最小化下游贝叶斯错误率。

Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models

首次系统研究合成先验的设计原则,发现多样性、独特性和真实数据对齐是关键属性,据此提出 Mitra——一个基于精心筛选的混合合成先验训练的表格基础模型,在分类和回归基准上一致超越 TabPFNv2 和 TabICL。

One Filters All: A Generalist Filter for State Estimation

提出 LLM-Filter,将 LLM 重编程为通用状态估计器,通过 System-as-Prompt(SaP)机制使冻结的 LLM 在未见动力系统上实现零样本泛化,性能超越 SOTA 学习型滤波器。

SEAL: Semantic-Aware Hierarchical Learning for Generalized Category Discovery

提出 SEAL 框架,利用自然存在的语义层级结构(而非手工设计的抽象层级)指导广义类别发现,通过层级语义引导的软对比学习和跨粒度一致性模块,在细粒度基准上取得 SOTA 性能。

Soft Task-Aware Routing of Experts for Equivariant Representation Learning

提出 STAR(Soft Task-Aware Routing),通过 MoE 路由机制协调不变性和等变性表示学习任务间的共享与专属信息,减少冗余特征学习,提升下游任务迁移性能。

STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking

提出 STaRFormer,通过动态注意力区域掩码(DAReM)识别任务关键区域并施加掩码扰动,配合批内+类内半监督对比学习将任务信息嵌入潜在表示,在 56 个数据集(含非平稳、不规则采样、分类/异常检测/回归)上全面超越 SOTA。

T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning

提出 T-REGS——一种基于最小生成树(MST)长度最大化的自监督学习正则化框架,理论证明可同时防止维度坍缩并促进表示分布均匀性,在紧致黎曼流形上成立,实验在标准 JE-SSL 基准上验证了有效性。

TabArena: A Living Benchmark for Machine Learning on Tabular Data

提出 TabArena,首个持续维护的"活跃"表格数据基准系统,从 1053 个数据集中精选 51 个、纳入 16 个模型,通过大规模实验(约 2500 万次模型训练)发现:后验集成下深度学习模型已追平甚至超越 GBDT,表格基础模型在小数据上表现突出,跨模型集成可进一步推进 SOTA。

TabSTAR: A Tabular Foundation Model for Tabular Data with Text Fields

提出 TabSTAR,一个专为含文本字段的表格数据设计的基础模型:通过解冻文本编码器(e5-small-v2)端到端优化文本表征 + 目标感知 token 注入分类目标语义信息 + 无数据集特定参数的架构实现跨数据集迁移学习,在 350 个数据集上预训练后,分类任务上 14 个数据集中 12 个超越 CatBoost-Tuned(4h 调参),8/11 超越 TabPFN-v2。

The Complexity of Finding Local Optima in Contrastive Learning

证明对比学习中寻找局部最优是计算困难的:离散三元组最大化问题是 PLS-hard(即使 \(d=1\)),连续三元组损失最小化是 CLS-hard,意味着(在标准假设下)不存在多项式时间算法找到局部最优。

Towards Reliable and Holistic Visual In-Context Learning Prompt Selection

提出RH-Partial2Global方法,首次用Spearman秩相关检验证明VICL中"相似性优先假设"虽统计显著但相关强度极弱(\(\bar{\rho} \approx 0.03\text{-}0.05\)),通过Jackknife共形预测构建可靠候选集+覆盖设计实现全面均匀的成对偏好采样,在分割/检测/着色三个视觉任务上一致超越SOTA。

TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Structural Relationships

提出 TRIDENT 三模态分子表示学习框架,引入层次分类标注(HTA)作为第三模态,结合体积对比损失做全局三模态对齐和功能团-文本局部对齐,通过动量机制动态平衡两者,在 18 个分子属性预测任务上达到 SOTA。

Uncertainty-Guided Model Selection for Tabular Foundation Models in Biomolecule Efficacy Prediction

本文提出OligoICP方法,利用TabPFN模型的预测分位数间距(IQR)作为无标签模型选择启发式指标,在siRNA敲低效率预测中实现了优于专用SOTA模型和朴素集成的性能。

Understanding Ice Crystal Habit Diversity with Self-Supervised Learning

本文首次将自监督学习(SSL)应用于冰晶图像的潜在表征学习,通过在大规模云粒子图像上预训练ViT,学习冰晶形态的连续潜在表征,并用vMF浓度参数量化冰晶多样性,实现30倍计算效率提升的同时取得最佳分类准确率84.39%。

You Can Trust Your Clustering Model: A Parameter-free Self-Boosting Plug-in for Deep Clustering

提出 DCBoost,一个无需额外超参数的即插即用模块,通过自适应 k-NN 筛选高置信样本并利用可靠的局部结构信息引导全局特征空间优化,显著提升现有深度聚类模型的性能。


⚡ LLM 效率

3-Model Speculative Decoding (PyramidSD)

在标准的draft-target两模型推测解码的中间插入一个"qualifier"模型,构成三层金字塔式解码架构(PyramidSD),利用模型家族天然的熵梯度来分级过滤token,以模糊接受准则放宽匹配阈值,实现最高1.91×的速度提升(在RTX 4090上达到124 tok/s)。

A Unified Framework for Establishing the Universal Approximation of Transformer-Type Architectures

建立了统一的理论框架证明各类Transformer架构的万能逼近性(UAP),核心条件仅两个——前馈层的非线性仿射不变性和注意力层的token可区分性——并利用解析性假设将后者简化为仅需检验两样本情况,成功覆盖softmax、RBF kernel、Performer、BigBird、Linformer等多种实用架构。

Advancing Expert Specialization for Better MoE

通过正交性损失(减少专家间投影重叠)和方差损失(增大路由分数差异)双目标优化,在不修改 MoE 架构的前提下将专家重叠减少 45%、路由方差提升 150%,11 个基准任务平均提升 23.79%,同时完全保持负载均衡。

Approximately Aligned Decoding

提出 Approximately Aligned Decoding (AprAD),一种利用投机解码(speculative decoding)中的前缀选择算法来实现LLM受约束生成的方法——在遇到约束违反时,既不像约束生成那样仅回退一步(导致极端概率放大),也不像ASAp那样完全重新采样(计算成本过高),而是通过投机采样智能选择回退位置,在输出分布失真和计算效率之间取得良好平衡。

Constant Bit-Size Transformers Are Turing Complete

首次证明常数 bit 精度、固定参数数量的 Transformer(仅允许上下文窗口增长)是图灵完备的,并建立了精确的复杂度等价关系 WINDOW[s(n)] = SPACE[s(n)],表明扩展上下文窗口——而非模型尺寸——已足以实现通用计算。

Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training

提出 branched training 方法直接实证测量临界 batch size (CBS),发现 CBS 在训练早期快速增长后趋于平稳且不依赖模型规模,据此设计 batch size warmup 策略以 43% 更少的梯度步数达到同等甚至更优的训练 loss。

DISC: Dynamic Decomposition Improves LLM Inference Scaling

DISC 提出了一种动态分解算法,在推理时根据每一步的 z-score(采样奖励的标准化最大值)自动、递归地调整推理步骤的粒度——困难步骤分更细、简单步骤一步跨过——可以即插即用地与贪心搜索、Beam Search、MCTS 结合,在 APPS、MATH、LiveCodeBench 上以更少的 token 预算达到更高的 pass@k。

Dynamics of Spontaneous Topic Changes in Next Token Prediction with Self-Attention

从理论和实验两方面研究自注意力模型中"自发主题切换"的动力学机制,证明在单层 self-attention 模型中:(1) 混合主题训练保持原主题的 token 优先级顺序;(2) 主题切换仅在低优先级 token 数量超过高优先级 token 时发生;(3) 更长输入和更模糊主题不会增加切换概率——与人类认知相反。

Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving

提出首个无需训练的在线 LLM 路由算法 PORT,通过近似最近邻搜索估计查询特征,并在少量初始查询上一次性优化对偶变量作为路由权重,在有限 token 预算下实现接近离线最优 (\(1-o(1)\) 竞争比) 的路由性能,平均较基线提升 3.55× 性能、1.85× 成本效率和 4.25× 吞吐量。

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers

通过严格的理论分析证明了预训练数据的多样性(由"max-sum ratio"刻画)决定了单层Transformer学到的是可泛化的induction head还是无法OOD泛化的位置捷径,并给出了使模型学会induction head的最优预训练分布。

Hardware-aligned Hierarchical Sparse Attention for Efficient Long-term Memory Access

提出层次化稀疏注意力(HSA)及 RAMba 架构,通过两阶段 token-to-chunk 相关性学习与硬件对齐 kernel 设计,让 Mamba 获得高效长程随机访问能力,仅在 4K 上下文预训练即可在 64M passkey retrieval 上达到 100% 准确率。

Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

提出层次均衡打包(HBP)方法,通过多级打包分组、均衡批处理、自适应序列并行和稳定损失归一化,解决长短上下文混合 SFT 中的注意力计算不均衡和通信浪费问题,在 DeepSeek-V2 (236B) 上实现 2.4× 训练加速且性能无损。

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

NVIDIA 提出 PostNAS 流水线——从预训练全注意力模型出发,冻结 MLP 权重,通过四步搜索(全注意力层放置→线性注意力块选择→新注意力块 JetBlock 设计→硬件感知超参搜索)得到混合架构 Jet-Nemotron,2B 模型在 MMLU-Pro 上超越 Qwen3-1.7B 同时生成吞吐提升 47×。

L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models

L-MTP 在多token预测(MTP)基础上引入跳跃机制,预测非相邻位置的token(如位置1,3,5,7而非1,2,3,4),通过"后向查找"解码策略复用先前预测填补空隙,在3B-12B模型上实现22%推理加速的同时保持或提升任务性能。

Let the Experts Speak: Improving Survival Prediction & Calibration via Mixture-of-Experts Heads

提出三种离散时间深度混合专家(MoE)生存分析架构,其中 Personalized MoE 通过让每个专家为每位患者生成定制化事件分布,同时实现出色的聚类、校准和预测精度。

Linear Attention for Efficient Bidirectional Sequence Modeling

提出 Lion 框架,首次系统地将线性 Transformer 扩展到双向序列建模,统一了全线性注意力、双向 RNN 和分块并行三种等价表示,在图像分类和 MLM 任务上训练速度比 SSM 快达 10 倍且性能可比 softmax Transformer。

Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs

提出动态分层稀疏注意力 (DHSA),通过自适应 chunk 分割 + chunk 级相似度预测 + 上采样到 token 级的分层框架,在不重训基座模型的前提下将密集注意力替换为稀疏注意力,在 Gemma2/3 上实现与密集注意力同等精度、20-60% prefill 延迟降低和 35% 峰值内存节省。

LooGLE v2: Are LLMs Ready for Real World Long Dependency Challenges?

构建覆盖法律/金融/游戏/代码四大真实领域、长度16K-2M token的长依赖推理基准LooGLE v2,设计10类领域特定任务共1,934个QA实例,评估10个LLM发现最强模型GPT-4.1仅59.2%,揭示当前LLM在真实长依赖场景下的根本不足。

MoESD: 揭示投机解码加速稀疏MoE的潜力

挑战"投机解码对MoE无效"的传统认知,理论与实验证明在中等batch size下MoE反而比稠密模型更受益于投机解码,提出target efficiency这一系统级指标来量化加速瓶颈,并构建了可靠的性能预测模型,在Qwen2-57B-A14B上实现最高2.29×加速。

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

提出 Mozart 算法-硬件协同设计框架,通过专家聚类分配、细粒度流式调度和 3.5D 晶粒架构(NoP-Tree + 分层存储),在三个 MoE-LLM 上实现 1.9× 以上的训练加速。

OmniDraft: A Cross-Vocabulary Online Adaptive Drafter for On-Device Speculative Decoding

提出 OmniDraft 框架,通过在线 n-gram 缓存实现跨词表推测解码、混合蒸馏损失在线对齐草稿模型与目标模型、并结合自适应起草长度控制,使单个轻量 Llama-68M 模型可为 Vicuna-7B、Qwen2-7B、Llama3-8B 等不同目标模型提供推测解码加速(1.5-2x)。

On the Expressive Power of Mixture-of-Experts for Structured Complex Tasks

首次系统分析 MoE 在结构化复杂任务上的表达能力:证明浅层 MoE 可在低维流形上克服维度诅咒(近似速率由内在维度 \(d\) 而非环境维度 \(D\) 决定),深层 MoE 通过 \(E\) 专家 × \(L\) 层的分层组合可高效近似有 \(E^L\) 段的分段函数,远超朴素上界 \(LE\)

Scale-invariant Attention

借鉴自然图像的尺度不变性,提出对 attention logits 做位置相关的乘性缩放和加性偏移变换,使注意力在不同 token 范围上的总权重和稀疏度满足尺度不变性,从而实现从短序列训练到长序列推理的零样本泛化(4k→64k 仅需一个超参数 \(\tau\))。

Silent Tokens, Loud Effects: Padding in LLMs

系统性研究了padding token在未被正确掩码时对LLM的影响,发现即使少量padding也会漂移隐层表示、降低生成质量、不可预测地改变偏见,而128个padding token可将Llama-3.1-8B的有害提示攻击成功率从8%飙升到77.5%,本质上实现了jailbreak。

SkyLadder: Better and Faster Pretraining via Context Window Scheduling

通过上下文窗口短到长的渐进式调度策略 SkyLadder,在固定计算量下实现更优的预训练效率(节省 22% 训练时间)和更好的模型性能(+3.7%),反驳了"长上下文=好性能"的业界信念。

SPARTA Alignment: Collectively Aligning Multiple Language Models through Combat

让多个LLM组成"斯巴达部落"互相竞技和互评,通过声誉加权的判断聚合生成偏好对,再用DPO迭代训练所有模型,在12个任务中的10个上超越Self-Rewarding等自对齐基线,平均提升7%。

Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context

借鉴优化软件基准方法论,用性能比率精确量化ICL相对贝叶斯最优估计器的样本效率,发现存在"二分法"——少射下(≤15个演示)效率接近最优(仅多10%)而多射下(>40个演示)急剧恶化(多45%),信息论分析证明这源于不可消除的非递减过剩风险,是ICL机制的内在限制。

Tensor Product Attention Is All You Need

通过上下文张量积分解将 Q/K/V 表示为低秩因子的加权和,将 KV 缓存压缩至 1/10~1/16,同时在验证损失和下游任务精度上超越标准 MHA/MQA/GQA/MLA。

The Emergence of Sparse Attention: Impact of Data Distribution and Benefits of Repetition

通过理论分析和受控实验研究 sparse attention 的涌现机制,揭示涌现时间遵循关于序列长度和维度的幂律关系 \(T_\epsilon \propto \sqrt{d} \cdot T\),并发现 in-context 和 cross-sample 两种数据重复策略都能加速涌现,为理解 LLM 能力涌现提供了统一的 sparse attention 视角。

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

提出 PokéAgent Challenge,一个基于宝可梦对战和RPG速通的双赛道大规模AI基准,通过NeurIPS 2025竞赛验证了专家RL方法远超通用LLM方法,并揭示宝可梦对战衡量的能力与现有49个LLM基准近乎正交。

Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels

提出 TFLA(Tiled Flash Linear Attention)算法,通过二层序列并行化和 tiling 优化,实现高效的线性 RNN/mLSTM 内核,相比 FlashAttention 3 和 Mamba 2 获得显著墙钟加速(训练 >2x vs Mamba 2),同时保持等价的模型精度。

UMoE: Unifying Attention and FFN with Shared Experts

通过重新表述多头注意力机制,揭示其与 FFN 共有的"两层矩阵乘法"结构,据此提出 UMoE 统一架构——在注意力和 FFN 层使用相同设计的专家并支持参数共享,在 Base(134M) 和 Large(1.1B) 模型上均优于现有 FFN-MoE 和 Attention-MoE 基线。

Unmasking COVID-19 Vulnerability in Nigeria: Mapping Risks Beyond Urban Hotspots

本文针对尼日利亚各州构建了一个综合 COVID-19 脆弱性风险评分体系,整合人口密度、贫困、医疗可及性和年龄风险四个维度,并通过 GIS 地图可视化热点区域,为公共卫生资源分配提供数据驱动的决策工具。

Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding

提出 Yggdrasil,一个延迟最优的推测解码系统,通过 Equal-Growth Tree (EGT) 结构实现编译友好的动态草稿、延迟感知优化目标替代传统 AAL 指标、以及阶段调度运行时减少 CPU-GPU 协调开销,在 A100/A40 上实现了最高 3.98× 的端到端加速。

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

通过移除 softmax 的零阶均匀项 \(1/t\),构建零和权重的线性注意力机制 ZeroS,突破凸组合只能做加法混合的限制,支持单层内的差分/对比操作,在保持 \(O(Nd^2)\) 线性复杂度的同时,在多个序列建模基准上匹配甚至超越标准 softmax 注意力。


🔍 信息检索/RAG

Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering

提出 MMDocRAG 基准(4055 个专家标注的 QA 对),系统评估了 60 个 VLM/LLM 和 14 个检索器在多模态文档检索增强生成中的引用选择和交错图文回答能力,揭示当前最强模型 GPT-4.1 的 Quote Selection F1 仅 70.2%,微调可显著提升性能。

Chain-of-Retrieval Augmented Generation (CoRAG)

提出 CoRAG 框架,通过拒绝采样自动生成中间检索链(子查询→子答案),微调 LLM 学习迭代检索和推理,并支持多种测试时解码策略(贪心 / Best-of-N / 树搜索)灵活扩展计算量,在多跳 QA 上 EM 提升 26+ 点,KILT 基准 9/10 任务达到 SOTA。

Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers

提出CoopRAG框架,通过问题展开、基于检索器层对比的重排、以及推理链补全,实现检索器与LLM的双向合作,在多跳QA上超越HippoRAG2 5.3%,单跳QA上提升35.2%。

Deep Research Brings Deeper Harm

揭示 Deep Research (DR) 智能体的严重安全隐患——即使底层 LLM 能正确拒绝有害请求,部署为 DR 智能体后仍能生成详细专业的危险报告;提出 Plan Injection 和 Intent Hijack 两种针对性越狱方法,以及 DeepREJECT 评估指标,在 6 个 LLM 上验证了 DR 智能体系统性地削弱了对齐机制。

DICE: Discrete Interpretable Comparative Evaluation with Probabilistic Scoring for RAG

提出 DICE 框架,通过两阶段评估(证据耦合深度分析 + 概率化 {A,B,Tie} 打分)和瑞士赛制锦标赛实现 RAG 系统的可解释、鲁棒、高效评估,在中文金融 QA 数据集上达到 85.7% 人类专家一致率,远超 RAGAS(45.7%)。

Generalized Contrastive Learning for Universal Multimodal Retrieval

提出 Generalized Contrastive Learning (GCL)——在 mini-batch 内对所有 6 种模态对组合(image↔text, image↔image+text, text↔image+text)执行对比学习,无需构建新的三元组数据集,仅用现有图文对即可在 M-BEIR 上将 VISTA 的平均检索精度从 21.18 提升到 34.06(+60.8%),在 MMEB 的 text→image+text 任务上从 10.1% 提升到 31.1%。

Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe

研究双编码器(Dual Encoder)在层次化检索(Hierarchical Retrieval)中的可行性,理论证明嵌入维度只需与层次深度线性、文档数对数增长即可求解,并发现"远距离丢失"现象后提出预训练-微调策略,在 WordNet 上将远距离召回率从 19% 提升至 76%。

HiFi-RAG: Hierarchical Content Filtering and Two-Pass Generation for Open-Domain RAG

通过分离轻量级 Flash 模型的过滤能力与 Pro 模型的推理能力,构建多阶段管道(查询优化→分层过滤→两阶段生成→引文验证),在 MMU-RAGent 竞赛中实现 SOTA 性能。

How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?

针对图基ANN索引缺乏统一数据删除评估方法的问题,形式化定义了逻辑删除、物理删除和重建三种基准方法,提出面向实际部署的评估框架和指标体系,并基于实验分析提出Deletion Control算法在精度约束下动态切换删除策略。

HyperGraphRAG: Retrieval-Augmented Generation via Hypergraph-Structured Knowledge Representation

提出 HyperGraphRAG,首个基于超图 (hypergraph) 结构的 RAG 方法,通过超边 (hyperedge) 建模 n 元关系(n≥2),克服了现有图谱 RAG 方法受限于二元关系的瓶颈,在医学、农业、计算机科学和法律等领域的问答任务中全面超越 StandardRAG 和 GraphRAG 系列方法。

Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards

提出 Con-RAG 框架,通过 Paraphrased Set GRPO (PS-GRPO) 在语义等价查询的多次生成之间计算组相似度奖励,训练 RAG 系统的生成器在释义输入下产生信息一致的输出,无需显式真实标签监督即可同时提升一致性和准确性。

Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs

系统研究表明纯 RL 训练(无需显式 PRM 监督)能隐式诱导出强大的过程判断能力,且现有 PRM 在 DeepSeek-R1/QwQ-32B 等强推理模型上甚至不如简单多数投票有效;提出 Self-PRM 让模型用自身的内部奖励信号重排输出,一致性地优于外部 PRM。

Learning Task-Agnostic Representations through Multi-Teacher Distillation

提出基于互信息最大化的任务无关多教师蒸馏框架,通过高斯核估计教师嵌入的条件分布来训练学生模型,使其在不依赖任何下游任务标签的情况下学到高信息密度的通用表示,在文本、视觉和分子建模三个领域均取得了同体量最优性能。

MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?

提出 MIR-Bench,首个大规模多样化的 many-shot 上下文推理基准,通过从编程题中自动生成输入输出对来测试 LLM 的模式识别能力,发现 LLM 在 many-shot 场景下存在注意力分散导致的性能饱和现象,且转导推理普遍优于归纳推理。

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

提出 MITRA,一个面向大型物理实验协作(如 CERN CMS)的本地化 RAG 系统,采用两层向量数据库架构(摘要库 + 全文库)和完全本地部署策略,在语义检索任务上显著优于传统关键词搜索(BM25),Precision@1 从 0.13 提升至 0.75。

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

提出 MuRating,一个可扩展的多语言数据选择框架:先通过配对比较聚合多个英文数据质量评分器,再借助翻译将质量信号迁移到 17 种语言,训练出语言无关的多语言质量评估模型,在 1.2B 和 7B 规模 LLM 预训练中取得了持续的性能提升。

RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering

提出 RAG-IGBench,一个专门评估基于检索增强生成的交错图文内容质量的 benchmark,设计了覆盖文本质量、图像质量和图文一致性三个维度的创新自动评估指标,并验证了与人类评估的高度相关性。

Reliable Decision Making via Calibration Oriented Retrieval Augmented Generation

提出 CalibRAG 框架,通过训练一个温度条件化的 forecasting function 来确保 RAG 辅助决策过程中的置信度校准,不仅改善校准质量还提升了准确率。

Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations

针对无线电法规这一法律敏感的高风险领域,设计了专用 RAG 管道并构建了首个 ITU 无线电法规多选题评估集,检索准确率达 97%,在 GPT-4o 上实现 +11.9% 的问答准确率提升,远超直接将文档塞入 prompt 的方式。

Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization

提出 AlignRAG 框架,将 RAG 重新定义为"检索增强推理",通过训练专用 Critic Language Model (CLM) 在测试时迭代批评和修正推理过程,解决推理与检索证据之间的错位问题,8B CLM 在 OOD 任务上超越 72B 标准 CLM。

RMIT-ADM+S at the MMU-RAG NeurIPS 2025 Competition

提出Routing-to-RAG (R2RAG)系统,通过LLM查询分类器将简单查询路由到单轮Vanilla RAG、复杂查询路由到迭代式Vanilla Agent,全部基于Qwen3-4B(未量化)和Qwen3-Reranker-0.6B两个轻量模型在单块消费级GPU上运行,获NeurIPS 2025 MMU-RAG竞赛开源赛道Best Dynamic Evaluation奖。

Scaling Language-Centric Omnimodal Representation Learning

提出 LCO-Emb 框架,发现多模态大模型(MLLM)在生成式预训练中已隐式建立跨模态对齐,仅需轻量级的纯文本对比学习微调即可激活全模态表示能力,并发现生成能力与表示性能正相关的 Generation-Representation Scaling Law (GRSL)。

SeCon-RAG: A Two-Stage Semantic Filtering and Conflict-Free Framework for Trustworthy RAG

提出 SeCon-RAG 两阶段防御框架,第一阶段用聚类+语义图联合过滤毒化文档,第二阶段在推理时做冲突感知过滤,在5个LLM和3个QA数据集上全面超越现有RAG防御方法,在100%投毒率下仍保持高准确率和极低攻击成功率。

SuperCLIP: CLIP with Simple Classification Supervision

在CLIP对比学习框架中引入一个超简单的分类损失(仅需添加一个轻量线性层,FLOPs增加仅0.077%),利用原始文本token的分类信号恢复CLIP未充分利用的细粒度文本监督,在零样本分类、图文检索和纯视觉任务上一致提升性能。

SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning

提出 SymRTLO,首个将LLM与符号推理集成的神经符号框架用于RTL代码优化,通过检索增强优化规则、AST模板引导代码生成和FSM符号系统,在功耗、性能和面积(PPA)上分别获得最高43.9%、62.5%和51.1%的提升。

The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models

通过系统性的可解释性分析发现,原生多模态VLM(Chameleon、Emu3)中图像到文本的跨模态信息传递集中于单一的end-of-image [EOI] token——形成"narrow gate"瓶颈,删除[EOI]的注意力导致性能崩溃;而非原生VLM(LLaVA等)的信息传递是分布式的。这一机制差异可被利用于语义操控和鲁棒性改进。

The Transparent Earth: A Multimodal Foundation Model for the Earth's Subsurface

提出Transparent Earth,一种基于Transformer的多模态基础模型,通过位置编码和文本衍生的模态嵌入融合8种异质地球物理观测数据,实现地球地下属性的零样本推断和上下文学习预测。

Think Straight, Stop Smart: Structured Reasoning for Efficient Multi-Hop RAG

提出 TSSS (Think Straight, Stop Smart) 框架,通过 (i) 基于模板的推理缓存重复前缀并锚定子查询到主问题,(ii) 基于检索器的确定性终止器在子查询重复时停止推理,在多跳 RAG 基准上实现 SOTA 准确率和竞争效率。

Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation

提出Windsock+DANCE双组件框架解决多模态RAG的三个核心问题:Windsock模块根据查询自适应决定何时检索检索什么模态(文本/图像/不检索),DANCE指令微调策略通过动态选择模型薄弱模态进行噪声鲁棒训练来提升如何利用检索信息的能力,整体性能提升17.07%同时减少8.95%检索次数。

Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals

提出 RAGuard 基准数据集,首次系统评估 RAG 系统对误导性检索内容的鲁棒性。通过从 Reddit 构建包含支持性、误导性和无关文档的真实检索语料库,揭示所有测试的 LLM-RAG 系统在面对误导性检索时表现比零样本基线更差,而人类标注者能保持一致判断。


🖼️ 图像恢复

Adaptive Discretization for Consistency Models

提出ADCM——通过将一致性模型的离散化步长形式化为局部一致性(可训练性)与全局一致性(稳定性)的约束优化问题,并用Gauss-Newton法求闭式解,实现自适应离散化,在CIFAR-10上用不到25%训练预算超越所有先前CM。

Audio Super-Resolution with Latent Bridge Models

提出 AudioLBM,将音频波形压缩到连续隐空间,用桥模型实现从低分辨率到高分辨率的 latent-to-latent 生成过程,配合频率感知训练扩展数据利用和级联设计突破 48kHz 上限,在语音/音效/音乐上全面超越 AudioSR 等方法,并首次实现 any-to-192kHz 音频超分。

DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration

提出 DenoiseRotator,在剪枝前通过可学习正交变换最小化参数重要性分数的信息熵,将重要性集中到少数参数上,使 LLaMA3-70B 在 2:4 半结构化稀疏下困惑度退化缩小 58%(8.1→3.4),可即插即用组合 Magnitude/Wanda/SparseGPT。

DynaGuide: Steering Diffusion Policies with Active Dynamic Guidance

提出 DynaGuide,在推理时通过外部潜在动力学模型对预训练扩散策略施加 classifier guidance,无需修改策略权重即可引导机器人朝向任意正/负目标,在 CALVIN 仿真上平均成功率 70%,真实机器人达 80%。

Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark

针对热红外(TIR)图像中低对比度、模糊、噪声等多种退化耦合的问题,提出基于双提示融合的渐进式网络PPFN和选择性渐进训练策略SPT,并构建首个大规模多场景TIR基准数据集HM-TIR,在复合退化场景下PSNR提升8.76%。

FIPER: Factorized Features for Robust Image Super-Resolution and Compression

提出 Factorized Features 统一表示——将图像分解为可学习的非均匀基与空间变化系数,配合锯齿坐标变换和多频调制,在 4× 超分辨率上 PSNR 相对提升 204.4%(HAT-L-F vs SwinIR),在图像压缩上 BD-rate 相比 VTM 降低 21.09%。

GC4NC: A Benchmark Framework for Graph Condensation on Node Classification with New Insights

提出 GC4NC——首个系统化的图凝缩(Graph Condensation)评估基准框架,跨 8 个维度(性能/效率/隐私保护/去噪/NAS有效性/可迁移性等)统一评估多种图凝缩方法,发现轨迹匹配方法最优、无结构方法效率最高,并在 1000x 压缩下图凝缩显著优于图像凝缩。

Implicit Augmentation from Distributional Symmetry in Turbulence Super-Resolution

本文揭示湍流的统计各向同性本身就是一种隐式数据增强,使得标准CNN在超分辨率任务中无需显式旋转增强或等变架构即可部分习得旋转等变性,并展示了等变误差的尺度依赖性与Kolmogorov局部各向同性假说一致。

Improving Diffusion-based Inverse Algorithms under Few-Step Constraint via Learnable Linear Extrapolation

提出 Learnable Linear Extrapolation (LLE)——用可学习的线性组合系数将当前和历史 clean data estimate 组合,以增强任何符合 Sampler-Corrector-Noiser 范式的扩散逆问题算法在少步(3-5步)下的表现,仅需 50 个样本、几分钟训练,跨 9+ 算法 × 5 个任务一致提升。

Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement

提出 Latent Harmony 两阶段框架,通过潜在空间正则化构建泛化性 VAE(LH-VAE),并引入高频引导的可控 LoRA 微调机制,在保持结构完整性的同时实现 UHD 图像多退化类型统一修复的保真度-感知质量灵活权衡。

Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement

提出 Latent Harmony 两阶段框架,通过潜在空间正则化构建退化鲁棒的 LH-VAE,再用高频引导的 LoRA 微调分别优化编码器(保真度)和解码器(感知质量),实现 UHD 全能图像复原中泛化-重建-感知三重权衡的统一解决方案。

Learning Cocoercive Conservative Denoisers via Helmholtz Decomposition for Poisson Inverse Problems

提出共循环保守(CoCo)去噪器概念,通过广义Helmholtz分解设计新的训练策略——Hamiltonian正则化促进保守性 + 谱正则化促进共循环性——使去噪器成为隐式弱凸先验的近端算子,从而在Poisson逆问题(光子受限去卷积、低剂量CT等)中实现有收敛保证且性能优越的PnP方法。

Luminance-Aware Statistical Quantization: Unsupervised Hierarchical Learning for Illumination Enhancement

提出 LASQ 框架,将低光图像增强重新定义为基于分层亮度分布的统计采样过程,利用自然亮度转换中固有的幂律分布特性,通过 MCMC 采样生成层次化亮度适配算子,嵌入扩散模型前向过程实现无监督增强,无需正常光照参考即可工作。

MAP Estimation with Denoisers: Convergence Rates and Guarantees

证明了一个简单的 MMSE 去噪器迭代平均算法(与 Cold Diffusion 等实践方法密切相关)在对数凹先验假设下可证明收敛到负对数先验的近端算子,收敛速率为 Õ(1/k),为一类经验上成功但缺乏理论保证的去噪方法提供了严格的理论基础,并将其嵌入近端梯度下降框架解决 MAP 估计问题。

MoDEM: A Morton-Order Degradation Estimation Mechanism for Adverse Weather Image Restoration

提出 MODEM 框架,通过 Morton 编码空间扫描与选择性状态空间模型(SSM)结合,建模空间异质性天气退化特征,配合双重退化估计模块提供全局和局部先验,实现多种天气退化图像的统一自适应复原 SOTA。

MoE-Gyro: Self-Supervised Over-Range Reconstruction and Denoising for MEMS Gyroscopes

提出MoE-Gyro自监督专家混合框架,通过超量程重建专家(ORE,含高斯衰减注意力和物理信息约束)和降噪专家(DE,含双分支互补掩码和FFT引导增强)同时解决MEMS陀螺仪量程-噪声的根本权衡,将可测量范围从±450°/s扩展到±1500°/s,偏置不稳定性降低98.4%。

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization

首次系统分析扩散语言模型(DLM)推理短板的根因——去噪过程中token独立生成导致序列内/序列间相关性缺失,提出多奖励优化框架MRO,在test-time scaling、reject sampling和RL三种模式下均显著提升LLaDA-8B的推理性能,MATH500从34.4%提升至37.4%。

MS-BART: Unified Modeling of Mass Spectra and Molecules for Structure Elucidation

提出 MS-Bart,通过统一词表将分子指纹和分子结构(SELFIES)映射到共享的 token 空间,在 400 万指纹-分子对上进行多任务预训练,再通过实验谱微调和化学反馈对齐,实现从质谱到分子结构的高效生成。

Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start

提出双层强化学习框架(DRL),结合物理驱动的百万级合成天气数据集HFLS-Weather进行高质量冷启动训练,通过局部扰动驱动图像质量优化(PIQO)和全局元控制器多智能体协作,实现真实恶劣天气图像的自适应复原。

Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates

系统引入AND、OR、ADDER三种逻辑门来分解语言模型电路,揭示电路不完整性主要源于OR门的遗漏,提出结合noising和denoising干预的框架来完整恢复三种逻辑门,同时保证忠实度和完整性。

Rethinking Nighttime Image Deraining via Learnable Color Space Transformation

基于"夜间雨在YCbCr的Y通道(亮度)差异远大于RGB"的统计发现,提出可学习颜色空间转换器(CSC)在Y通道做去雨、隐式光照引导(IIG)编码夜间不均匀光照、以及光照感知的高质量数据集HQ-NightRain,三管齐下显著提升夜间去雨效果。

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

提出 SCAN 框架,通过分析 Monte Carlo 注释中的噪声分布,设计自去噪采样策略和鲁棒学习损失,仅用 1.5B 模型生成的 101K 样本训练的 PRM 即超越人工标注数据集 PRM800K 的效果。

scSplit: Bringing Severity Cognizance to Image Decomposition in Fluorescence Microscopy

提出 scSplit,通过引入混合比例感知的归一化模块(SCIN)和回归网络(Reg),使基于 InDI 的迭代图像分解方法能够感知荧光显微镜图像中两种结构叠加的严重程度,在5个公开数据集上统一解决图像分离和渗透去除两个任务。

Spend Wisely: Maximizing Post-Training Gains in Iterative Synthetic Data Bootstrapping

首次从理论上分析了迭代合成数据自举训练中的预算分配问题,证明恒定策略无法高概率收敛,而指数增长策略在最坏情况下优于多项式策略,并在图像去噪(DPM)和数学推理(LLM)实验中验证了该结论。

Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks

提出 SpikeSR,首个基于注意力脉冲神经网络(SNN)的遥感图像超分辨率框架,通过脉冲注意力块(SAB)结合混合维度注意力(HDA)和可变形相似度注意力(DSA),在 AID/DOTA/DIOR 上达到 SOTA 性能同时保持高计算效率。

The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model

利用统计物理的replica方法对噪声高斯混合数据上的超参优化多阶段自蒸馏进行严格理论分析,揭示硬伪标签的去噪效应是自蒸馏性能提升的主要驱动力,中等规模数据集获益最显著,并提出早停(限制蒸馏阶段数)和偏置参数固定两个实用改进策略,CIFAR-10+ResNet实验验证了理论预测。


🎁 推荐系统

ASAP: An Agentic Solution to Auto-Optimize Performance of Large-Scale LLM Training

ASAP 是一个多 Agent 系统(Coordinator + Analyzer + Proposal),自动化诊断大规模 LLM 分布式训练的瓶颈类型(计算/内存/通信)并提出 sharding 配置方案,在 3 个实验场景中均匹配人类专家方案,实现最高 2.58× 吞吐量提升。

Balancing Performance and Costs in Best Arm Identification

提出将最优臂识别(BAI)从固定预算/固定置信度框架重新定义为"误识别概率/简单遗憾 + 采样成本"的风险泛函最小化问题,推导出含相变现象的下界(差距过小时最优策略是直接猜),设计 DBCARE 算法在动态预算下达到对数因子内最优。

EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration

提出EMPATHIA多Agent框架,基于Kegan建构性发展理论,通过情感/文化/伦理三个专业化Agent的选择器-验证器协商评估难民安置建议,在6,359名难民的真实数据上达到87.4%收敛率和92.1%文化专家同意率。

Estimating Hitting Times Locally At Scale

提出两种局部(亚线性)算法估计图上的命中时间——基于相遇时间的 Algorithm 1 和基于谱截断的 Algorithm 3,无需全图访问仅通过以 \(u,v\) 为中心的短随机游走完成估计,在合成和真实图上相对误差 <1.4%,并证明了游走采样的最优样本复杂度下界。

FACE: A General Framework for Mapping Collaborative Filtering Embeddings into LLM Tokens

FACE 提出将协同过滤(CF)嵌入通过解纠缠投影 + 残差量化映射为 LLM 预训练 token(描述符),再用对比学习对齐语义,无需微调 LLM 即可实现 CF 嵌入的语义解读和推荐性能增强。

Inference-Time Reward Hacking in Large Language Models

本文从数学上证明了推理时对齐方法(如 BoN)在优化代理奖励时不可避免地会出现 reward hacking(真实奖励先升后降),提出了 Best-of-Poisson (BoP) 采样方法近似最优 KL-奖励折中分布,并设计了 HedgeTune 算法通过一维寻根找到最优推理时参数,在数学推理和人类偏好场景中有效缓解 reward hacking。

Measuring What Matters: Construct Validity in Large Language Model Benchmarks

本文由29位专家对445篇LLM benchmark论文进行系统性综述,从构念效度 (construct validity) 角度审视现有LLM评测基准在现象定义、任务设计、评分指标和结论声明方面的不足,并提出8条改进建议。

MMPB: It's Time for Multi-Modal Personalization

提出首个 VLM 个性化评测基准 MMPB,包含 111 个可个性化概念、10k+ 图文问答对和 15 种任务类型,评测了 23 个 VLM 后发现即使最强的 GPT-4o 在个性化任务上也表现不佳,揭示了 VLM 在偏好推理、视觉线索利用和安全对齐与个性化的冲突等方面的重大局限。

NeurIPS Should Lead Scientific Consensus on AI Policy

本文是一篇立场论文,主张 NeurIPS 应主动承担 AI 政策领域的科学共识形成角色,借鉴 IPCC(政府间气候变化专门委员会)在气候科学中的成功经验,填补当前 AI 政策领域共识机制的空白。

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

识别 Crosscoder 中 L1 损失引入的两类稀疏性伪影(Complete Shrinkage 将弱共享概念错误归零、Latent Decoupling 将共享概念拆分为虚假模型特定潜变量),提出 Latent Scaling 诊断方法和 BatchTopK Crosscoder 替代方案,显著提升 chat-tuning 概念发现的可靠性。

PAC-Bayes Bounds for Multivariate Linear Regression and Linear Autoencoders

本文将PAC-Bayes泛化界从单输出线性回归推广到多变量线性回归,并进一步适配到推荐系统中的线性自编码器(LAE),通过理论方法将计算复杂度从O(n⁴)降到O(n³),实验证明该界是紧的且与Recall@K、NDCG@K等实际指标高度相关。

Position: Towards Bidirectional Human-AI Alignment

本文提出双向人机对齐(Bidirectional Human-AI Alignment)框架,从系统综述400+篇论文出发,论证AI对齐不应仅是单向地"让AI对齐人类",还应包括"让人类适应AI"这一被严重忽视的方向,并识别了当前研究的关键缺口。

R²ec: Towards Large Recommender Models with Reasoning

提出R²ec,首个将推理能力内生地集成到推荐模型中的统一大推荐模型,通过双头架构实现推理链生成与高效物品预测的一体化,并设计RecPO强化学习框架在无推理标注数据下联合优化推理与推荐目标。

Radial Neighborhood Smoothing Recommender System

提出 Radial Neighborhood Estimator (RNE),通过将隐空间距离用观测矩阵的行/列 L2 范数近似估计,构建同时包含重叠和部分重叠用户-物品对的径向邻域,用局部核回归做平滑插补,在理论保证和实验中均优于传统协同过滤和矩阵分解方法,并天然缓解冷启动问题。

Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation

提出SRA-CL框架,利用LLM的语义理解能力构建高质量对比样本对,通过语义检索+可学习样本合成器增强序列推荐的对比学习,以即插即用的方式在4个数据集上取得SOTA。

The Coming Crisis of Multi-Agent Misalignment: AI Alignment Must Be a Dynamic and Social Process

立场论文,主张多智能体系统(MAS)中的 AI 对齐应被视为动态的、依赖交互的社会过程,而非孤立问题;借鉴社会科学理论分析了社会结构如何破坏群体和个体价值,并呼吁 AI 社区建立专门的仿真环境、基准测试和评估框架来应对这一挑战。

The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems

本文系统性地识别了当前 AI 科学家系统的四种方法论陷阱(不当基准选择、数据泄漏、指标误用、事后选择偏差),通过精心设计的合成任务 SPR 对 Agent Laboratory 和 The AI Scientist v2 进行受控实验,发现两个系统均存在不同程度的问题,并证明审计 trace log + 代码比仅审查最终论文的检测准确率高 27 个百分点(82% vs 55%)。

Think before Recommendation: Autonomous Reasoning-enhanced Recommender

提出 RecZero(纯 RL 范式)和 RecOne(SFT+RL 混合范式),抛弃传统的 teacher-student 蒸馏方法,用 GRPO 强化学习直接训练单个 LLM 自主发展推理能力进行评分预测,通过结构化 "Think-before-Recommendation" 模板引导分步推理(分析用户→分析物品→匹配→评分),在 4 个数据集上显著超越现有基线。

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

提出 Transformer Copilot 框架,在 LLM 微调过程中系统记录"错误日志"(Mistake Log),训练一个辅助 Copilot 模型学习 Pilot 的错误模式,推理时通过 logits 修正提升生成质量,在 12 个基准上最高提升 34.5%。

TV-Rec: Time-Variant Convolutional Filter for Sequential Recommendation

提出 TV-Rec,基于图信号处理的时变卷积滤波器替代传统固定卷积和自注意力机制,实现更高表达力的序列推荐,在 6 个基准数据集上平均提升 7.49%。

Validating LLM-as-a-Judge Systems under Rating Indeterminacy

提出在评分不确定性 (rating indeterminacy) 条件下验证 LLM-as-a-Judge 系统的框架,通过 "response set" 多标签评分方案替代强制选择评分,使选出的 judge 系统性能提升高达 31%。

VisualLens: Personalization through Task-Agnostic Visual History

提出VisualLens框架,利用用户日常拍摄的与任务无关的视觉历史(task-agnostic visual history),通过频谱用户画像(spectrum user profile)和多模态大模型实现跨领域个性化推荐,在新建的Google Review-V和Yelp-V数据集上Hit@3超越GPT-4o 2-5%。

Who You Are Matters: Bridging Topics and Social Roles via LLM-Enhanced Logical Recommendation

提出 TagCF 框架,通过 MLLM 提取用户角色标签和物品话题标签,再用 LLM 推理构建 U2I/I2U 逻辑图(用户角色与物品类型的因果关联),辅以标签编码器、对比学习增强和逻辑推理评分三种集成策略增强推荐,在亿级用户的工业在线A/B测试中互动指标提升0.946%、多样性提升0.102%,离线实验NDCG@10提升8.06%。

Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints

提出 MAoP(Multiple Aspects of Planning)框架赋予 LLM "宽视野思维"能力,通过策略师预规划与路由机制并行整合多方面约束,配合 Travel-Sim 因果模拟评估基准,在旅行规划任务上大幅超越 CoT/分解方法,蒸馏后 3B 模型 PER 达 66.9%。


🧮 科学计算

A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees

提出一类基于当前与历史梯度构造的新型正则化器,结合带负曲率监测的共轭梯度法求解正则化Newton方程,在不需要Hessian Lipschitz常数先验知识的自适应框架下,首次同时实现了\(O(\epsilon^{-3/2})\)最优全局迭代复杂度和二次局部收敛速率。

Bayesian Surrogates for Risk-Aware Pre-Assessment of Aging Bridge Portfolios

提出基于贝叶斯神经网络(BNN)的代理模型,用于替代昂贵的非线性有限元分析(NLFEA),实现对老化桥梁组合的快速、不确定性感知的结构安全预评估,在真实铁路案例中为单座桥梁节省约37万美元。

Collapsing Taylor Mode Automatic Differentiation

提出 Taylor mode 自动微分的"折叠"(collapsing)优化技术,通过重写计算图将导数求和操作向上传播,大幅加速 PDE 算子(如 Laplacian、一般线性 PDE 算子)的计算,实现速度优于嵌套反向传播同时保持前向模式的低内存优势。

DeltaPhi: Physical States Residual Learning for Neural Operators in Data-Limited PDE Solving

提出 DeltaPhi 框架:不直接学习 PDE 的输入→输出映射,而是学习相似物理状态之间的残差,利用物理系统稳定性实现隐式数据增强,在数据稀缺场景下显著提升各类神经算子的性能。

EddyFormer: Accelerated Neural Simulations of Three-Dimensional Turbulence at Scale

提出 EddyFormer,一种基于谱元法 (SEM) 的 Transformer 架构,将流场分解为 LES(大尺度)和 SGS(小尺度)两路并行流,在 256³ 分辨率 3D 湍流上达到 DNS 级精度且加速 30 倍,并在未见的 4× 更大域上泛化良好。

Enforcing Governing Equation Constraints in Neural PDE Solvers via Training-free Projections

提出两种无需训练的后处理投影方法(非线性LBFGS优化和局部线性化投影),将神经PDE求解器的输出投影到满足控制方程约束的可行流形上,在Lorenz/KS/Navier-Stokes上大幅降低约束违反并提升精度,且效果显著优于physics-informed训练。

F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning

本文首次系统研究了科学机器学习中预训练大型算子模型(LOM)的参数高效微调(PEFT),发现 LoRA 在傅里叶层中存在深度放大的近似误差下界,而 Adapter 保留了通用逼近能力;据此提出频率自适应 Adapter(F-Adapter),按频谱能量分配 Adapter 容量,在 3D Navier-Stokes 预测任务上仅调参不到 2% 即达到 SOTA。

From Black Hole to Galaxy: Neural Operator Framework for Accretion and Feedback Dynamics

提出基于 Neural Operator 的「子网格黑洞」模型,学习小尺度 (GR)MHD 时间演化算子,替代手工闭合规则嵌入多层级直接数值模拟框架,首次实现吸积驱动反馈的内禀变异性捕获,加速比达 \(\sim 10^5\) 倍。

From Images to Physics: Probabilistic Inference of Galaxy Parameters and Emission Lines via VAE & Normalizing Flows

提出 VAE–Normalizing Flow 混合框架,从 SDSS gri 图像和测光数据出发,以概率方式联合推断星系物理参数(恒星质量、SFR、红移、气相金属丰度、中心黑洞质量)和发射线流量(Hα、Hβ、[N II]、[O III]),速度比 SED 拟合快 100 倍以上且提供校准良好的后验分布。

GyroSwin: 5D Surrogates for Gyrokinetic Plasma Turbulence Simulations

首次提出可扩展的5D神经网络代理模型 GyroSwin,将 Swin Transformer 扩展至5维回旋动力学相空间,通过交叉注意力实现3D↔5D交互、通道式模态分离捕获带状流,在等离子体湍流模拟中实现比传统准线性方法更高的精度,且比数值求解器(GKW)快3个数量级。

Hamiltonian Neural PDE Solvers through Functional Approximation

基于 Riesz 表示定理,用可学习核积分(Integral Kernel Functional)近似无限维 Hamiltonian 泛函,通过自动微分获取泛函导数,实现保能量的神经 PDE 求解器(HNS),在 1D/2D PDE 上展现出优越的稳定性和泛化能力。

INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers

提出间接神经校正器(INC),将学习到的校正项嵌入PDE的右端项(而非直接修改状态),理论证明误差放大降低\(\mathcal{O}(\Delta t^{-1}+L)\)倍,在6个PDE系统(1D混沌到3D湍流)上大幅改善长期轨迹性能(R²提升达158.7%),实现最高330×加速。

Integration Matters for Learning PDEs with Backward SDEs

揭示了标准 BSDE 方法性能不如 PINNs 的根本原因是 Euler-Maruyama 积分引入的不可消除离散化偏差,提出基于 Stratonovich 形式的 Heun-BSDE 方法彻底消除该偏差,在高维 PDE 上与 PINNs 竞争。

Multi-Trajectory Physics-Informed Neural Networks for HJB Equations with Hard-Zero Terminal Inventory: Optimal Execution on Synthetic & SPY Data

针对最优交易执行中 HJB 方程的硬零终端库存约束(\(X_T=0\)),提出 Multi-Trajectory PINN (MT-PINN),通过基于轨迹展开的终端损失与 \(\lambda\)-curriculum 训练策略,在合成数据和 SPY 实盘回测中显著优于 vanilla PINN,终端库存违规率大幅降低。

Neural Emulator Superiority: When Machine Learning for PDEs Surpasses its Training Data

挑战了"神经 PDE 模拟器精度受限于训练数据(数值求解器)精度"的传统认知,发现并严格定义了 emulator superiority 现象——仅在低精度求解器数据上训练的神经网络,在以高精度参考解评估时竟能超越其训练求解器本身。

Neuro-Spectral Architectures for Causal Physics-Informed Networks

NeuSA 将经典谱方法与 Neural ODE 结合,先将 PDE 投影到谱基(Fourier)上得到 ODE 系统,再用 NODE 学习动力学演化,从架构层面解决了传统 PINN 的谱偏差和因果性问题,在波动方程/Burgers方程/sine-Gordon方程上误差比 baseline 低 1-2 个数量级且训练更快。

From Images to Physics: Probabilistic Inference of Galaxy Parameters and Emission Lines via VAE–Normalizing Flows

提出 VAE–Normalizing Flow 两阶段概率推断框架,仅从 SDSS 星系图像和测光数据即可快速推断恒星质量、SFR、红移、黑洞质量、金属丰度及发射线通量,精度超越现有非光谱方法且比 SED 拟合快 100 倍以上。

One-Shot Transfer Learning for Nonlinear PDEs with Perturbative PINNs

将微扰理论与 PINNs 结合,将非线性PDE分解为线性子问题序列,用 Multi-Head PINN 学习线性算子的潜空间后,对新的PDE实例可通过闭式解在0.2秒内完成迁移,达到 \(10^{-3}\) 量级误差。

Physics-Guided Machine Learning for Uncertainty Quantification in Turbulence Models

提出混合 ML–EPM 框架:用轻量 CNN 学习从 RANS 湍流动能场到 DNS 真值的修正映射,以此调制特征空间扰动法(EPM)的扰动幅度,在保持物理一致性的前提下将湍流模型不确定性估计的误差降低 1–2 个数量级。

Physics-Informed Neural Networks with Fourier Features and Attention-Driven Decoding

提出 Spectral PINNsformer (S-Pformer),用 Fourier 特征嵌入替换 PINNsformer 的编码器,结合仅解码器 Transformer 架构,在减少 18.6% 参数量的同时在多个 PDE benchmark 上取得更优性能,有效缓解了频谱偏置问题。

Stable Minima of ReLU Neural Networks Suffer from the Curse of Dimensionality: The Neural Shattering Phenomenon

本文研究了两层过参数化 ReLU 网络中稳定极小值(flat minima)的泛化性质,证明虽然平坦性确实蕴含泛化,但其收敛速率随输入维度指数级恶化(即存在维度灾难),与不受维度灾难影响的低范数解(weight decay)形成指数级分离;并揭示了"neural shattering"现象作为高维失败的几何机制。

Symbolic Regression Is All You Need: From Simulations to Scaling Laws in Binary Neutron Star Mergers

利用符号回归(Symbolic Regression)从数值相对论模拟数据中自动发现双中子星并合后吸积盘质量的解析标定关系,所得紧凑表达式在预测精度、泛化能力和可解释性上全面超越文献中已有的经验拟合公式。

The Primacy of Magnitude in Low-Rank Adaptation

揭示 LoRA 中权重更新幅度(magnitude)是性能的根本驱动因素,统一了学习率、缩放因子和初始化策略对 LoRA 的影响机制,并提出 LoRAM——一种基于确定性正交基和幅度缩放的高效初始化方法,无需 SVD 即可匹敌甚至超越谱初始化方法。

Towards Universal Neural Operators through Multiphysics Pretraining

提出基于 adapter 的多物理场预训练框架,通过将 lifting/projection 层作为问题特定适配器、冻结共享的核积分算子层,实现跨 PDE 问题的迁移学习,显著降低微调成本并提升泛化能力。


🎬 视频生成

Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

本文提出 AAPT(Autoregressive Adversarial Post-Training),通过对抗训练将预训练视频扩散模型转化为自回归实时视频生成器,每帧仅需一次前向传播(1NFE),基于 student-forcing 训练减少误差累积,8B 模型在单张 H100 上实现 736×416 分辨率 24fps 实时流式生成,最长可达一分钟(1440帧)。

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

DisMo 通过双流架构(运动提取器 + 帧生成器)和图像空间重建目标,从原始视频中学习与外观、姿态、类别无关的抽象运动表征,实现跨类别/跨视角的开放世界运动迁移,并在零样本动作分类上大幅超越 V-JEPA 等视频表征模型。

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

提出Force Prompting,将物理力(局部点力和全局风力)作为视频生成模型的控制信号,仅用~15K合成训练视频(Blender旗帜和滚球)和单日4xA100训练,即可在多样真实场景图像上展现跨物体/材质/几何的惊人泛化,包括初步的质量理解能力。

Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation

提出 Foresight,一种训练无关的自适应层复用框架,通过在 warmup 阶段建立逐层 MSE 阈值、在 reuse 阶段按阈值动态决策每层是复用缓存还是重新计算,在 5 个视频生成模型上实现了比静态方法更高质量和更快速度的推理加速(最高 2.23×)。

LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation

提出 LeMiCa,一种免训练的扩散视频生成加速框架,将缓存调度建模为有向无环图上的字典序极小极大路径优化问题,通过全局误差控制实现速度和质量的双重提升(Latte 上 2.9× 加速,Open-Sora 上 LPIPS 低至 0.05)。

MagCache: Fast Video Generation with Magnitude-Aware Cache

发现视频扩散模型中相邻时间步残差输出的幅度比(magnitude ratio)遵循一条跨模型、跨 prompt 普遍成立的单调递减规律("统一幅度定律"),由此提出 MagCache:基于幅度比对跳步误差进行精确累积建模,自适应跳过冗余时间步并复用缓存,仅需 1 个样本校准,即可在 Open-Sora、CogVideoX、Wan 2.1、HunyuanVideo 等模型上实现 2.10–2.68× 加速,且在 LPIPS/SSIM/PSNR 三个指标上全面优于 TeaCache 等已有方法。

Photography Perspective Composition: Towards Aesthetic Perspective Recommendation

提出"摄影透视构图"(PPC) 新范式,超越传统裁剪方法,通过 3D 重建构建透视变换数据集 + Image-to-Video 生成推荐视角 + RLHF 对齐人类偏好 + PQA 模型评估透视质量。

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

PhysCtrl用扩散模型学习四种材料(弹性/沙/橡皮泥/刚体)的物理动力学分布,将动态表示为3D点轨迹,在55万合成动画上训练含时空注意力+物理约束的扩散模型,生成的轨迹驱动预训练视频模型实现力和材料参数可控的高保真物理视频生成。

PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis

提出 PoseCrafter,一种无需训练的极端位姿估计框架:通过混合视频生成(HVG,DynamiCrafter+ViewCrafter双阶段)合成高保真中间帧解决极小/无重叠图像对的位姿估计,配合特征匹配选择器(FMS)高效选取最有用的中间帧,在四个数据集上显著提升极端位姿估计精度。

Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation

Radial Attention 发现了视频扩散模型中注意力分数随时空距离指数衰减的"时空能量衰减"现象,据此设计了一种 O(n log n) 复杂度的静态稀疏注意力掩码,在 HunyuanVideo/Wan2.1 等模型上实现最高 3.7× 推理加速,并通过 LoRA 微调支持 4× 更长视频生成。

RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation

本文首次系统量化自动驾驶视频生成中的几何失真问题,提出 RLGF 框架通过层次化几何奖励(消失点-车道线-深度-占用)和潜空间滑动窗口优化策略,将 3D 目标检测 mAP 提升 12.7 个绝对百分点(25.75→31.42),大幅缩小合成数据与真实数据的性能差距。

S²Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

针对视频扩散 Transformer 的超长 token 序列导致的量化校准高方差和学习困难问题,提出 S²Q-VDiT 框架,利用 Hessian 感知的显著数据选择和注意力引导的稀疏 token 蒸馏两项技术,首次在 W4A6 设置下实现无损量化,带来 3.9× 模型压缩和 1.3× 推理加速。

Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

Safe-Sora 首次将图形水印(如logo图像)直接嵌入到视频生成管线中,通过分层粗到细自适应匹配将水印patch分配到视觉最相似的帧和区域,并设计3D小波变换增强Mamba架构实现时空融合,在视频质量(FVD 3.77 vs 次优154.35)和水印保真度上大幅超越所有基线。

Scaling RL to Long Videos

提出 LongVILA-R1 全栈框架,通过 104K 长视频推理数据集、两阶段 CoT-SFT + RL 训练管线、以及 MR-SP 多模态强化序列并行系统,将 VLM 的推理能力扩展到长视频(最高 8192 帧),在 VideoMME 上达到 65.1%/71.1%。

Seeing the Wind from a Falling Leaf

提出端到端可微逆图形学框架,通过联合建模物体几何/物理属性、力场表示和物理过程,从视频中反向传播恢复不可见的力场(如风场),并支持基于物理的视频生成和编辑。

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

提出 Self Forcing 训练范式,通过在训练时执行自回归自展开(self-rollout)并使用整体视频级分布匹配损失(DMD/SiD/GAN),消除了 Teacher Forcing 和 Diffusion Forcing 中训练-推理分布不匹配导致的暴露偏差问题,基于 Wan2.1-1.3B 实现了单 GPU 上 17 FPS 实时流式视频生成,同时质量匹敌甚至超越慢几十倍的双向扩散模型。

Stable Cinemetrics: Structured Taxonomy and Evaluation for Professional Video Generation

提出 SCINE(Stable Cinemetrics),首个面向专业视频制作的结构化评估框架,定义了 76 个细粒度电影控制节点的分层分类体系,配合大规模专业人员评估(80+ 影视从业者、20K+ 视频、248K 标注),揭示当前最强 T2V 模型在专业控制上的显著不足。

Training-Free Efficient Video Generation via Dynamic Token Carving

本文提出 Jenga,一种免训练的视频 DiT 推理加速方案,通过动态块注意力裁剪(基于 3D 空间填充曲线重排 token 后进行稀疏 KV block 选择)和渐进分辨率策略(从低分辨率逐步提升)正交结合,在 HunyuanVideo 上实现 8.83 倍加速且 VBench 仅下降 0.01%。

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

发现预训练视频扩散模型在高噪声去噪阶段天然学到了适合追踪的运动表示,提出 TED 框架融合运动和外观特征,在追踪外观相似物体时比现有自监督方法提升多达 10 个百分点。

Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models

对开源文本到视频 (T2V) 模型进行系统性延迟和能耗分析,建立了基于 FLOP 的计算分析模型预测 WAN2.1 的缩放规律(空间/时间维度二次缩放、去噪步数线性缩放),并在 7 个 T2V 模型上提供跨模型能耗基准。

VMDT: Decoding the Trustworthiness of Video Foundation Models

提出 VMDT(Video-Modal DecodingTrust),首个统一评估 T2V 和 V2T 视频基础模型在安全、幻觉、公平、隐私和对抗鲁棒性五个维度上可信度的基准平台,涵盖 7 个 T2V 和 19 个 V2T 模型的大规模评测,揭示了模型规模与可信度之间的复杂关系。

VORTA: Efficient Video Diffusion via Routing Sparse Attention

提出VORTA框架,通过桶化核心集注意力(建模长程依赖)和信号感知路由机制(自适应选择稀疏注意力分支),在不损失生成质量的前提下实现视频扩散Transformer端到端1.76×加速,并可与缓存和蒸馏方法叠加达到14.41×加速。

VSA: Faster Video Diffusion with Trainable Sparse Attention

提出 VSA (Video Sparse Attention),一种端到端可训练的硬件对齐稀疏注意力机制,通过粗粒度阶段(cube 池化预测关键 token)和细粒度阶段(在预测的块稀疏区域执行 token 级注意力)的层次化设计,在视频 DiT 的训练和推理中同时实现加速:从头预训练实现 2.53× 训练 FLOPs 减少且无质量损失,适配 Wan2.1-1.3B 实现注意力 6× 加速和端到端推理从 31s 降至 18s。


💻 代码智能

A Self-Improving Coding Agent

提出SICA(Self-Improving Coding Agent),一个能自主编辑自身代码库来提升性能的编程Agent——消除了meta-agent和target-agent的区分,通过迭代式自我改进在SWE-Bench Verified子集上从17%提升到53%。

A Stochastic Differential Equation Framework for Multi-Objective LLM Interactions

将 LLM 迭代交互中的多目标优化建模为 SDE(漂移-扩散过程),通过干扰矩阵量化目标间的耦合模式,通过特征值谱分析策略收敛行为,在代码生成(安全性、效率、功能性三目标)上验证了不同策略的收敛率(0.33-1.29)和可预测性(\(R^2\) 达 0.74)。

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

AstroVisBench 构建了首个评估 LLM 天文科学计算和可视化能力的代码基准——从 110 个 Jupyter Notebook 提取 864 个任务(处理+可视化),设计双重评估管线(执行式变量检查 + VLM-as-Judge 可视化评分,与专家 Spearman ρ=0.822),评测 8 个 SOTA 模型后发现 Gemini 2.5 Pro 最佳但无错误率仅 15.7%,FileNotFoundError 占 43% 错误。

VeriMaAS: Automated Multi-Agent Workflows for RTL Design

VeriMaAS 提出自动组合多 Agent 工作流的框架用于 RTL 代码生成,核心创新是将 HDL 工具的形式化验证反馈(Yosys 综合 + OpenSTA 时序分析)直接整合到工作流编排中,在 VeriThoughts 上 pass@1 提升 2-12%,且仅需数百样本做控制器调优,比全量微调训练数据少一个量级。

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

提出 CURE 框架,让同一个 LLM 同时扮演代码生成器和单元测试生成器两个角色,通过生成代码与生成测试的交叉执行构建成对奖励矩阵,用基于理论推导的奖励信号进行强化学习,在完全不需要 ground-truth 代码标注的情况下实现代码生成能力和单元测试生成能力的共同进化,在五个编程基准上大幅超过同规模的专用 Coder 模型。

CoRe: Benchmarking LLMs' Code Reasoning Capabilities through Static Analysis Tasks

提出 CoRe,一个包含 12,553 个人工验证任务实例的高质量 benchmark,通过数据依赖、控制依赖和信息流三类静态分析基础任务,直接评估 LLM 的代码语义推理能力,揭示模型在 trace 生成和源枚举等需要多步推理的任务上仍严重不足。

Embedding Alignment in Code Generation for Audio

提出双 MLP + InfoNCE 对比学习框架,将代码嵌入(distilroberta-base)和音频嵌入(wav2vec2)对齐到共享空间,使 LLM 代码生成流程无需编译执行即可从代码推断音乐相似性,CKA 从 0.090 提升至 0.590。

FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts

FlyLoRA 受飞蝇嗅觉回路启发,将 LoRA 的下投影矩阵 \(A\) 替换为冻结的稀疏随机投影,通过 top-\(k\) 激活值选择实现隐式 rank-wise MoE 路由,在消除路由参数的同时减少任务内干扰,并利用随机投影的近正交性天然支持多任务模型合并。

FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis

提出 FractalBench,一个通过分形图像程序合成诊断 MLLM 视觉-数学推理能力的 benchmark:12 种经典分形、610 张测试图、4 个 MLLM,揭示 76% 的代码能执行但仅 4% 视觉正确,暴露了模型在递归抽象能力上的根本缺陷。

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

提出一种受工业设计流程启发的CAD程序数据增强范式,通过向LLM提供参考曲面程序和设计流程描述来引导生成包含B-Spline有机形状的CAD程序,显著缩小了公开CAD数据集与工业级设计在几何复杂度上的差距。

Learning to Solve Complex Problems via Dataset Decomposition

提出Decomp方法,利用教师模型将复杂数学题按推理步骤递归分解为更简单的子问题,构建概念依赖图量化难度,再按从易到难的课程顺序训练学生模型——Qwen2.5-1.5B在MATH-500上达51.6%(超MuggleMath用147K数据的50.4%),Qwen3-4B在AIME2025仅用385样本达16.7%(超Qwen2.5-72B的15%)。

MaintainCoder: Maintainable Code Generation Under Dynamic Requirements

首次系统定义并解决 LLM 代码生成的可维护性问题,同时贡献基准和方法:MaintainBench 通过 4 种需求变化模式 + 动态指标评测代码在需求演化下的可维护性;MaintainCoder 将 Waterfall 模型、设计模式与 6 个专业化 Agent 结合,动态可维护性指标提升 60%+,且初始代码正确性也一并提高。

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

提出 MLR-Bench,一个包含 201 个开放式 ML 研究任务的综合基准,配套 MLR-Judge(LLM 评审框架)和 MLR-Agent(模块化研究代理),发现当前最先进的编码代理在约 80% 的情况下会生成伪造或未验证的实验结果,揭示了 AI 自动化科学研究的核心瓶颈。

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

提出 PIPS(Per-Instance Program Synthesis),通过实例级别的程序合成与结构化反馈迭代改进,结合置信度度量动态选择直接推理或程序合成,在30个基准上将调和平均准确率提升8.6%。

Preserving LLM Capabilities through Calibration Data Curation: From Analysis to Optimization

系统研究了校准数据的组成特性(序列长度/样本量/来源/格式)和领域对应关系对LLM压缩后能力保持的影响,发现激活空间中的代表性和多样性是数据质量的本质决定因素,并据此提出三阶段校准数据策展框架COLA。

Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward

系统研究如何利用用户编辑数据微调 LLM,将偏好、监督标签和代价三种反馈类型统一起来,并提出一种简单的集成方法,在不同用户分布下实现鲁棒适应。

Program Synthesis via Test-Time Transduction

提出 SYNTRA 框架,将程序合成重新定义为转导式学习——在测试时利用可见的 test inputs 和 LLM 的判断来迭代消除不一致的候选程序假设,通过 greedy maximin 算法最小化 LLM 查询次数,在 4 个 benchmark 上准确率提升最高达 196%。

QiMeng-SALV: Signal-Aware Learning for Verilog Code Generation

提出信号级感知学习方法 QiMeng-SALV,通过从部分错误的 Verilog 模块中提取信号级功能正确的代码片段作为 DPO 训练的奖励信号,将优化粒度从模块级提升到信号级,在 VerilogEval 和 RTLLM 上达到 SOTA。

Searching Latent Program Spaces

提出 Latent Program Network(LPN),通过编码器将输入-输出示例映射为潜在程序表示,在测试时通过梯度搜索潜在空间来适应新任务,在 ARC-AGI 基准上显著优于 in-context learning 和 test-time training 方法。

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

构建全自动化流水线从 GitHub 持续挖掘真实软件工程交互任务,生成 21,000+ 可执行 Python 任务的 SWE-rebench 数据集和去污染 benchmark,揭示部分模型在 SWE-bench Verified 上的性能存在污染膨胀问题(如 DeepSeek-V3 在 SWE-bench 上 39.7% vs SWE-rebench 上 21.3%)。

Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models

提出VSGRPO——基于GRPO的双奖励强化学习策略,联合优化结构级奖励(TEDS-Structure)和视觉保真度奖励(CW-SSIM渲染图比较),使微调后的MLLM(仅3B参数)在表格图像到LaTeX代码生成任务上超越GPT-4o和72B+规模模型,尤其在复杂表格上提升显著。

Text-to-Code Generation for Modular Building Layouts in Building Information Modeling

提出 Text2MBL 框架,将自然语言描述转化为可执行的 BIM 代码(而非坐标序列),通过面向对象的代码架构和 LLM 微调实现模块化建筑布局的自动生成,在几何一致性上比坐标驱动方法提升 10%+ IoU。


🔗 因果推理

A Principle of Targeted Intervention for Multi-Agent Reinforcement Learning

提出基于多智能体影响图(MAIDs)的目标干预范式(Targeted Intervention),通过仅对单个目标智能体施加预策略干预(Pre-Strategy Intervention, PSI),引导整个多智能体系统收敛到满足额外期望结果的优选Nash均衡,无需对所有智能体进行全局干预。

An Analysis of Causal Effect Estimation Using Outcome Invariant Data Augmentation

首次系统分析"结果不变数据增强"(outcome invariant DA)在因果效应估计中的作用,证明当 DA 操作保持结果变量的不变性时等价于对处理变量的软干预,可减少混杂偏差;进一步提出 IV-like(IVL)回归框架,将 DA 参数用作"类工具变量",通过对抗性 DA 组合进一步降低偏差。

Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization

提出 Bi-DFCL,通过双层优化框架联合利用观测数据和 RCT 实验数据来训练营销资源分配模型:上层用 RCT 数据的无偏决策损失端到端训练 Bridge Network 来动态纠正下层在观测数据上的偏差,同时设计了基于原始问题的可微代理决策损失(PPL/PIFD)和隐式微分算法,解决了传统两阶段方法的预测-决策不一致和偏差-方差困境。已在美团大规模在线部署。

Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features

CAPE 通过从表格数据中学习特征间的因果DAG结构,将其嵌入双曲空间生成因果感知的旋转位置编码(RoPE),使 Transformer 能处理非序列但因果相关的特征数据,在多组学数据的下游任务上显著提升性能。

Conformal Prediction for Causal Effects of Continuous Treatments

首次为连续处理变量(如药物剂量)的因果效应构建共形预测区间,通过倾向性偏移参数化和分位数回归,在已知/未知倾向性两种场景下均提供有限样本 \(1-\alpha\) 覆盖保证。

Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models

提出COUPLE框架,通过构建结构因果模型(SCM)建模多维价值观的依赖关系与优先级,并利用反事实推理实现LLM对任意细粒度多元价值目标的可控对齐。

Cyclic Counterfactuals under Shift–Scale Interventions

本文在循环(非DAG)结构因果模型中建立了shift-scale软干预下反事实推理的理论框架,证明了全局收缩条件保证循环SCM的唯一可解性,并推导出反事实分布的sub-Gaussian集中不等式。

Demystifying Spectral Feature Learning for Instrumental Variable Regression

为基于谱特征的非参数工具变量(NPIV)回归建立严格的泛化误差界,揭示性能由结构函数与条件期望算子的谱对齐(近似误差)和奇异值衰减速度(估计误差)两因素共同决定,提出 Good-Bad-Ugly 三分类法并设计数据驱动诊断工具。

Differentiable Structure Learning and Causal Discovery for General Binary Data

提出基于多元伯努利分布(MVB)的通用可微结构学习框架,不假设特定数据生成过程,能捕获二值离散变量间的任意高阶依赖关系,并证明在一般设定下DAG不可识别但可恢复最小等价类(Markov等价类)。

Do-PFN: In-Context Learning for Causal Effect Estimation

提出 Do-PFN,将 Prior-data Fitted Networks (PFN) 扩展到因果效应估计,在大量合成 SCM 数据上预训练 Transformer 进行 in-context 因果推理,仅需观测数据即可预测干预分布(CID)和 CATE,无需因果图知识或不混杂假设,在合成和半合成实验中表现出色。

Domain-Adapted Granger Causality for Real-Time Cross-Slice Attack Attribution in 6G Networks

提出一种面向6G网络切片的域适应Granger因果框架,将增强型Granger因果检验与网络资源争用建模相结合,实现实时跨切片攻击归因,在1100个攻击场景上达到89.2%准确率和87ms响应时间,显著超越现有统计、深度学习和因果发现方法。

Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations

提出 CoD(Counterfactual-explanation-infused Distillation),通过将反事实解释注入少样本训练集来精确映射 teacher 决策边界,在 6 个数据集上仅用 8–512 样本即显著超越标准蒸馏方法。

From Black-box to Causal-box: Towards Building More Interpretable Models

提出"因果可解释性"(causal interpretability)的形式化定义,证明黑盒模型和概念瓶颈模型均不满足该性质,给出完整的图判据确定哪些模型架构能一致地回答反事实问题,揭示了因果可解释性与预测精度之间的根本性权衡。

GST-UNet: A Neural Framework for Spatiotemporal Causal Inference with Time-Varying Confounding

提出 GST-UNet,将 U-Net 时空编码器与迭代 G-computation 相结合,从单条时空观测轨迹中估计位置特异性的条件平均潜在结果 (CAPO),可同时处理干扰(interference)、空间混杂、时间延续和时变混杂,并在加州山火烟雾对呼吸系统住院率的因果分析中验证了实用价值。

It's Hard to Be Normal: The Impact of Noise on Structure-agnostic Estimation

证明 Double Machine Learning (DML) 在高斯处理噪声下是极小极大最优的(\(O(\epsilon^2 + n^{-1/2})\)),但在非高斯噪声下变得次优;提出 Agnostic Cumulant-based Estimation (ACE) 利用高阶累积量达到 \(r\) 阶不敏感性 \(O(\epsilon^r + n^{-1/2})\)

LLM Interpretability with Identifiable Temporal-Instantaneous Representation

本文提出了一种面向 LLM 高维激活空间的可辨识时序因果表示学习框架,通过线性化公式同时建模时间延迟和瞬时因果关系,在保留理论可辨识性保证的同时解决了现有 CRL 方法无法扩展到 LLM 维度的计算瓶颈。

Performative Validity of Recourse Explanations

本文形式化分析了追索权解释(recourse explanations)的"表演性"效应——当大量被拒申请者按照追索建议行动时,集体行为会引发数据分布偏移并使模型更新后追索失效,并证明了只有基于因果变量的改进型追索(ICR)才能在广泛条件下保持"表演性有效性"。

Practical do-Shapley Explanations with Estimand-Agnostic Causal Inference

提出 Estimand-Agnostic(EA)方法和 Frontier-Reducibility Algorithm(FRA)来高效计算因果 Shapley 值(do-SV),通过训练单个 SCM 学习观测分布即可回答任意可辨识的因果查询,并通过联盟约减将计算量降低约 90%。

Revealing Multimodal Causality with Large Language Models

提出 MLLM-CD 框架,首次实现从多模态非结构化数据(文本+图像)中进行因果发现,通过对比因子发现识别因果变量、统计方法推断因果结构、迭代多模态反事实推理消除结构歧义。

Root Cause Analysis of Outliers with Missing Structural Knowledge

提出仅用边际异常分数即可做根因分析的两个简单高效算法——已知因果图时用 SMOOTH TRAVERSAL(沿因果路径找分数跳变最大的节点),未知因果图时用 SCORE ORDERING(按分数排序取 top-k),在 polytree 结构下给出非参数概率保证,仅需单个异常样本即可工作。

Transferring Causal Effects using Proxies

提出基于代理变量(proxy)的多域因果效应迁移方法,在目标域仅观测到代理变量 W 的条件下,利用多源域数据识别并估计目标域中含未观测混淆因子的干预分布,给出两种一致性估计器及渐近置信区间。


⚛️ 物理学

AstroCo: Self-Supervised Conformer-Style Transformers for Light-Curve Embeddings

提出 AstroCo,一种将 Conformer(注意力 + 深度可分离卷积 + 门控)引入天文不规则光变曲线的自监督编码器,在 MACHO 数据集上重建误差比 Astromer v1/v2 降低 61-70%,少样本分类 macro-F1 提升约 7%。

Dynamic Diffusion Schrödinger Bridge in Astrophysical Observational Inversions

提出 Astro-DSB,一种基于 Diffusion Schrödinger Bridge 的天文物理反问题建模方法,直接学习观测量到真实物理分布的概率映射,训练成本仅为条件 DDPM 的 25%,且在分布外(OOD)测试中展现出显著的泛化优势,并成功应用于 Taurus B213 真实观测数据。

Exoplanet Formation Inference Using Conditional Invertible Neural Networks

用条件可逆神经网络(cINN)训练于15,777颗合成行星数据,从观测量(行星质量、轨道距离)快速推断行星形成参数(盘质量、湍流α、尘气比),实现比物理模型快~10⁶倍的概率性参数回溯,并证明多行星系统数据比单行星数据更鲁棒。

FAIR Universe HiggsML Uncertainty Dataset and Competition

提供2.8亿模拟LHC碰撞事件的标准化数据集和竞赛平台,包含6种参数化系统偏差(探测器校准+背景成分)及不对称覆盖惩罚评估指标,要求参赛者为Higgs信号强度\(\mu\)估计鲁棒的68.27%置信区间,优胜方案通过无聚焦替代建模实现比传统binned方法窄约20%的置信区间。

FEAT: Free Energy Estimators with Adaptive Transport

提出 FEAT 框架,利用随机插值学习两个热力学系统之间的传输映射,基于 escorted Jarzynski 等式和 controlled Crooks 定理提供一致、最小方差的自由能差估计器及变分上下界,统一了平衡与非平衡方法。

From Simulations to Surveys: Domain Adaptation for Galaxy Observations

构建从模拟星系(TNG50)到真实巡天观测(SDSS)的域适应 pipeline,通过特征级对齐(欧几里得距离 + 最优传输 + top-\(k\) 软匹配损失)和可训练权重调度,将星系形态分类的目标域准确率从 46.8%(无适应)提升到 87.3%,Macro F1 从 0.298 提升到 0.626。

Knowledge is Overrated: A Zero-Knowledge ML and Cryptographic Hashing-Based Framework for Verifiable, Low Latency Inference at the LHC

提出PHAZE框架,利用密码学哈希(Rabin指纹)和零知识机器学习(zkML)实现LHC触发器级别的可验证早退出推理,理论延迟降至~152-253ns量级,同时内建异常检测能力。

Latent Representation Learning in Heavy-Ion Collisions with MaskPoint Transformer

将掩码点云 Transformer 自编码器引入重离子碰撞分析,通过自监督预训练+监督微调的两阶段范式,学习到比 PointNet 更强的非线性潜在表征(PC1 分布重叠从 2.42% 降至 0.27%),为 QGP 性质研究提供了通用特征学习框架。

Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology

将多模态掩码自编码器(MMAE)应用于星系图像(HSC-PDR2五波段)和光谱(DESI-DR1)的联合建模,构建134,533个星系的跨模态数据集GalaxiesML-Spectra,在75%掩码率下重建光谱主要发射线和图像形态,在光谱完全缺失时仅用图像实现 \(\sigma_{\text{NMAD}}=0.016\) 的红移预测,优于AstroCLIP且红移范围首次扩展到 \(z \sim 4\)

Neural Deprojection of Galaxy Stellar Mass Profiles

提出一种神经网络方法,将 Nuker 星系轮廓参数映射为可解析反投影的 Multi Gaussian Expansion (MGE) 分量,从而在无需光学成像的情况下实现星系恒星质量建模,并集成到可微分动力学建模管道 SuperMAGE 中,对超大质量黑洞 (SMBH) 质量进行贝叶斯推断。

POLARIS: A High-contrast Polarimetric Imaging Benchmark Dataset for Exoplanetary Disk Representation Learning

构建首个系外行星偏振成像ML基准数据集POLARIS(921张VLT/SPHERE/IRDIS偏振图像+75,910张预处理曝光),提出Diff-SimCLR框架(扩散模型增强对比学习),在参考星vs目标星分类任务上达到93%准确率,仅需<10%手动标注。

Quantum Doubly Stochastic Transformers

提出QDSFormer(量子双随机Transformer),用变分量子电路QontOT替代softmax生成双随机注意力矩阵,理论和实验证明量子电路生成的DSM更多样、更好保持信息,在多个小规模视觉识别任务上一致超越标准ViT和Sinkformer。

Simulation-Based Inference for Neutrino Interaction Model Parameter Tuning

首次将基于仿真的推断(SBI)应用于中微子相互作用模型参数调优,使用神经后验估计(NPE)从200K个GENIE模拟的58-bin直方图中学习4个物理参数的后验分布,在MicroBooNE Tune的mock数据上准确恢复了真实参数值。

The Pareto Frontier of Resilient Jet Tagging

系统评估LHC射流标记任务中多种架构(DNN/PFN/EFN/ParT)的AUC-鲁棒性权衡,揭示更复杂模型虽AUC更高但对蒙特卡洛模型依赖性更强,构建Pareto前沿并通过案例研究证明低鲁棒性分类器即使校准后仍在下游参数估计中产生偏差。

The Platonic Universe: Do Foundation Models See the Same Sky?

在天文学场景下验证柏拉图表征假说(PRH):使用JWST、HSC、Legacy Survey和DESI光谱数据,测量6种基础模型(ViT/ConvNeXt/DINOv2/IJEPA/AstroPT/Specformer)的表征对齐度,发现模态内和跨模态MKNN分数随模型规模一致增加(p=3.31×10⁻⁵),支持不同架构和模态向共享表征收敛的假说。

TITAN: A Trajectory-Informed Technique for Adaptive Parameter Freezing in Large-Scale VQE

提出TITAN框架,用深度学习模型预测VQE中的"冻结参数"(训练过程中始终不活跃的参数),在初始化阶段即冻结40-60%参数,实现最高3倍收敛加速和40-60%电路评估量减少,在30量子比特的分子系统上匹配或超越基线精度。

Toward Complete Merger Identification at Cosmic Noon with Deep Learning

在 IllustrisTNG50 模拟生成的模拟 HST CANDELS 图像上训练 ResNet18,首次证明深度学习可以在高红移 \(1<z<1.5\) 下成功识别包括小质量比合并(minor merger, \(\mu \geq 1/10\))和低质量星系(\(M_\star > 10^8 M_\odot\))在内的星系合并,总体准确率约 73%,并通过 Grad-CAM 和 UMAP 深入分析了模型行为。

Transfer Learning Beyond the Standard Model

研究从标准宇宙学模型(ΛCDM)预训练的神经网络能否迁移到超越标准模型的场景(大质量中微子、修改引力、原初非高斯性),发现dummy node架构可将模拟需求降低一个数量级,但当参数存在强物理简并(如σ₈-Mν)时会出现负迁移。

Unsupervised Discovery of High-Redshift Galaxy Populations with Variational Autoencoders

用变分自编码器(VAE)对 2743 条 JWST 高红移(\(z>4\))星系光谱进行无监督聚类,发现 12 个不同的天体物理类别,使已知的后星暴星系、Lyman-α 发射星系、极端发射线星系、Little Red Dots 等稀有种群数量翻倍。

Vision Transformers for Cosmological Fields: Application to Weak Lensing Mass Maps

首次将 Vision Transformers(ViT 和 Swin Transformer)应用于弱引力透镜收敛场的宇宙学参数(\(\Omega_m\)\(S_8\))约束,通过模拟推断框架系统比较了注意力架构与 CNN 的性能。


🧑 人体理解

BEDLAM2.0: Synthetic Humans and Cameras in Motion

BEDLAM2.0 在 BEDLAM 基础上全面升级——引入多样化相机运动(合成平移/追踪/环绕 + 手持/头戴设备捕捉)、更广体型覆盖(BMI 18-41)、strand-based 发型、鞋子、分级服装和更多3D环境,构建 27K+ 序列 / 8M+ 帧的合成数据集,仅用合成数据训练即可在世界坐标系人体运动估计上超越 SOTA。

ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts

提出 ConceptScope 框架,利用在视觉基础模型表征上训练的稀疏自编码器(SAE)自动发现和量化数据集中的视觉概念偏差,无需人工标注即可将概念分类为 target / context / bias 三类。

CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals

提出 CPEP 框架,通过对比学习将低质量 EMG 信号表征与高质量手部姿态表征对齐,使 EMG 编码器获得姿态感知能力,首次实现从 EMG 信号零样本识别未见手势,分布内手势分类提升 21%、未见手势分类提升 72%。

Cycle-Sync: Robust Global Camera Pose Estimation through Enhanced Cycle-Consistent Synchronization

提出 Cycle-Sync 全局相机位姿估计框架,通过将消息传递最小二乘 (MPLS) 扩展到相机位置估计、引入 Welsch 型鲁棒损失和环一致性加权,在无需 bundle adjustment 的情况下超越了包括完整 SfM pipeline(含 BA)在内的所有基线方法。

DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces

提出 DevFD——一种发展式 MoE 架构,用共享 Real-LoRA 建模真实人脸共性、正交 Fake-LoRA 序列逐步建模新伪造类型,并通过将正交梯度集成到正交损失中缓解灾难性遗忘,在持续学习人脸伪造检测中达到最高准确率和最低遗忘率。

Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge

FreeCure发现面部个性化模型的身份嵌入会覆盖但不破坏基础模型的prompt控制能力,据此提出无训练框架,通过Foundation-Aware Self-Attention(FASA)将基础模型的属性信息注入个性化生成过程,在保持身份保真度的同时大幅提升prompt一致性,可无缝集成到SD/SDXL/FLUX等主流模型。

HOI-Dyn: Learning Interaction Dynamics for Human-Object Motion Diffusion

将人体-物体交互(HOI)生成建模为 Driver-Responder 系统,通过轻量级 Transformer 交互动力学模型显式预测物体对人体动作的响应,利用残差动力学损失在训练时增强因果一致性,同时保持推理效率。

K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning

提出 K-DeCore 框架,通过知识解耦将结构化知识推理分为任务无关的 schema 过滤和任务特定的 query 构建两阶段,配合双视角记忆构建和结构引导的伪数据合成策略,在固定参数量下实现跨异构 SKR 任务的有效知识迁移。

Mechanistic Interpretability of RNNs Emulating Hidden Markov Models

训练vanilla RNN复现隐马尔可夫模型(HMM)的发射统计量,然后通过逆向工程揭示RNN利用噪声维持的轨道动力学、"kick neuron"电路和自致随机共振机制来实现离散随机状态转换的计算原理。

MOSPA: Human Motion Generation Driven by Spatial Audio

首次定义"空间音频驱动人体运动生成"这一新任务,构建包含 9+ 小时、27 种场景、12 名受试者的双耳音频-运动配对 SAM 数据集,提出 MOSPA 扩散模型在融合 MFCC/tempogram/RMS 等音频特征与声源位置及运动风格条件后,以 FID 7.98 大幅领先 EDGE(14.0)、POPDG(21.0)等音乐/舞蹈基线。

OmniGaze: Reward-inspired Generalizable Gaze Estimation in the Wild

提出OmniGaze,一个半监督3D注视估计框架,利用融合视觉嵌入、MLLM生成的语义注视描述和几何方向向量的奖励模型来评估伪标签质量,在140万无标签人脸数据上训练,在5个数据集的域内/跨域设置下达到SOTA,并在4个未见数据集上展示零样本泛化能力。

PandaPose: 3D Human Pose Lifting from a Single Image via Propagating 2D Pose Prior to 3D Anchor Space

提出 PandaPose,通过将 2D 姿态先验传播到 3D 锚点空间作为统一中间表示,结合自适应关节级 3D 锚点设置和关节级深度分布估计,实现对遮挡和 2D 姿态误差鲁棒的单帧 3D 人体姿态提升。

Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection

提出一种部位感知的自底向上群组推理框架,通过姿态引导的身体部位特征增强和基于相似度的个体关联来推断社交群组和细粒度交互,在 NVI 和 Café 数据集上达到新 SOTA。

RAPTR: Radar-Based 3D Pose Estimation Using Transformer

提出RAPTR,首个利用弱监督(3D BBox + 2D关键点标签)进行雷达3D人体姿态估计的Transformer框架,通过伪3D可变形注意力和结构化损失函数在两个室内数据集上大幅超过基线。

Some Optimizers are More Equal: Understanding the Role of Optimizers in Group Fairness

本文首次系统研究了优化算法选择对深度学习群体公平性的影响,通过随机微分方程(SDE)分析和两个新定理证明,自适应优化器(RMSProp/Adam)比SGD更容易收敛到公平的极小值点,特别是在数据严重不平衡时。

Switchable Token-Specific Codebook Quantization for Face Image Compression

提出可切换的token专属码本量化机制(STSCQ),通过图像级码本路由和token级码本分割的层次动态结构,在超低比特率下显著提升人脸图像的压缩重建质量和识别精度。

UnCLe: Towards Scalable Dynamic Causal Discovery in Non-Linear Temporal Systems

提出 UnCLe,一种基于 TCN 自编码器解耦和自回归依赖矩阵的可扩展动态因果发现方法,通过时序扰动后逐数据点预测误差增量推断时变因果关系,在静态和动态因果发现基准上均达到 SOTA。

VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

提出VASA-3D,通过将VASA-1的2D运动隐空间适配到3D高斯溅射表征,并利用VASA-1合成训练数据进行单图定制优化,实现了从单张肖像照到逼真音频驱动3D头部化身的实时生成(512×512, 75fps)。

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

提出 VimoRAG 框架,利用大规模野外视频数据库作为2D运动先验来增强3D运动生成,通过 Gemini-MVR 检索器和 McDPO 训练策略解决人体动作视频检索和错误传播两大瓶颈。


🎯 目标检测

Ascent Fails to Forget

本文从遗忘集与保留集之间的统计依赖出发,理论结合实验证明广泛使用的梯度上升/Descent-Ascent(DA)类机器遗忘方法在存在数据相关性时会系统性失败——在 logistic 回归中 DA 解甚至会比原始模型更远离 oracle,且在非凸设置下会将模型困在劣质局部最小值中。

Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent

提出一个自反思 agent 框架,通过迭代的假设生成-测试-验证-反思循环来自动检测视觉模型中的属性依赖(如 CLIP 识别 teacher 依赖教室背景、YOLOv8 检测行人依赖人行横道),在 130 个注入已知属性依赖的模型 benchmark 上显示自反思显著提升检测准确性。

BurstDeflicker: A Benchmark Dataset for Flicker Removal in Dynamic Scenes

提出首个面向多帧闪烁去除(MFFR)的大规模 benchmark 数据集 BurstDeflicker,包含基于 Retinex 的合成数据、真实静态数据和绿幕动态数据三个互补子集,系统解决了动态场景下闪烁-干净图像对难以获取的核心瓶颈。

CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection

针对大规模类别(>10K)目标检测中分类头的正梯度稀释和难负样本梯度稀释问题,提出 CQ-DINO:用可学习类别查询替代分类头,通过图像引导的 Top-K 类别选择将负空间缩小 100 倍,在 V3Det(13204 类)上超越前 SOTA 2.1% AP,同时保持 COCO 竞争力。

BurstDeflicker: A Benchmark Dataset for Flicker Removal in Dynamic Scenes

提出首个面向动态场景的多帧去闪烁(MFFR)基准数据集 BurstDeflicker,通过 Retinex 合成、真实静态采集与绿幕合成三种互补策略构建大规模训练/测试数据,显著提升闪烁去除模型在真实动态场景中的泛化能力。

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

DetectiumFire 构建了最大的多模态火灾理解数据集——14.5K 真实图像 + 2.5K 视频 + 8K 合成图像 + 12K RLHF 偏好对,低重复率(0.03 PHash vs D-Fire 0.15),配合 4 级严重性分类标准和详细场景描述,微调 YOLOv11m 达 mAP 43.74,微调 LLaMA-3.2-11B 火灾严重性分类 83.84%。

DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning

提出 DETree 框架,通过构建层次亲和树(HAT)建模不同人机协作文本生成过程之间的层次关系,并设计树结构对比损失(TSCL)对齐表示空间,在混合文本检测和 OOD 场景下取得了显著优势。

DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection

DitHub 将开放词汇目标检测的增量适配问题重新构造为"版本控制"问题——为每个类别训练独立的 LoRA 专家模块,通过 branch(分支)、fetch(检索)、merge(合并)三个原语管理不断扩展的模块库,在 ODinW-13 全量数据上以 62.19 mAP 超越 ZiRa 4.21 个点,同时保持 47.01 的零样本 COCO 性能。

FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies

提出 FlexEvent 框架,通过自适应事件-图像融合模块 FlexFuse 和频率自适应微调机制 FlexTune,实现事件相机在不同操作频率下的灵活目标检测,在 20Hz 到 180Hz 范围内保持鲁棒性能,显著超越现有方法。

Generalizable Insights for Graph Transformers in Theory and Practice

提出 Generalized-Distance Transformer (GDT),一种基于标准注意力(无需修改注意力机制)的图 Transformer 架构,理论证明其表达力等价于 GD-WL 算法,并通过覆盖 800 万图/2.7 亿 token 的大规模实验首次建立了 PE 表达力的细粒度经验层次,在 few-shot 迁移设置下无需微调即可超越 SOTA。

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

提出 InstanceAssemble,在 DiT-based T2I 模型(SD3 和 Flux)的 Transformer 块中注入"实例组装注意力"机制,通过将每个 bounding box 区域的 image token 独立与对应的 layout hidden state 做 cross-attention 来实现精确的实例级空间控制,同时以 LoRA 轻量适配方式保持与现有风格 LoRA 的兼容性,并提出包含 5K 图像/90K 实例的 DenseLayout 基准和多维度的 Layout Grounding Score(LGS)评估指标。

Delving into Cascaded Instability: A Lipschitz Continuity View on Image Restoration and Object Detection Synergy

从 Lipschitz 连续性视角分析图像复原与目标检测级联框架的不稳定性根源,发现两个网络在平滑性上存在量级差异,提出 LR-YOLO 通过将复原任务集成到检测backbone的特征学习中来正则化检测器的Lipschitz常数,在去雾和低光增强基准上持续提升检测稳定性。

MSTAR: Box-Free Multi-Query Scene Text Retrieval with Attention Recycling

提出 MSTAR,首个无需边界框标注的多查询场景文本检索方法,通过渐进式视觉嵌入(PVE)逐步将注意力从显著区域转移到不显著区域,结合风格感知指令和多实例匹配模块,实现了对单词、短语、组合和语义四种查询类型的统一检索,并构建了首个多查询文本检索基准 MQTR。

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

OverLayBench 构建了首个聚焦密集重叠场景的 Layout-to-Image 基准(4052 样本 + OverLayScore 难度指标),揭示 SOTA 方法在复杂重叠下 mIoU 从 71%→54% 急剧退化,提出 Amodal Mask 监督在重叠 IoU 上提升 15.9%。

ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction

提出 ReCon-GS,通过连续性保持的 Gaussian 流式处理实现增量式 3D 重建,在保持渲染质量的同时大幅减少存储需求和训练时间,支持大规模场景的实时重建。

ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection

ReCon 提出无需额外训练的区域可控数据增强框架,通过区域引导校正(RGR)和区域对齐交叉注意力(RACA)增强现有结构可控生成模型的目标检测数据质量,在 COCO 上实现 35.5 mAP(超过需 fine-tune 的 GeoDiffusion)。

Test-Time Adaptive Object Detection with Foundation Model

提出无需源域数据的开放词汇测试时自适应目标检测框架(TTAOD),通过多模态 Prompt Tuning + Mean-Teacher + 实例动态记忆(IDM)+ 记忆增强/幻觉策略,在 Pascal-C 上 AP50 达 56.2%(+11.0 vs SOTA),在 13 个跨域数据集上一致有效。

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

本文提出Video-RAG,一个免训练、即插即用的RAG管道,通过从视频中提取视觉对齐的辅助文本(OCR、ASR、目标检测)并经检索筛选后输入LVLM,在仅增加约2K token的条件下将7个开源LVLM的Video-MME平均性能提升2.8%,72B模型超越GPT-4o。


👥 社会计算

Active Slice Discovery in Large Language Models

提出 Active Slice Discovery 问题框架,将主动学习引入 LLM 错误切片发现,利用不确定性采样 + LLM 内部表征(原始 embedding 或 SAE 特征)在仅使用 2-10% 标注的情况下达到接近全标注的切片检测精度。

Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

提出 Reasoning-based Bias Detector(RBD)作为 LLM 评判器的即插即用去偏模块——通过外部检测 4 种评估偏见(冗长/位置/从众/情感),生成带推理链的结构化反馈引导评判器自我纠正,RBD-8B 在 8 个 LLM 评判器上平均提升准确率 18.5%、一致性 10.9%。

Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in LLMs

提出 FaIRMaker 框架,通过"自动搜索+精化"范式先用梯度优化找到去偏见触发词(Fairwords),再训练 seq2seq 模型将其转化为可读指令,在开源和闭源 LLM 上有效缓解性别偏见同时保持甚至提升任务性能。

AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web

AVerImaTeC 构建了首个带完整证据标注的图文事实核查数据集——1297 条真实图文声明 + 5 阶段标注流水线(提取→QA 推理→充分性检查→迭代精炼→二次检查)+ 时间约束证据(防止时间泄露),基线系统在有 ground truth 证据时准确率 82%,但自动检索证据后降至 15-25%,揭示了图文核查的巨大挑战。

Concept-Level Explainability for Auditing & Steering LLM Responses

提出 ConceptX,一种基于概念级(而非 token 级)Shapley 归因的 LLM 可解释性方法,通过语义相似度而非 token 重合度来衡量输入概念对输出的影响,可用于审计偏见和通过 prompt 编辑引导 LLM 输出,在越狱防御中将攻击成功率从 0.463 降至 0.242。

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

DATE-LM构建了首个面向LLM的统一数据归因评估基准,通过训练数据选择、毒性过滤和事实归因三大应用驱动任务系统评估多种归因方法,发现无单一方法全面占优且简单基线在某些场景可媲美归因方法。

DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding

受深度优先搜索(DFS)算法启发,设计了 DeepTraverse 视觉骨干网络,通过参数共享的递归探索模块和自适应通道校准模块,在极少参数下实现高竞争力的图像分类性能。

Don't Let It Fade: Preserving Edits in Diffusion Language Models via Token Timestep Allocation

提出 Token Timestep Allocation (TTA-Diffusion),通过为每个 token 分配独立的去噪时间步来解决扩散语言模型中 classifier guidance 导致的 update-forgetting 问题,实现可控文本生成的稳定性和效率大幅提升。

Evaluating Multiple Models Using Labeled and Unlabeled Data

提出 SSME (Semi-Supervised Model Evaluation),利用少量标注数据和大量未标注数据,通过半监督混合模型估计多个分类器联合分布 \(P(y, \mathbf{s})\),实现精确的分类器性能评估,误差降低至仅用标注数据的 1/5。

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

提出 GraphKeeper 框架应对图域增量学习(Graph Domain-IL)中的灾难性遗忘,通过域特异性 LoRA 参数隔离 + 领域内/间解耦 + 基于岭回归的无偏差知识保存三组件,比次优方法提升 6.5%-16.6%,且可无缝集成图基础模型。

IF-GUIDE: Influence Function-Guided Detoxification of LLMs

提出 IF-Guide,利用影响函数在 token 粒度识别训练数据中的有毒内容,并通过惩罚式训练目标在预训练/微调阶段主动抑制模型学习有毒行为,显著优于 DPO 和 RAD 等被动对齐方法。

Noise-Robustness Through Noise: A Framework Combining Asymmetric LoRA with Poisoning MoE

提出 LoPE,在非对称 LoRA 架构中设置专门的"中毒专家"接收注入噪声,推理时屏蔽该专家,仅通过正常专家输出实现噪声鲁棒——以噪声对抗噪声,完全无需数据清洗。

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

本文提出 OS-Harm,首个面向通用计算机使用 Agent(非仅浏览器)的安全性 benchmark,覆盖用户恶意使用、Prompt 注入攻击、模型自身失误三类风险共 150 个任务,评测发现前沿模型(o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro 等)普遍直接服从有害指令(最高 70% 不安全率),且对基础 prompt 注入有 20% 的服从率。

Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents

提出 Policy-as-Prompt 框架,通过两阶段端到端流水线——策略树生成(POLICY-TREE-GEN)和策略即提示生成(POLICY-AS-PROMPT-GEN)——将团队已有的非结构化设计文档(PRD、TDD、代码)自动转换为可运行时执行的策略护栏,使用轻量级 LLM 作为合规"法官",在 HR 和 SOC 应用中实现 70-73% 的输入/输出分类准确率。

Position Paper: If Innovation in AI Systematically Violates Fundamental Rights, Is It Innovation at All?

本文挑战"监管与创新对立"的固有信念,通过制药、航空、福利系统的历史类比和 Collingridge 困境分析论证良好设计的监管是创新的基础而非阻碍,并以 EU AI Act 的监管沙盒、中小企业支持等机制为范例展示监管如何加速而非延缓负责任的技术进步。

Precise Information Control in Long-Form Text Generation

提出Precise Information Control (PIC)任务——要求LLM生成的长文严格基于给定声明集合(不遗漏不添加),构建PIC-Bench评测8个任务发现SOTA模型70%以上生成包含忠实性幻觉,通过弱监督偏好数据构建+DPO训练的PIC-LM将8B模型F1从69.1%提升至91.0%。

SLAyiNG: Towards Queer Language Processing

构建了首个显式标注的酷儿俚语(queer slang)数据集 SLAyiNG,包含 695 个术语和近 20 万条使用实例,并通过人机标注一致性实验(Krippendorff's α=0.746)表明推理模型可用于预筛选但仍需社区驱动的专家标注。

VDRP: Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

提出 VDRP 框架,通过视觉多样性感知的 prompt 学习(注入组级方差 + 高斯扰动)和区域感知的 prompt 增强(基于 LLM 生成的区域概念检索),解决零样本 HOI 检测中类内视觉多样性和类间视觉纠缠两大挑战。


🌐 多语言/翻译

Adaptive Originality Filtering: Rejection-Based Prompting and RiddleScore for Culturally Grounded Multilingual Riddle Generation

提出 Adaptive Originality Filtering (AOF)——一种基于语义拒绝采样的提示策略,通过 MiniLM 嵌入的余弦相似度过滤重复/模板化输出,强制 LLM 生成更新颖、多样且文化匹配的多语言谜语;同时提出 RiddleScore 复合评估指标(Novelty + Diversity + Fluency + Alignment),与人类评分相关性达 \(\rho=0.83\)

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

构建覆盖2282种语言、46.72TB文本的多语言数据集DCAD-2000,提出将数据清洗重构为异常检测问题的语言无关框架,通过8维统计特征+Isolation Forest动态过滤噪声数据,在多个多语言benchmark上验证效果,尤其对低资源语言提升显著。

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

提出一套透明、简洁、高效的多语言模型驱动数据筛选框架,利用 FastText 和 Transformer(XLM-RoBERTa)嵌入分类器识别结构化且知识丰富的样本,在 FineWeb-2 数据集上仅用 15% 的 token 即可匹配基线 MMLU 分数,并将该框架扩展至 20 种语言并公开发布了精炼的预训练数据集。

Exploring the Translation Mechanism of Large Language Models

提出 subspace-intervened path patching 方法对 LLM 翻译机制进行精细因果分析,发现翻译由不到 5% 的稀疏 attention head 驱动——分为 source head、indicator head、positional head 三类功能角色,MLP 将其特征整合为以英语为中心的中间表示,仅微调 64 个关键 head 即可匹配全参数微调性能。

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

NVIDIA 发布的 40K+ 开源人工标注偏好数据集,覆盖通用/STEM/代码/多语言(13 种语言),训练的奖励模型在 RM-Bench 上达 82.4%(+10%),CC-BY-4.0 许可对商业友好。

How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs

在高维渐近框架下证明了带非线性MLP头的Transformer在ICL误差上等价于结构化多项式预测器,揭示了非线性MLP对非线性任务的增益机制,以及多源数据混合中低噪声和结构化协方差是高质量数据源的关键特征。

MergeBench: A Benchmark for Merging Domain-Specialized LLMs

MergeBench 是首个全面评估大规模领域特化 LLM 合并的基准套件,覆盖 Llama 和 Gemma 系列最大 9B 模型、五大任务领域和八种合并方法,从多任务性能、遗忘、运行效率三个维度提供系统化评估和实用指南。

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

提出首个多语言交错多条件语义检索数据集 MERIT(320K queries, 135K products, 5种语言, 7大品类),揭示现有检索模型仅关注全局语义而忽略条件细节的瓶颈,并设计 Coral 微调框架通过嵌入重建+对比学习将检索性能提升 45.9%。

ParallelPrompt: Extracting Parallelism from Large Language Model Queries

构建了首个查询内并行(intra-query parallelism)基准数据集ParallelPrompt,包含37000+条真实用户提示的结构化分解标注,证明约10%的用户查询包含可并行的潜在结构,并行执行可实现最高5.7×的延迟加速且质量损失有限。

Quantifying Climate Policy Action and Its Links to Development Outcomes: A Cross-National Data-Driven Analysis

本文构建了一个NLP-计量经济学一体化框架,先用微调的多语言DistilBERT对全球气候政策文档按主题(减缓/适应/灾害风险管理/损失与损害)自动分类(F1=0.90),再与世界银行发展指标做固定效应面板回归,发现减缓政策与较高GDP/GNI显著正相关,而损失与损害政策全球仍然缺乏实质性实施。

Reflective Translation: Improving Low-Resource Machine Translation via Structured Self-Reflection

提出 Reflective Translation 框架,让 LLM 在推理时对自身的初始翻译进行结构化自我批判(识别误译/遗漏/语义扭曲),再根据批判生成修正翻译,无需微调或额外标注数据即可在 isiZulu/isiXhosa 等低资源非洲语言上取得 BLEU 和 COMET 的统计显著提升。

XIFBench: Evaluating Large Language Models on Multilingual Instruction Following

提出XIFBench——首个系统评估LLM多语言指令遵循能力的约束驱动基准,包含558条指令(0-5个约束,5大类21维度)×6种语言(高/中/低资源),并引入英语需求锚定评估协议,实现94.7%的跨语言评估一致性。

Zero-Shot Performance Prediction for Probabilistic Scaling Laws

将 NLP 学习曲线预测建模为多任务学习问题,利用潜变量多输出高斯过程(MaGP)捕捉数据集中的双层层次结构和任务间相关性,实现学习曲线的零样本预测,并通过蒙特卡洛模拟推导概率化的 Scaling Laws。


📡 信号/通信

Angular Steering: Behavior Control via Rotation in Activation Space

提出Angular Steering,将LLM激活引导统一建模为固定2D子空间中的旋转操作——通过旋转角度提供0°-360°的连续、细粒度、范数保持的行为控制旋钮,统一了激活加法和方向消融为旋转的特例,在Llama 3/Qwen 2.5/Gemma 2(3B-14B)上实现鲁棒的行为调控。

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport

提出 Bispectral Optimal Transport (BOT),将离散最优传输中的代价矩阵从原始像素距离替换为 bispectrum(群 Fourier 不变量)距离,使得传输计划在保持信号结构的同时精确消除群作用(如旋转)带来的变异,在旋转变换的 MNIST 等数据集上将类别保持准确率从 33% 提升至 84%。

ConTextTab: 语义感知的表格上下文学习器

ConTextTab 将语义嵌入(列名、分类值的文本编码)融入 table-native ICL 架构,并在大规模真实表格数据(T4, ~2.18M 表)上预训练,在语义丰富的 CARTE 基准上取得新 SOTA,同时在非语义基准上保持与现有方法竞争力。

Contrastive Consolidation of Top-Down Modulations Achieves Sparsely Supervised Continual Learning

提出 Task-Modulated Contrastive Learning (TMCL),受大脑新皮层自顶向下调制启发,在持续学习中通过 affine modulation 集成稀疏标签信息(仅需 1% 标签),再利用对比学习将调制信息固化到前馈权重中,在 class-incremental 和迁移学习上超越无监督和有监督基线。

Estimation of Stochastic Optimal Transport Maps

提出适用于随机OT映射的传输误差指标 \(\mathcal{E}_p\)(由优化间隙与可行性间隙组成),在无需Brenier映射存在或唯一性的最小假设下,构造了计算高效的rounding估计器达到近最优收敛率 \(\tilde{O}(n^{-1/(d+2p)})\),并推广至Hölder连续核与对抗污染场景,建立了首个通用OT映射估计理论。

Feature-aware Modulation for Learning from Temporal Tabular Data

论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单,而是很多特征的语义会随时间漂移,因此提出 feature-aware modulation,通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数,把跨时间的语义重新对齐,最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。

Masked Symbol Modeling for Demodulation of Oversampled Baseband Communication Signals

本文提出 Masked Symbol Modeling(MSM),将 BERT 的掩码预测范式应用于通信物理层——将脉冲成形产生的符号间贡献重新定义为"上下文信息",训练 Transformer 在干净过采样基带信号上学习波形结构,推理时利用学到的上下文来恢复被冲激噪声破坏的符号。

Memory-Integrated Reconfigurable Adapters: A Unified Framework for Settings with Multiple Tasks

MIRA 将 Hopfield 式联想记忆模块嵌入 ViT 各层,以键值对方式存储和检索 LoRA 适配器权重,通过两阶段训练(适应+巩固),在一个统一架构下同时解决领域泛化(DG)、类增量学习(CIL)和域增量学习(DIL)三类任务,在多个基准上显著超过各任务的专用方法。

Multi-Modal Masked Autoencoders for Learning Image-Spectrum Associations for Galaxy Evolution and Cosmology

构建了包含 134,533 个星系的图像-光谱-红移多模态数据集(GalaxiesML-Spectra),适配多模态掩码自编码器(MMAE)同时进行图像和光谱的联合重建与红移回归,证明在测试时即使光谱完全缺失,仅用 25% 掩码图像即可实现优于 AstroCLIP 的红移预测散度 \(\sigma_{NMAD} = 0.016\)

Perturbation Bounds for Low-Rank Inverse Approximations under Noise

首次推导了噪声条件下低秩逆近似 \(\|(\tilde{A}^{-1})_p - A_p^{-1}\|\) 的非渐近谱范数扰动界,通过新颖的等高线自举 (contour bootstrapping) 技术处理非整函数 \(f(z) = 1/z\),在有利条件下比经典界改进 \(\sqrt{n}\) 倍。

The Last Vote: A Multi-Stakeholder Framework for Language Model Governance

提出一个面向语言模型治理的综合框架,包含七类民主风险分类体系、利益相关方自适应事件严重度评分(ISS)、以及分阶段六年实施路线图,旨在将民主价值融入AI监管的制度设计中。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

将可验证奖励的强化学习(RLVR)分解为正样本强化(PSR,增强正确回答概率)和负样本强化(NSR,惩罚错误回答),发现仅用 NSR 就能在整个 Pass@k 谱上持续提升推理性能且通常匹配或超越 PPO/GRPO,据此提出 Weighted-REINFORCE(降低 PSR 权重至 0.1)在 MATH/AIME 2025/AMC23 上取得全面最优。


🛰️ 遥感

C3PO: Cross-View Cross-Modality Correspondence by Pointmap Prediction

构建了包含 90K 地面照片-平面图对(597 个场景、153M 像素级对应和 85K 相机位姿)的 C3 数据集,揭示现有对应模型在跨视角跨模态(如地面照片 vs. 平面图)场景下的局限性,通过在该数据上训练可将最佳方法的 RMSE 降低 34%。

ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning

提出ChA-MAEViT,通过动态通道-patch联合掩码、记忆token、混合token融合和通道感知解码器四大组件增强多通道图像(MCI)的跨通道特征学习,在卫星和显微三大数据集上平均超越SOTA 3.0-21.5%。

Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models

作为2025 NASA Heliolab的成果,本文构建了首个全面的ML-ready电离层预测数据集,将太阳动力学观测站(SDO)极紫外辐照度嵌入、太阳风参数、行星际磁场、地磁活动指数、JPL稠密TEC全球电离层图、Madrigal稀疏TEC、太阳通量指数以及轨道力学参数等7大类异构数据源统一对齐到一致的时间-空间结构中,并在此基础上训练了包括LSTM、球面神经算子(SFNO)和GraphCast在内的多种时空预测架构,实现了对全球垂直总电子含量(vTEC)在安静和地磁活跃条件下长达12小时的自回归预测,超越了持续性基线。

EcoCast: A Spatio-Temporal Model for Continual Biodiversity and Climate Risk Forecasting

提出EcoCast,融合卫星遥感(Sentinel-2)、气候再分析(ERA5)和公民科学观测(GBIF)数据的Transformer时空序列模型,通过12个月环境特征序列预测下月物种出现概率,在非洲5种鸟类分布预测上F1宏平均从Random Forest的0.31提升至0.65,并设计了基于EWC的持续学习框架以适应数据更新。

GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

GeoLink将OpenStreetMap矢量数据直接融入遥感基础模型预训练,通过异构GNN编码OSM数据并设计多粒度跨模态学习目标(区域-图像级对比 + 对象-patch级融合),在127万样本对上高效预训练后,7个分类和4个分割/变化检测benchmark全面超越现有RS FM。

GreenHyperSpectra: A Multi-Source Hyperspectral Dataset for Global Vegetation Trait Prediction

GreenHyperSpectra构建了一个包含14万+多源高光谱植被样本的预训练数据集,横跨近端、航空和卫星三种平台,通过半监督和自监督方法(MAE、GAN、RTM-AE)训练的标签高效回归模型在7种植物性状预测上全面超越全监督基线,特别是在标签稀缺和分布外场景中优势显著。

Mass Conservation on Rails – Rethinking Physics-Informed Learning of Ice Flow Vector Fields

提出散度无关神经网络(dfNN),通过流函数的辛梯度从架构上精确保证质量守恒(散度恒为零),结合方向引导学习策略,在南极Byrd冰川冰通量插值中显著优于软约束PINNs和无约束NN。

OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning

本文提出OrbitZoo,一个基于工业级Orekit轨道动力学库构建的多智能体RL环境,支持碰撞规避、霍曼转移、星座协调等真实轨道任务,通过PettingZoo接口实现标准化MARL训练,并在Starlink真实星历数据验证中达到低误差组24米RMSE(16.6小时传播)。

OrthoLoC: UAV 6-DoF Localization and Calibration Using Orthographic Geodata

OrthoLoC构建了首个面向正射地理数据(DOP+DSM)的大规模UAV 6-DoF定位基准数据集,包含16425张真实UAV图像覆盖德国和美国47个区域,并引入AdHoP(自适应单应性预处理)匹配改进技术,在不修改特征匹配器的情况下将匹配性能提升95%、平移误差降低63%。

RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events

构建了RSCC——首个大规模灾害感知遥感变化描述数据集(62,351对灾前/灾后图像+详细变化描述),覆盖地震/洪水/野火等31个全球事件,利用QvQ-Max视觉推理模型生成高质量标注,并建立了全面的基准评测体系。

Scaling Image Geo-Localization to Continent Level

混合方法结合分类学习的原型和航拍图像嵌入,在覆盖西欧43.3万平方公里上实现200m内68%+、100m内59.2%的定位率,首次在大陆规模实现此精度。


🔎 AIGC 检测

ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

提出 ASCIIBench,首个公开可用的 ASCII 艺术理解与生成基准(5,315 张图像,752 类),系统评估发现视觉模态显著优于文本模态,多模态融合反而不帮忙,且 CLIP 对 ASCII 结构的表征能力存在根本性瓶颈——只有内部一致性高的类别才能被有效区分。

Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content

提出双Agent(定量+定性)评估框架,从神学准确性、引用完整性和文体恰当性三个维度系统评估 GPT-4o、Ansari AI 和 Fanar 在伊斯兰内容生成任务上的忠实度,发现即使最优模型也在引用可靠性上存在显著不足。

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

提出让 LLM 生成域相关启发式函数的 Python 代码(而非直接生成计划),通过 \(n\) 次采样获得候选启发式池并在训练集上选优,将最优启发式注入 Python 规划器 Pyperplan 配合 GBFS 使用,在 IPC 2023 基准 8 个域上以纯 Python 实现超越了所有 C++ Fast Downward 传统启发式,且与 SOTA 学习型规划器 \(h^{\mathrm{WLF}}_{\mathrm{GPR}}\) 持平,同时保证所有找到的计划 100% 正确。

CLAWS: Creativity Detection for LLM-Generated Solutions Using Attention Window of Sections

提出 CLAWS,通过分析 LLM 在生成数学解答时对不同 prompt 区段的注意力权重分布,无需人工评估即可将生成内容分类为"创造性"、"典型"或"幻觉"三类。

DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code

提出 DuoLens,一种基于 CodeBERT + CodeBERTa 双编码器融合的 AI 生成内容检测框架,在多语言文本(8 种语言)和源代码(7 种编程语言)检测上以极低计算成本(延迟降低 8-12×,VRAM 降低 3-5×)实现 AUROC 0.97-0.99,远超 GPT-4o 等大模型。

"Jutters"

通过荷兰传统"jutters"(海岸拾荒者)的隐喻,构建了一个融合真实海滩碎片与AI生成图像/视频的沉浸式装置艺术,引导参观者以拾荒者心态反思如何对待AI生成内容。

Reasoning Compiler: LLM-Guided Optimizations for Efficient Model Serving

提出 Reasoning Compiler,将编译器优化建模为序列决策过程,用 LLM 作为上下文感知提案引擎 + MCTS 平衡探索/利用,在 5 个代表性 benchmark 和 5 个硬件平台上实现平均 5.0× 加速且采样效率比 TVM 进化搜索提升 10.8×。

Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency

提出Wedge框架——通过LLM合成性能刻画约束(performance-characterizing constraints)指导约束感知模糊测试,生成能暴露代码性能瓶颈的压力测试输入,构建PerfForge基准,使LLM代码优化器(如Effi-Learner)多减24% CPU指令。


✏️ 知识编辑

Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in LLMs

提出 NMKE 框架,通过神经元级归因发现 knowledge-general 和 knowledge-specific 两类知识神经元,并结合熵引导的动态稀疏 mask,实现精准神经元级知识编辑,在 5000 步连续编辑后仍保持高编辑成功率和模型通用能力。

KScope: A Framework for Characterizing the Knowledge Status of Language Models

提出LLM知识状态的五分类法(一致正确/冲突正确/缺失/冲突错误/一致错误)和KScope层次化统计检验框架,通过重复采样+多步假设检验精确刻画LLM对给定问题的知识模式结构,并系统研究上下文如何更新各状态,发现受约束的上下文摘要+增强可信度平均提升4.3%的知识更新成功率。

MemEIC: A Step Toward Continual and Compositional Knowledge Editing

提出 MemEIC 框架,通过外部双模态检索记忆 + 内部模态分离 LoRA 适配器 + 仿脑 Knowledge Connector 三层架构,实现大视觉语言模型的持续、组合式知识编辑,在新提出的 CCKEB 基准上大幅超越现有方法。

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs

提出MEMOIR框架,通过在FFN层引入零初始化的残差记忆矩阵,利用基于TopHash的稀疏掩码将每次编辑限制在记忆参数的不同子集上,推理时通过掩码重叠率识别相关编辑并条件性激活知识,在15000次连续编辑下仍保持可靠性、泛化性和局部性的最优平衡。

Rethinking Residual Distribution in Locate-then-Edit Model Editing

揭示 locate-then-edit 模型编辑中残差分配(residual distribution)机制引入的权重偏移误差会随分配距离、batch 大小和编辑序列长度增长,提出 BLUE(Boundary Layer UpdatE)策略仅更新首尾关键层,平均提升 35.59%。

UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models

构建 UniEdit——首个基于开放域知识图谱(Wikidata)的统一 LLM 知识编辑基准,覆盖 5 大类 25 个领域共 311K 条样本,通过邻域多跳链采样(NMCS)算法统一整合多种泛化性和局部性评估标准,系统揭示了现有编辑方法在复杂波纹效应评估下的不足。


🗣️ 对话系统

AC-LoRA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs

设计 AC-LoRA 端到端系统,为不同权限数据集训练独立的 LoRA 适配器,推理时根据用户查询的 cosine 相似度和权限动态检索并无训练合并多个 LoRA 输出,在保证强信息隔离的同时匹配或超越 SOTA LoRA 混合方法的回答质量。

Bridging Human and LLM Judgments: Understanding and Narrowing the Gap

提出Bridge统计框架,通过序数logistic回归建模人类和LLM评判之间的潜在关系,以少量人类标签改善LLM评判的校准和对齐,同时支持对系统性偏差的正式统计检验。

HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location

提出HyGen——干扰感知的LLM推理系统,通过精准的批次延迟预测器、SLO感知的性能分析器和前缀共享最大化调度策略,实现在线和离线工作负载的弹性共置,在保证严格SLO合规的同时获得3.87-5.84倍吞吐提升。

MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

提出 MetaMind——一个受心理学元认知理论启发的多智能体框架,通过 ToM Agent(心理状态假设生成)、Moral Agent(社会规范约束精炼)和 Response Agent(响应生成与自我验证)三阶段协作,显著提升 LLM 的社会推理能力,在多个社会智能基准上达到 SOTA 并首次接近人类水平。

SciArena: An Open Evaluation Platform for Non-Verifiable Scientific Literature-Grounded Tasks

构建 SciArena 社区驱动的科学文献评估开放平台,采用 Chatbot Arena 式的人类偏好投票方式对 47 个基础模型进行排名,收集超过 20,000 条投票数据,并发布 SciArena-Eval 元基准来评测自动评估系统对文献任务答案质量的判断能力。


🌍 地球科学

A Probabilistic U-Net Approach to Downscaling Climate Simulations

首次将概率 U-Net 应用于气候统计降尺度(16× 超分辨率),通过变分隐空间采样生成集合预报来量化降尺度不确定性,并系统比较了 WMSE、MS-SSIM、WMSE-MS-SSIM 和 afCRPS 四种训练目标在捕捉极端事件与保留细尺度空间变异性方面的互补权衡。

Adaptive Online Emulation for Accelerating Complex Physical Simulations

提出 Adaptive Online Emulation (AOE),在物理模拟执行过程中动态训练 ELM 神经网络代理模型替代昂贵计算组件,无需离线预训练,在系外行星大气模拟上实现 11.1× 加速(91% 时间节省)且精度损失仅 ~0.01%。

ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts

提出 ControlFusion,一种基于语言-视觉退化提示的可控红外-可见光图像融合框架,通过物理驱动的退化成像模型模拟复合退化,并用 prompt-modulated 网络动态恢复+融合,在真实世界和复合退化场景下全面超越 SOTA。

Predicting Public Health Impacts of Electricity Usage

提出 HealthPredictor,一个将电力消费端到端映射到公共健康损害(以 $/MWh 计量)的 AI 流水线,包含燃料组合预测、空气质量转换和健康影响评估三个模块,健康驱动优化比燃料组合驱动基线显著降低健康影响预测误差,并在电动汽车充电调度案例中实现 24-42% 的健康损害减少。

Reasoning With a Star: A Heliophysics Dataset and Benchmark for Agentic Scientific Reasoning

提出 Reasoning With a Star (RWS),一个源自 NASA 太阳物理暑期学校问题集的 158 道科学推理 benchmark(含数值/符号/文本三类答案),配合 unit-aware 评分器,比较了四种多 agent 协调模式(HMAW/PACE/PHASE/SCHEMA),发现没有单一模式在所有任务上占优——系统工程启发的 SCHEMA 在需要严格约束验证的任务上最强。


🧠 MoE / 混合专家

MoRE-Brain: Routed Mixture of Experts for Interpretable and Generalizable Cross-Subject fMRI Visual Decoding

提出 MoRE-Brain,一种神经科学启发的 fMRI 视觉解码框架,采用层级混合专家(MoE)架构模拟大脑视觉通路的专门化处理,配合动态时间-空间双路由机制引导扩散模型生成图像,在保持高保真重建的同时实现了高效跨被试泛化和前所未有的机制可解释性。


📂 其他

3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization

提出 3DID 框架,通过学习物理-几何统一的三平面隐空间表示 + 目标梯度引导扩散采样 + 拓扑保持精炼的两阶段策略,从随机噪声开始直接在完整 3D 空间中进行逆向设计,在车辆气动外形优化上,模拟阻力(Sim-Drag)相比最优基线降低 13.6%。

4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

提出4DGT——一种基于4D高斯的Transformer模型,完全在真实世界单目带位姿视频上训练,以前馈方式在几秒内完成动态场景重建,显著优于同类前馈网络,并达到与优化类方法可比的精度。

A Differentiable Model of Supply-Chain Shocks

用 JAX 实现可微分的供应链 Agent-Based Model(~1000 家企业),通过 GPU 并行化 + 自动微分实现比传统 ABC 快 3 个数量级的贝叶斯参数校准,为全球供应链网络的冲击传播建模铺平道路。

A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation

本文将跨域视线估计(CDGE)问题建模为广义标签偏移(GLS)问题,指出现有域不变表示学习方法在标签偏移存在时理论上不充分,提出基于截断高斯分布的连续重要性重加权和概率感知条件算子差异(PCOD)来联合纠正标签偏移和条件偏移,在多个backbone上平均降低误差12%~27%。

A Sustainable AI Economy Needs Data Deals That Work for Generators

提出"经济数据处理不等式"概念——ML价值链中数据从原始形态到模型权重再到合成输出,每一步都精炼了技术信号但系统性剥夺了数据生成者的经济权益;通过分析73个公开数据交易案例实证这一现象,诊断三个结构性缺陷(溯源缺失、议价权不对称、定价非动态),并提出EDVEX框架作为解决方案蓝图。

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation

本文从纯优化角度严格证明了 grokking 现象的成因:带小 weight decay 的梯度流在 \(\lambda\to 0\) 极限下呈现两阶段动力学——先快速收敛到训练损失的临界流形 \(\mathcal{M}\),再在 \(t\approx 1/\lambda\) 时沿流形做黎曼梯度流以最小化 \(\ell_2\) 范数,从而延迟实现泛化。

A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random

在高斯混合模型的聚类框架中,统一解决变量选择(区分信号变量、冗余变量和噪声变量)与MNAR缺失数据建模,通过两阶段策略(LASSO惩罚排序加BIC角色分配)和谱距离自适应惩罚权重实现高维场景下的高效推理,并证明了可辨识性和渐近选择一致性。

Active Measurement: Efficient Estimation at Scale

提出 Active Measurement 框架,将 AI 模型预测作为重要性采样提议分布,通过迭代的人类标注与模型更新实现科学总量测量的无偏估计,搭配新颖的组合权重方案和条件方差估计器构建可靠的置信区间。

AcuRank: 基于不确定性感知的自适应计算列表式重排序

利用贝叶斯TrueSkill模型维护文档相关性的概率分布,在每轮迭代中只对排名不确定的文档进行重排序,实现根据查询难度自适应调配计算量的重排框架,在多个基准上以更少调用次数超越固定计算基线。

Adaptive Data Analysis for Growing Data

本文首次给出了动态增长数据上自适应分析的泛化界,允许分析者根据数据规模自适应调度查询,并通过时变经验精度界和差分隐私机制实现随数据积累越来越紧的泛化保证。

Addressing Mark Imbalance in Integration-free Neural Marked Temporal Point Processes

本文首次揭示标记时间点过程(MTPP)中标记分布不平衡对预测性能的严重影响,提出先预测标记再预测时间的策略,设计阈值方法调节稀有标记的预测概率,并开发无积分近似的IFNMTPP模型高效支持标记概率估计和时间采样。

Adjoint Schrödinger Bridge Sampler

提出 Adjoint Schrödinger Bridge Sampler (ASBS),通过将 Schrödinger Bridge 问题重新解释为随机最优控制问题,消除了先前扩散采样器的 memoryless 条件限制,支持任意源分布(如高斯、谐波先验),使用可扩展的 matching 目标无需重要性权重估计,在多粒子能量函数和分子构象生成上全面超越先前方法。

Adjusted Count Quantification Learning on Graphs

将经典的 Adjusted Classify & Count (ACC) 量化方法扩展到图结构数据,提出结构重要性采样(SIS)和邻域感知ACC两种技术,分别解决图量化中的结构协变量偏移和非同质性边问题。

ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining

首次提出面向工业异常检测的专用表示预训练框架 ADPretrain,通过角度和范数导向的对比损失在大规模异常检测数据集 RealIAD 上学习残差特征表示,替换五种主流嵌入式 AD 方法的原始特征后在五个数据集、五个骨干网络上取得一致性提升。

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

提出Alias-Free Vision Transformer(AFT),结合抗混叠信号处理技术和shift-equivariant线性交叉协方差注意力,首次使ViT在分数像素(亚像素)平移下保持接近完美的一致性(~99%),同时在ImageNet分类准确率上几乎无损。

An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems

本文系统研究了 Neural ODE (NODE) 在含噪合成数据上的外推能力,并探索了将 NODE 作为数据增强工具、与符号回归 (SR) 结合以从有限数据中恢复动力学方程的流水线,结果表明该组合方案能从仅 10% 的仿真数据中恢复三个控制方程中的两个及第三个的良好近似。

EPHAD: An Evidence-Based Post-Hoc Adjustment Framework for Anomaly Detection Under Data Contamination

EPHAD 提出一种测试时后处理框架,通过指数倾斜(exponential tilting)将已被污染数据训练的异常检测模型输出与外部证据(CLIP/LOF等)进行贝叶斯式融合校正,无需接触训练流程,在8个视觉和26个表格AD数据集上一致提升被污染模型的检测性能。

Are Pixel-Wise Metrics Reliable for Sparse-View Computed Tomography Reconstruction?

揭示 PSNR/SSIM 等像素级指标无法反映稀疏视图 CT 重建中解剖结构完整性(相关性仅 0.16-0.30),提出基于自动分割的解剖感知指标(NSD/clDice)和 CARE 框架——在扩散模型训练中加入分割引导损失,大器官结构完整性提升 32%、血管提升 36%。

AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing

提出 AutoSciDACT 管线:先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间,再用 NPLM(New Physics Learning Machine)似然比检验对嵌入空间中的分布偏差进行统计量化,在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。

Brain-Like Processing Pathways Form in Models With Heterogeneous Experts

在异构 Mixture-of-Experts 模型中,异构专家并不会自动形成处理通路;本文提出三个受大脑启发的归纳偏置(路由代价、任务表现缩放、专家 Dropout),使模型形成类似大脑"皮层-皮层下"动态通路的 Mixture-of-Pathways 架构。

Computable Universal Online Learning

在 universal online learning 框架中引入可计算性约束,证明了"数学上可学习"不等于"可用计算机程序实现的可学习",并给出了 agnostic 和 proper 变体下可计算学习的精确刻画。

ConTextTab: 语义感知的表格上下文学习器

ConTextTab 将语义嵌入(列名、分类值的文本编码)融入 table-native ICL 架构,并在大规模真实表格数据(T4, ~2.18M 表)上预训练,在语义丰富的 CARTE 基准上取得新 SOTA,同时在非语义基准上保持与现有方法竞争力。

Contextual Dynamic Pricing with Heterogeneous Buyers

首次系统研究买家类型异质(\(K_\star\) 种未知类型)的上下文动态定价问题,提出基于乐观后验采样 (OPS) 的算法实现 \(\tilde{O}(K_\star\sqrt{dT})\) 遗憾界(对 \(d\)\(T\) 最优),并在非上下文情形通过方差感知自适应离散化算法 ZoomV 实现 \(\tilde{O}(\sqrt{K_\star T})\) 最优遗憾。

Continuous Thought Machines

提出 Continuous Thought Machine (CTM),通过私有参数化的 Neuron-Level Models (NLMs) 产生神经元级时间动力学,并以神经同步矩阵作为核心潜在表征,在迷宫求解、ImageNet 分类、奇偶校验等任务上展现复杂推理、自适应计算和可解释注意力行为。

Coreset for Robust Geometric Median: Eliminating Size Dependency on Outliers

首次消除鲁棒几何中位数 coreset 大小对异常值数 \(m\) 的依赖:在 \(n \geq 4m\) 条件下,\(d=1\) 时实现最优 coreset 大小 \(\tilde{\Theta}(\varepsilon^{-1/2} + \frac{m}{n}\varepsilon^{-1})\),高维时实现 \(\tilde{O}(\varepsilon^{-2}\min\{\varepsilon^{-2}, d\})\),核心技术是新颖的非逐分量误差分析

Coresets for Clustering Under Stochastic Noise

首次系统研究噪声数据下 \((k,z)\)-聚类 coreset 构造问题,提出新的代理误差度量 \(\mathsf{Err}_\alpha\) 替代传统 \(\mathsf{Err}\),在温和数据假设下实现 coreset 大小缩减 \(\text{poly}(k)\) 倍、质量保证收紧 \(\text{poly}(k)\) 倍,并设计噪声感知的 cluster-wise 采样算法。

Deep Continuous-Time State-Space Models for Marked Event Sequences

S2P2 将线性 Hawkes 过程与深度状态空间模型结合,通过堆叠多层隐式线性 Hawkes (LLH) 层 + 非线性激活构建高表达力的连续时间 MTPP 模型,利用并行扫描实现线性复杂度和亚线性时间,在 8 个真实数据集上平均提升 33% 预测似然。

Deep Learning for Continuous-Time Stochastic Control with Jumps

提出两种基于模型的深度学习算法(GPI-PINN 和 GPI-CBU)来求解含跳跃的有限时域连续时间随机控制问题,通过迭代训练策略网络和价值网络,避免了状态动力学的离散化和模拟,在高维场景中表现出色。

Deep Legendre Transform

DLT 利用凸共轭的隐式 Fenchel 表示 \(f^*(\nabla f(x)) = \langle x, \nabla f(x) \rangle - f(x)\) 将凸共轭计算转化为标准回归问题,避免求解 max/min-max 优化,且能提供后验误差估计,结合 KAN 还可获得精确解析解。

Dense Associative Memory with Epanechnikov Energy

提出基于 Epanechnikov 核的 log-sum-ReLU(LSR)能量函数替代传统的 log-sum-exp(LSE),在 Dense Associative Memory 中首次实现了"精确记忆所有模式 + 同时涌现新的创造性局部极小"的共存,且保持指数级记忆容量。

Depth-Bounds for Neural Networks via the Braid Arrangement

本文证明了在 \(\mathcal{B}_d^0\)-conforming 约束下,ReLU 网络精确表示 \(\max\{0, x_1, \ldots, x_d\}\) 需要 \(\Omega(\log \log d)\) 层——这是首个不限制权重的非常数深度下界;同时证明 rank-(3,2) maxout 网络可以计算 7 个数的最大值,说明标准上界不紧。

Depth-Supervised Fusion Network for Seamless-Free Image Stitching

DSFN 提出深度一致性约束的无缝图像拼接方法:通过深度感知的两阶段变换估计解决大视差对齐,软缝合区域扩散实现自然融合,结合重参数化策略提升效率,在 UDIS-D 和 IVSD 数据集上全面超越 SOTA。

Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning

提出一种基于方向性非交换幺半群算子的代数框架,为多维组合嵌入提供统一数学基础,将 SSM 递归、Transformer 自注意力和 RoPE 位置编码统一为特例。

Distributionally Robust Feature Selection

本文提出一种模型无关的分布鲁棒特征选择方法,通过向协变量注入可控高斯噪声实现离散选择的连续松弛,并优化 Bayes 最优预测器的条件方差,使选出的特征子集能在多个子群体上同时训练出高质量下游模型。

Double Descent Meets Out-of-Distribution Detection: Theoretical Insights and Empirical Analysis

本文首次揭示 post-hoc OOD 检测中存在 double descent 现象——OOD 检测性能随模型宽度在插值阈值附近出现谷值后再次上升,通过随机矩阵理论提供理论解释,并提出基于 Neural Collapse 的 NC1 判据来识别最佳模型复杂度区间。

DPA: A One-Stop Metric to Measure Bias Amplification in Classification Datasets

本文提出 Directional Predictability Amplification (DPA),一种基于可预测性的偏差放大度量指标,是唯一同时满足方向性、适用于平衡/非平衡数据集、能正确识别正负偏差放大的一站式指标,通过测量模型偏差与数据集偏差的相对变化来量化偏差放大程度。

Efficient Kernelized Learning in Polyhedral Games Beyond Full-Information: From Colonel Blotto to Congestion Games

提出基于核化(kernelization)的框架,在部分信息反馈设定下为多面体博弈(Colonel Blotto、图拟阵拥堵博弈、网络拥堵博弈)设计了计算高效的无遗憾学习算法,显著改进了学习粗关联均衡(CCE)的运行时复杂度。

Efficient Parametric SVD of Koopman Operator for Stochastic Dynamical Systems

提出基于 low-rank approximation (LoRA) 的目标函数来学习随机动力系统 Koopman 算子的 top-k 奇异函数,完全避免了 VAMPnet/DPNet 中数值不稳定的矩阵分解操作,且梯度天然无偏。

Emergency Response Measures for Catastrophic AI Risk

本文系统分析了前沿安全政策(FSPs)如何嵌入中国四阶段应急响应框架(预防-预警-响应-恢复)的前两个阶段,通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险,并与欧盟AI法案、加州SB53等国际实践进行了对比。

Equivariance by Contrast: Identifiable Equivariant Embeddings from Unlabeled Finite Group Actions

提出 Equivariance by Contrast (EbC),一种仅用编码器的方法,从观测对 \((\mathbf{y}, g \cdot \mathbf{y})\) 中联合学习等变嵌入空间和隐式群表示,使有限群作用在潜空间中对应可逆线性映射,并提供可辨识性理论保证。

Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions

Google DeepMind训练了三种生成式神经网络(自回归Transformer、离散扩散、MaskGit)学习国际象棋谜题分布,通过强化学习优化谜题的唯一性和反直觉性,生成约400万个棋局位置,经奖励函数筛选和美学主题检测后,邀请三位世界级国际象棋专家评审,得到积极但带有建设性批评的反馈。

EvoBrain: Dynamic Multi-Channel EEG Graph Modeling for Time-Evolving Brain Networks

提出 EvoBrain——首次从理论上证明 显式动态图建模 优于隐式静态图、time-then-graph 架构表达力严格优于其他两种动态 GNN 范式(graph-then-time / time-and-graph),并据此设计双流 Mamba + Laplacian PE 增强的 GCN 模型,在 TUSZ 和 CHB-MIT 数据集的癫痫检测与早期预测任务上取得 AUROC 提升 23%、F1 提升 30% 的显著效果,同时训练速度比 SOTA 快 17 倍。

Evolutionary Learning in Spatial Agent-Based Models for Physical Climate Risk Assessment

提出一种整合地理空间气候灾害数据与进化学习机制的Agent-Based Model(ABM),在包含商品-制造-零售三级供应链的简化经济网络上,通过RCP8.5洪水投影模拟2025-2100年的经济响应,证明了进化自适应机制使企业在气候压力下维持显著更高的生产、资本、流动性和就业水平,同时揭示了传统资产级评估无法捕捉的供应链系统性风险。

Evolutionary Prediction Games

提出"演化预测博弈"框架,用演化博弈论分析预测算法与用户群体之间的反馈循环,揭示理想学习器导致竞争排斥(强者生存),而实际学习器(有限数据/代理损失/过参数化)反而能促成群体间的稳定共存与互利共生。

Exact Learning of Arithmetic with Differentiable Agents

提出可微有限状态转换器(DFST),一种图灵完备且端到端可微的模型族,在 2D 符号网格上通过观察专家算术计算的中间步骤(Policy-Trajectory Observations)训练,仅用 20 个样本(最长 3 位数加法)即可完美泛化到 3850 位二进制加法、2450 位十进制加法,未发现任何错误。

FACE: Faithful Automatic Concept Extraction

提出 FACE 框架,在非负矩阵分解 (NMF) 中加入 KL 散度正则项,约束概念重建后的激活值保持与原始模型预测一致,从而提取真正忠实于模型决策过程的概念解释,在 ImageNet/COCO/CelebA 上全面超越 CRAFT 和 ICE。

Faithful Group Shapley Value

提出 Faithful Group Shapley Value (FGSV),唯一满足含"忠实性"在内五条公理的组级数据估值方法,有效防御"空壳公司攻击"(通过拆分子组不当膨胀估值),并设计了 \(O(n \cdot \text{Poly}(\log n))\) 复杂度的高效近似算法。

Finite-Time Analysis of Stochastic Nonconvex Nonsmooth Optimization on the Riemannian Manifolds

提出 Riemannian Online to NonConvex (RO2NC) 算法及其零阶版本 ZO-RO2NC,首次为黎曼流形上完全非光滑非凸随机优化建立了 \(O(\delta^{-1}\epsilon^{-3})\) 的有限时间样本复杂度保证,匹配欧几里德最优结果。

FlashMD: Long-Stride, Universal Prediction of Molecular Dynamics

提出 FlashMD,基于 GNN 直接预测分子动力学轨迹的位置与动量跨步演化,实现比传统 MD 积分器大 1–2 个数量级的时间步长跨越,并在架构中融入哈密顿动力学约束,推广到任意热力学系综和通用化学体系。

FlowMoE: 分布式MoE训练的可扩展流水线调度框架

FlowMoE提出统一的流水线调度框架,将MHA计算、门控、专家计算和A2A通信纳入一体化流水线,并使用优先级驱动的all-reduce张量分块机制最大化通信与计算的重叠,在多种真实MoE模型上实现1.13×-1.82×加速、10-39%能耗降低和7-32%内存节省。

Fostering the Ecosystem of AI for Social Impact Requires Expanding and Strengthening Evaluation Standards

本文主张 AI for Social Impact (AISI) 领域的学术生态需要双轨改革:拓宽"影响力"的定义以认可非部署/非方法创新的贡献,同时对已部署系统采用因果推断级别的严格评估标准。

Frequency-Aware Token Reduction for Efficient Vision Transformer

从频域视角提出 frequency-aware token reduction,将 token 分为高频(HF)和低频(LF)两组,选择性保留 HF token 并将 LF token 聚合为 DC token,在缓解 rank collapse 的同时减少 ViT 的计算量,在 30% token 减少率下多个模型上超越现有 SOTA。

FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees

提出 FSNet 框架,将可微的可行性求解步骤集成到神经网络中,通过最小化约束违反的无约束优化来保证约束满足,同时支持端到端训练,在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。

Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits

证明GP-UCB算法在无噪声GP bandit问题中达到近最优遗憾界,包括在SE核和Matérn核(\(d > \nu\))条件下首次获得常数累积遗憾\(O(1)\),弥合了GP-UCB理论与实际性能之间的差距。

Generalized Linear Mode Connectivity for Transformers

提出统一对称性框架(置换、半置换、正交、可逆变换四级层次),首次在 Vision Transformer 和 GPT-2 上实现零/近零 barrier 的线性模式连通性(LMC),并扩展至多模型融合与异构宽度对齐。

Graph Alignment via Birkhoff Relaxation

本文首次为图对齐问题的 Birkhoff 松弛(将排列矩阵约束松弛为双随机矩阵约束)提供了理论保证,在高斯 Wigner 模型下证明了最优解的相变行为:当噪声 \(\sigma = o(n^{-1})\) 时松弛解接近真实排列,当 \(\sigma = \Omega(n^{-0.5})\) 时松弛解远离真实排列。

Harnessing Feature Resonance under Arbitrary Target Alignment for Out-of-Distribution Node Detection

发现 Feature Resonance 现象——优化已知 ID 节点表征时未知 ID 节点的表征变化显著大于 OOD 节点,且该现象与标签无关,据此提出无需多类标签的图 OOD 节点检测框架 RSL,在 13 个数据集上达到 SOTA。

Hessian-guided Perturbed Wasserstein Gradient Flows for Escaping Saddle Points

提出扰动Wasserstein梯度流(PWGF)算法,通过基于Hessian构造的高斯过程注入噪声扰动,使概率测度优化能够高效逃离鞍点并达到二阶最优性。

How Many Domains Suffice for Domain Generalization? A Tight Characterization via the Domain Shattering Dimension

提出"领域碎裂维度"(Domain Shattering Dimension)这一新组合度量,紧致刻画了领域泛化所需的领域数量(领域样本复杂度),并证明其与经典VC维的关系为 \(\Theta(d \log(1/\alpha))\)

Hybrid-Balance GFlowNet for Solving Vehicle Routing Problems

提出Hybrid-Balance GFlowNet(HBG)框架,首次在VRP场景中引入详细平衡(DB)并与轨迹平衡(TB)统一集成,配合depot引导推理策略,在CVRP和TSP上显著提升两种现有GFlowNet求解器(AGFN和GFACS)的性能。

Impact of Layer Norm on Memorization and Generalization in Transformers

系统揭示了LayerNorm在Pre-LN和Post-LN Transformer中的截然不同角色:Pre-LN中LN对学习至关重要,移除会破坏泛化;Post-LN中LN驱动记忆化,移除可抑制记忆化并恢复真实标签。

Improved Approximation Algorithms for Chromatic and Pseudometric-Weighted Correlation Clustering

针对 Correlation Clustering 的两个重要推广——Chromatic CC 和 pseudometric-weighted CC,基于 LP relaxation 与精心设计的 rounding function,分别取得 2.15-approximation 和 tight 10/3-approximation,显著改进了先前最佳结果(2.5 和 6)。

Improving Decision Trees through the Lens of Parameterized Local Search

从参数化复杂度的视角分析决策树的局部搜索优化操作,揭示问题的难度来源,并证明特征数与值域大小的组合可实现固定参数可解(FPT),同时提供了概念验证实现。

Improving Forecasts of Suicide Attempts for Patients with Little Data

提出 Latent Similarity Gaussian Process (LSGP),将患者嵌入连续隐空间以捕获异质性,使数据稀少的患者能从相似患者"借用"预测趋势,从而改进基于 EMA 数据的自杀未遂预测。

Inferring Stochastic Dynamics with Growth from Cross-Sectional Data

提出非平衡概率流推断(UPFI),通过Fokker-Planck方程的Lagrangian形式化,从横截面数据中联合推断随机动力学系统的漂移项、扩散项和增长率,首次准确处理含细胞增殖/死亡的场景。

Information-Computation Tradeoffs for Noiseless Linear Regression with Oblivious Contamination

对无噪声线性回归在Oblivious污染模型下,形式化证明任何高效Statistical Query算法都需要 \(\tilde{\Omega}(d^{1/2}/\alpha^2)\) 的VSTAT复杂度,给出了 \(1/\alpha\) 的二次依赖对高效算法具有本质性的计算下界证据。

Infrequent Exploration in Linear Bandits

提出 INFEX 框架,按给定调度表在探索步执行基线算法(如 LinUCB/LinTS)、其余时刻贪心选臂,证明只要探索次数超过 \(\omega(\log T)\) 即可达到与全时刻探索相同的多项对数 regret,同时大幅降低计算开销(80%-99% 时间步为贪心)。

Johnson-Lindenstrauss Lemma Beyond Euclidean Geometry

将Johnson-Lindenstrauss引理从欧几里得空间扩展到一般对称空心相异度矩阵,提出伪欧空间JL变换和广义幂距离JL变换两种互补方法,误差与数据偏离欧几何的程度成正比。

Kernel Conditional Tests from Learning-Theoretic Bounds

提出将学习算法的置信界转化为条件假设检验的统一框架,基于核岭回归构建了有限样本保证的条件两样本检验,首次支持非i.i.d.数据与在线采样场景。

Lagrangian neural ODEs: Measuring the existence of a Lagrangian with Helmholtz metrics

提出 Helmholtz metrics——基于 Helmholtz 条件的可微度量,用于量化给定 ODE 与 Euler-Lagrange 方程的接近程度,并将其作为正则化项加入二阶 Neural ODE 训练中,形成 Lagrangian Neural ODE,在零额外推理开销下引导模型收敛到真正的物理定律。

Learning-Augmented Online Bipartite Fractional Matching

本文提出了两个学习增强算法(LAB 和 PAW),用于在线二部分数匹配问题,在给定可能不准确的建议匹配的情况下,首次在整个鲁棒性范围内 Pareto 优于朴素的 CoinFlip 策略。

Learning-Augmented Streaming Algorithms for Correlation Clustering

提出了首个面向相关聚类(Correlation Clustering)的学习增强流算法,利用成对距离预测,在完全图上实现优于3的近似比(\(\tilde{O}(n)\) 空间),在一般图上实现 \(O(\log|E^-|)\) 近似比(\(\tilde{O}(n)\) 空间),在空间-近似比权衡上显著改进了已有的非学习算法。

Learning (Approximately) Equivariant Networks via Constrained Optimization

提出ACE(Adaptive Constrained Equivariance)框架,将等变神经网络训练建模为约束优化问题,通过对偶方法自动从灵活的非等变模型渐进过渡到等变模型,无需手动调参即可适应完全和部分对称数据。

Learning Dense Hand Contact Estimation from Imbalanced Data

提出 HACO 框架,通过平衡接触采样(BCS)解决类别不平衡和顶点级类别平衡损失(VCB Loss)解决空间不平衡,首次在 14 个数据集(65.5 万图像)上训练稠密手部接触估计模型,在多种交互场景下达到 SOTA。

Learning Dynamics of RNNs in Closed-Loop Environments

从数学理论上揭示了 RNN 在闭环(agent-环境交互)与开环(监督学习)训练下呈现根本不同的学习动力学,闭环学习遵循三阶段过程,由短期策略改进与长期稳定性之间的竞争驱动。

Learning non-equilibrium diffusions with Schrödinger bridges: from exactly solvable to simulation-free

将Schrödinger桥问题从布朗运动参考过程推广到多变量Ornstein-Uhlenbeck(mvOU)参考过程,推导高斯情形精确解,并提出无模拟的mvOU-OTFM算法处理一般分布。

Learning to Condition: A Neural Heuristic for Scalable MPE Inference

提出 Learning to Condition (L2C),通过训练注意力网络从求解器搜索轨迹中学习变量-值对的"最优性"与"简化性"双重评分,用于指导概率图模型中 MPE 推理的条件化决策,在高树宽模型上大幅缩减搜索空间且维持或提升解质量。

Look-Ahead Reasoning on Learning Platforms

在学习平台的用户-算法交互中形式化 level-\(k\) 前瞻推理,证明个体自私的高阶推理只加速收敛但不改变均衡(无长期收益),而集体协调的收益由学习者-用户效用函数的对齐程度决定,提供了刻画协调收益上界的理论框架。

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

MAS-ZERO 是首个推理时自动 MAS 设计框架,通过 meta-agent 迭代设计、批评和改进 MAS 配置(包括任务分解和 sub-MAS 分配),无需验证集和训练,在推理(+16.69%)、编程(+16.66%)和搜索代理(+5.45%)任务上均超越手动和自动 MAS baseline,同时保持 Pareto 最优的准确率-成本权衡。

MaxSup: Overcoming Representation Collapse in Label Smoothing

通过解析 Label Smoothing (LS) 的损失函数,发现其包含一个在错误分类时放大错误的"误差放大项",导致类内特征坍缩;提出 Max Suppression (MaxSup) 方法,将惩罚目标从 ground-truth logit 转移至 top-1 logit,消除误差放大效应同时保留有益正则化。

MEGState: Phoneme Decoding from Magnetoencephalography Signals

提出 MEGState,一种融合多分辨率卷积和传感器级 SSM 的架构,用于从脑磁图(MEG)信号中解码音素,在 LibriBrain 数据集上显著超越基线方法。

Meta-learning three-factor plasticity rules for structured credit assignment with sparse feedback

本文提出一种元学习框架,通过外层梯度优化自动发现局部的新赫布式突触可塑性规则,使循环神经网络仅利用稀疏延迟奖励信号就能完成结构化的信用分配,为理解生物神经网络的学习机制提供了新视角。

MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation

MetaFind 是一个场景感知的三模态(文本+图像+点云)3D 资产检索框架,通过引入 SE(3) 等变的空间-语义图神经网络 (ESSGNN) 编码场景布局信息,实现了在元宇宙场景生成中风格一致、空间合理的迭代式资产检索。

MiCADangelo: Fine-Grained Reconstruction of Constrained CAD Models from 3D Scans

MiCADangelo 模拟人类 CAD 设计师的逆向工程流程,通过多平面截面分析提取 2D 模式,预测带约束的参数化草图并优化拉伸参数,首次在 3D CAD 逆向工程中实现了包含草图约束的完整参数化模型重建。

Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications

本文提出 AI-LAWS(AI 驱动致命性自主武器系统)的行为导向定义与监管框架,通过两条技术准则识别需特别监管的军事 AI 系统,并提出五项具体政策建议,呼吁 AI 研究者深度参与军事 AI 治理的全生命周期。

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

提出 Unbalanced Mean Field Schrödinger Bridge (UMFSB) 框架和 CytoBridge 深度学习算法,从稀疏时间快照数据中同时建模细胞的非平衡随机动力学和细胞间交互。

Modeling Neural Activity with Conditionally Linear Dynamical Systems

提出条件线性动力系统(CLDS),通过高斯过程先验让线性动力系统参数随观测到的实验协变量非线性变化,在保留线性模型可解释性和高效推断的同时建模神经回路的非线性动态。

MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering

提出 MutualVPR 互学习框架,通过特征驱动的自适应 K-means 聚类动态分配场景类别标签,解决分类式 VPR 方法中由视角变化和遮挡导致的监督不一致问题。

Neural Collapse in Cumulative Link Models for Ordinal Regression: An Analysis with Unconstrained Feature Model

将Neural Collapse (NC)理论扩展到基于累积链接模型(CLM)的序数回归(OR)任务中,在无约束特征模型(UFM)框架下证明了Ordinal Neural Collapse (ONC)的三个标志性质:类内均值坍缩(ONC1)、特征坍缩到一维子空间(ONC2)、以及潜变量按类别顺序排列(ONC3),并在零正则极限下揭示了潜变量与阈值之间的简洁几何关系。

Neural Network for Simulating Radio Emission from Extensive Air Showers

用简单全连接神经网络替代计算昂贵的 CoREAS 蒙特卡洛模拟,快速预测广延大气簇射(EAS)的射电脉冲,并在 \(X_{\text{max}}\) 重建任务中达到与传统模拟可比的分辨率。

Non-Clairvoyant Scheduling with Progress Bars

引入"进度条"信息模型作为透视与非透视调度之间的插值框架,针对对抗性和随机性进度条分别设计了具有最优一致性-鲁棒性权衡的调度算法,同时推进了学习增强调度的理论前沿。

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

在各向异性下降不等式框架下,为非线性预条件梯度方法引入重球法动量,并分析其随机变体在多种噪声假设下的收敛性质,统一了梯度裁剪与归一化梯度方法的理论分析。

Normalization in Attention Dynamics

将不同归一化方案(Post-LN、Pre-LN、Mix-LN、Peri-LN、nGPT、sqrt-scaling)统一建模为球面上交互粒子系统的速度调节机制,从理论上揭示了各方案对 token 聚类动力学和表示坍缩的不同影响,识别 Peri-LN 为理想选择。

Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure

提出Obliviator——一种基于RKHS中HSIC最小化的后处理概念擦除方法,通过两步迭代优化逐步变形特征空间,首次实现对非线性对抗者的完全防护,同时量化了非线性防护的效用-擦除代价(utility-erasure trade-off),在多个PLM和数据集上显著优于现有方法。

On a Geometry of Interbrain Networks

本文是一篇观点论文(opinion piece),提出将离散图曲率(Forman-Ricci 和 Ollivier-Ricci 曲率)引入超扫描(hyperscanning)研究中的脑间网络分析,利用曲率分布的熵来检测网络相变,并通过曲率值推断脑间信息路由策略,突破传统相关性指标的描述性局限。

On Agnostic PAC Learning in the Small Error Regime

本文在不可知 PAC 学习的小误差域(\(\tau \approx d/m\))中,构造了一个基于 ERM 聚合的计算高效学习器,实现了 \(c \cdot \tau + O(\sqrt{\tau d/m} + d/m)\) 的误差上界(\(c \leq 2.1\)),匹配了已知下界,推进了不可知学习的精确复杂度刻画。

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

揭示在标准参数化(SP)下,cross-entropy 损失函数使得"不稳定"区间实际分为灾难性不稳定和受控发散两个子区间:在受控发散区间(学习率 \(\eta_n = \Theta(n^{-1/2})\))logits 发散但梯度和激活保持稳定,从而首次为 SP 提供了一个实用的、具有特征学习能力的无穷宽极限。

On Topological Descriptors for Graph Products

系统研究在图的(box)积上施加各种滤过时拓扑描述子(欧拉特征 EC 和持续同调 PH)的表达能力,证明 PH 图积描述子严格强于对单图的计算,而 EC 不具备此性质,并给出高效 PH 计算算法。

On Universality Classes of Equivariant Networks

本文证明等变神经网络的分离能力(区分对称等价输入的能力)不足以完全刻画其表达能力——具有相同分离能力的模型可能拥有不同的逼近能力,并给出了浅层不变网络通用性类的完整刻画及失败的充分条件。

One Sample is Enough to Make Conformal Prediction Robust

提出 RCP1(单样本鲁棒共形预测),通过认证共形过程本身而非单个 conformity score,仅需一次随机扰动前向传播即可获得比需要 100 次前向传播的 SOTA 方法更小的鲁棒预测集。

Optimism Without Regularization: Constant Regret in Zero-Sum Games

首次证明无正则化的Optimistic Fictitious Play在2×2零和博弈中获得O(1)常数遗憾,匹配了正则化Optimistic FTRL的最优率,同时证明Alternating Fictitious Play的遗憾下界为Ω(√T),分离了乐观和交替在无正则化情况下的能力。

Optimized Learned Count-Min Sketch

提出 OptLCMS,通过将分数空间分区并用 KKT 条件解析求解 CMS 参数、动态规划优化阈值,大幅加速构建过程,同时提供不可容忍误差概率的理论保证。

OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning

提出 OrbitZoo,一个基于工业级天体动力学库 Orekit 的多智能体 RL 环境,集成高保真轨道动力学(含大气阻力、太阳辐射压、三体效应等)、PettingZoo 多智能体接口和实时 3D 可视化,在 Starlink 真实星历验证中均值 MAPE 仅 0.16%。

OrthoLoC: UAV 6-DoF Localization and Calibration Using Orthographic Geodata

OrthoLoC构建了首个面向正射地理数据(DOP+DSM)的大规模UAV 6-DoF定位基准数据集,包含16425张真实UAV图像覆盖德国和美国47个区域,并引入AdHoP(自适应单应性预处理)匹配改进技术,在不修改特征匹配器的情况下将匹配性能提升95%、平移误差降低63%。

Out-of-distribution Generalisation is Hard: Evidence from ARC-like Tasks

通过构建具有明确OOD度量的ARC类任务,证明标准神经网络(MLP/CNN/Transformer)无法实现组合OOD泛化,即使设计具有正确归纳偏置的架构达到近乎完美的OOD性能,也可能学到错误的组合特征。

Overfitting in Adaptive Robust Optimization

揭示自适应鲁棒优化(ARO)中策略脆弱性与机器学习过拟合的类比关系:自适应策略在不确定性集内表现优异但集外易失效,提出约束特定的不确定性集大小作为"正则化"手段来平衡鲁棒性和自适应性。

Plasticity as the Mirror of Empowerment

本文提出广义有向信息(GDI)作为度量智能体可塑性(plasticity)的信息论工具,揭示可塑性是赋权(empowerment)的"镜像"——两者使用相同度量、仅方向相反,并证明了两者之间存在严格的张力约束(tension bound)。

笔记7:价值引导搜索 - 高效链式思考推理

提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。

Position: There Is No Free Bayesian Uncertainty Quantification

本文从频率学派视角质疑贝叶斯不确定性量化(UQ)的有效性,将贝叶斯更新重新解释为模型集成的优化问题,并提出基于PAC框架的校准算法以构建具有频率学派保证的预测区间。

Prediction-Powered Semi-Supervised Learning with Online Power Tuning

将预测驱动推断(PPI)框架扩展到半监督学习训练过程中,提出无偏梯度估计器,并设计在线AdaGrad算法动态调节伪标签与真实标签的相对权重 \(\lambda\),在保证无偏性的同时实现与最优固定 \(\lambda\) 匹配的收敛速率。

Private Evolution Converges

为Private Evolution(PE)合成数据生成算法提供了首个不依赖不现实假设的收敛性理论保证,证明在正确的超参数设置下PE输出的 \((ε,δ)\)-DP 合成数据集的1-Wasserstein距离为 \(\tilde{O}(d(nε)^{-1/d})\)

Product Distribution Learning with Imperfect Advice

本文研究在给定不完美建议分布的情况下学习布尔超立方体上乘积分布的问题,提出了一种高效算法,当建议质量足够好时样本复杂度可实现关于维度 \(d\) 的次线性依赖。

Radar: Benchmarking Language Models on Imperfect Tabular Data

提出 Radar 基准,通过对真实表格数据注入五类数据工件(缺失值、错误值、异常值、格式不一致、逻辑不一致),系统评估语言模型在不完美表格数据上的数据感知推理能力,揭示即使是前沿模型在引入数据工件后性能也大幅下降。

Recurrent Self-Attention Dynamics: An Energy-Agnostic Perspective from Jacobians

本文从动力系统的 Jacobian 分析视角,突破传统能量函数框架的对称性约束,揭示了归一化层在抑制自注意力谱范数和振荡分量方面的关键作用,发现高性能循环自注意力模型的 Lyapunov 指数趋近于零(临界态),并基于此提出谱正则化方法显著提升推理性能。

Redundancy-Aware Test-Time Graph Out-of-Distribution Detection

提出 RedOUT 框架,通过最小化结构熵构建编码树来消除图结构中的冗余信息,结合冗余感知图信息瓶颈(ReGIB)原理,在测试时无需修改预训练模型参数即可有效区分ID和OOD图样本,在10个数据集对上平均AUC达87.46%。

Regression Trees Know Calculus

揭示常叶回归树中隐含的梯度信息——通过相邻节点均值差的有限差分类比,高效提取梯度估计,进而将活跃子空间(Active Subspace)和集成梯度(Integrated Gradient)等微分工具引入树模型,拓展了树模型的可解释性和预测改进能力。

Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry

提出 NCAL-R,利用深度网络训练后期涌现的 Neural Collapse 几何结构,设计类均值对齐扰动(CMAP)和特征波动(FF)两个评分指标来选择样本,使主动学习在标签噪声和分布偏移下更加可靠,在 ImageNet-100 和 CIFAR-100 上一致优于传统 AL 基线。

笔记5:ReSearch - 学习通过搜索推理

ReSearch框架将搜索操作嵌入推理链中作为第一类原语,通过GRPO强化学习自动学习何时何如搜索,无需任何推理步骤的监督标注,在多跳QA任务上相对基线平均提升15.81%。

ResNets Are Deeper Than You Think

证明残差网络与前馈网络居于不同的函数空间(非简单重参数化),并通过后训练部分线性化实验表明变深度架构(类ResNet)即使在排除可训练性差异后仍优于固定深度架构,暗示残差连接提供了超越优化的归纳偏好。

Rethinking PCA Through Duality

通过 Difference-of-Convex (DC) 框架重新审视 PCA,建立了核化和样本外推广能力,揭示了同步迭代是 DCA 的特例,并提出了鲁棒 \(\ell_1\)-PCA 的核化对偶公式。

Revisiting Agnostic Boosting

提出新的不可知 Boosting 算法,在非常一般的假设下大幅改善了此前工作的样本复杂度,并建立近匹配下界,从而在对数因子意义下解决了不可知 Boosting 的样本复杂度问题。

RNNs Perform Task Computations by Dynamically Warping Neural Representations

本文提出一个黎曼几何框架,通过将表示空间度量从 RNN 状态空间拉回(pullback)到输入流形上,证明 RNN 通过动态变形(warping)其对任务变量的表示来执行计算——压缩无关输入、拉伸决策边界附近的空间,且这种变形不是副产物而是计算本身。

Robust Sampling for Active Statistical Inference

提出基于预算保持路径的鲁棒采样策略,通过在均匀采样和主动采样之间最优插值,确保估计器的方差永远不比两者中任何一个更差,解决了主动统计推断中不确定性估计不准确导致性能恶化的问题。

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

利用 o-minimal 结构的数学工具,证明了使用常见光滑激活函数(sigmoid、tanh、softplus、GELU 等)的全连接网络的梯度流存在二元性:要么收敛到临界点,要么发散到无穷大且损失收敛到渐近临界值。特别地,对多项式目标函数,证明了损失无法精确取零但可任意接近零,从而导致参数必然发散。

Sample-Adaptivity Tradeoff in On-Demand Sampling

系统研究了按需采样(on-demand sampling)中样本复杂度与自适应轮次之间的权衡关系,在可实现设定下证明 \(r\) 轮算法的最优样本复杂度为 \(dk^{\Theta(1/r)}/\varepsilon\),在不可知设定下提出仅需 \(\widetilde{O}(\sqrt{k})\) 轮即可达近最优样本复杂度的LazyHedge算法,并引入OODS抽象框架建立了近紧的轮次复杂度下界。

Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch

提出面向现代 Ampere GPU 优化的欧拉特征曲线(ECC)CUDA 内核,相比先前 GPU 实现达到 16-2000x 加速,并引入可微 PyTorch 层通过 DECT 风格的 sigmoid 松弛支持在密集网格图像上的端到端拓扑特征学习。

Scalable Inference of Functional Neural Connectivity at Submillisecond Timescales

将传统离散时间Poisson GLM推广到连续时间Poisson点过程,通过蒙特卡洛采样和二阶多项式近似两种方法绕过不可解的积分项,配合正交的广义Laguerre基函数,在数百神经元、数千秒记录的数据上实现分钟级训练和亚毫秒级突触连接识别。

Semi-infinite Nonconvex Constrained Min-Max Optimization

针对带有无穷多非凸约束的非凸 min-max 优化问题,提出 iDB-PD(不精确动态障碍原始-对偶)算法,在 Łojasiewicz 正则条件下建立了首个全局非渐近收敛保证,稳定性 \(\mathcal{O}(\epsilon^{-3})\)、可行性 \(\mathcal{O}(\epsilon^{-6\theta})\)、互补松弛 \(\mathcal{O}(\epsilon^{-3\theta/(1-\theta)})\)

Semi-supervised Graph Anomaly Detection via Robust Homophily Learning

提出RHO (Robust Homophily Learning)方法,通过自适应频率响应滤波器(AdaFreq)和图正常性对齐(GNA)模块,解决半监督图异常检测中正常节点同质性多样性的问题,在8个真实数据集上超越现有方法。

Sharpness-Aware Minimization with Z-Score Gradient Filtering

提出 Z-Score Filtered SAM (ZSAM),通过对每层梯度进行 Z-Score 统计过滤,仅保留最显著的梯度分量进行扰动上升步骤,从而引导优化器更有效地搜索平坦极小值,在多个数据集和架构上一致提升测试精度。

Sheaf Cohomology of Linear Predictive Coding Networks

本文将线性预测编码(PC)网络形式化为细胞层(cellular sheaf),证明PC推理等价于层Laplacian下的扩散过程,通过Hodge分解将监督信号拆解为可消除误差(通过推理)和不可约误差(由循环拓扑的上同调刻画),从而精确解释了为什么某些循环权重初始化会导致学习停滞。

Sign-In to the Lottery: Reparameterized Sparse Training from Scratch

本文发现稀疏网络从头训练(PaI)性能差的根本原因是无法像dense-to-sparse方法那样学习正确的参数符号,为此提出Sign-In重参数化方法(θ=m⊙w),通过引入内部自由度来促进符号翻转,理论证明其能解决一种互补于过参数化的符号翻转情况,实验中显著提升了稀疏从头训练的性能。

SMRS: Advocating a Unified Reporting Standard for Surrogate Models in the Artificial Intelligence Era

本文针对AI驱动的代理模型(Surrogate Model)领域缺乏标准化报告规范的痛点,提出了一套轻量级、模块化、与模型无关的报告标准SMRS,覆盖数据采集、模型选择、训练方法、评估指标等完整建模流水线的六大维度,通过对17篇已发表论文的案例研究验证了框架的可操作性,旨在提升代理模型的可复现性、可比较性和跨领域迁移能力。

SPACE: SPike-Aware Consistency Enhancement for Test-Time Adaptation in Spiking Neural Networks

提出SPACE,首个专为脉冲神经网络(SNN)设计的无源单样本测试时自适应(TTA)方法,通过最大化增强样本间脉冲行为特征图的一致性,在多个数据集和架构上实现鲁棒适应。

Stable Matching with Ties: Approximation Ratios and Learning

研究有并列偏好的双边匹配市场,提出最优稳定份额(OSS)比率概念衡量公平性,证明稳定匹配分布下OSS-ratio为\(\Omega(N)\)但一般匹配分布下可达\(O(\log N)\)(渐近紧),并将离线近似结果扩展到bandit学习场景。

Statistical Inference for Gradient Boosting Regression

提出统一的梯度提升回归统计推断框架,通过将dropout和并行训练整合到Boulevard正则化中,证明了相应的中心极限定理,从而构建了内置的置信区间、预测区间和变量重要性假设检验,并发现增大dropout率和并行树数量能显著提升信号恢复(最高达2倍和4倍)。

Statistical Inference Under Performativity

本文首次建立了表演性预测(performative prediction)下完整的端到端统计推断框架,为重复风险最小化算法推导出中心极限定理和数据驱动的协方差估计方法,并将预测驱动推断(PPI)扩展到动态表演性设置以获得更紧的置信区间。

Structure-Aware Spectral Sparsification via Uniform Edge Sampling

本文证明在具有良好聚类结构的图上(结构比 Υ(k) 足够大),均匀边采样即可保留谱聚类所需的谱子空间结构,无需昂贵的有效电阻预计算——这是首个关于均匀采样保持结构的可证明保证。

The Computational Complexity of Counting Linear Regions in ReLU Neural Networks

系统梳理了ReLU网络"线性区域"的六种非等价定义,证明对所有定义计数线性区域都是#P-hard的(一层隐藏层即如此),并在多层网络中证明了强不可近似结果和多项式空间上界。

The Cost of Robustness: Tighter Bounds on Parameter Complexity for Robust Memorization in ReLU Nets

研究 ReLU 网络鲁棒记忆(robust memorization)的参数复杂度,即在保证每个训练样本 \(\mu\)-邻域内预测一致的条件下插值任意数据集所需的参数数量,在鲁棒性比率 \(\rho = \mu/\epsilon\) 的全范围 \((0,1)\) 内建立了更紧的上下界。

The Parameterized Complexity of Computing the VC-Dimension

本文系统研究了计算VC维问题的参数化复杂性,证明朴素穷举算法在ETH假设下是渐近最优的,给出按最大度参数化的FPT 1-可加近似算法,以及按树宽参数化的 \(2^{O(\text{tw} \cdot \log \text{tw})} \cdot |V|\) 精确算法,并完整刻画了各结构参数下的可处理性景观。

The Persistence of Neural Collapse Despite Low-Rank Bias

本文从理论上证明了深度神经坍缩(DNC)在深层无约束特征模型中由于 L2 正则化引起的低秩偏差而全局次优,同时首次解释了 DNC 在实践中持续出现的原因——其解空间维度随网络宽度增长快于低秩解。

The Structural Complexity of Matrix-Vector Multiplication

证明对于 corrupted VC-dimension 为 \(d\) 的布尔矩阵 \(\mathbf{M} \in \{0,1\}^{m \times n}\),矩阵-向量乘法可在 \(\widetilde{O}(nm^{1-1/d}+m)\) 时间内完成,首次为结构化矩阵提供了真亚二次时间上界,推翻了 OMv 猜想在结构化输入上的适用性,并导出了动态 Laplacian 求解器、有效电阻、三角检测等问题的首个高精度亚二次算法。

Tight Bounds On the Distortion of Randomized and Deterministic Distributed Voting

本文研究分布式投票模型中的度量扭曲 (metric distortion) 问题,针对四种代价目标 (\(\text{avg-avg}\), \(\text{avg-max}\), \(\text{max-avg}\), \(\text{max-max}\)),在确定性和随机机制下给出了改进的紧界或近紧界,几乎完整地刻画了这一模型的扭曲特性。

Training the Untrainable: Introducing Inductive Bias via Representational Alignment

提出Guidance方法,通过逐层表征对齐(CKA)将一个网络(guide)的架构归纳偏置迁移到另一个原本"不可训练"的网络(target),从而使FCN能做图像分类、RNN逼近Transformer的语言建模性能。

Transfer Learning for Benign Overfitting in High-Dimensional Linear Regression

提出两步式Transfer MNI方法,在高维过参数化线性回归中通过"保留目标信号+零空间迁移源知识"机制增强良性过拟合的泛化能力,刻画了模型偏移和协变量偏移下的非渐近excess risk,并发现了"免费午餐"协变量偏移区间。

Ultrametric Cluster Hierarchies: I Want 'em All!

证明了对于任意合理的聚类层次树,都可以快速找到任意中心型聚类目标(如 k-means)的最优解,且这些解本身也是层次化的,从而从一棵树中解锁大量等价有意义的层次结构。

Uncertainty Estimation by Flexible Evidential Deep Learning

提出 \(\mathcal{F}\)-EDL,通过将 EDL 中的 Dirichlet 分布推广为 Flexible Dirichlet (FD) 分布来建模类别概率分布,从而在保持单次前向传播效率的同时,显著增强不确定性估计在噪声、长尾、分布偏移等复杂场景下的泛化能力。

Uncertainty Quantification for Reduced-Order Surrogate Models Applied to Cloud Microphysics

提出首个面向潜空间降阶模型的后验、模型无关不确定性量化框架,利用共形预测分别对重建、潜在动力学和端到端预测构建分布无关的预测区间,揭示了云微物理ROM中不确定性的组件级传播规律——自编码器结构性误差而非动力学误差主导端到端预测不确定性。

UniFormer: Unified and Efficient Transformer for Reasoning Across General and Custom Computing

提出 UniFormer,一种面向 GPU 和 FPGA 跨平台部署的统一高效 Transformer 架构,通过双分支注意力机制(全局线性注意力 + 局部块注意力)实现了高并行性和计算存储融合。

Variational Regularized Unbalanced Optimal Transport: Single Network, Least Action

提出 Var-RUOT,通过将正则化非平衡最优传输(RUOT)问题的最优性必要条件融入参数化和损失设计,仅需学习单个标量场即可求解 RUOT,获得更低作用量的解并提升训练稳定性;同时分析了增长惩罚函数对生物先验的影响。

笔记4:WebThinker - 赋予推理模型深度研究能力

WebThinker赋予大型推理模型(LRM)自主的网络搜索与导航能力,通过Think-Search-Draft策略实现推理、信息采集与报告生成的无缝交织,经RL优化后在复杂推理与科学报告生成任务上超越o1与Gemini。

Weight Weaving: Parameter Pooling for Data-Free Model Merging

本文提出Weight Weaving,一种即插即用的无数据模型合并增强方法,通过在缩放因子搜索空间上对模型参数进行池化操作(如平均、随机选择),消除了对评估数据的依赖,在多任务学习、持续学习和域泛化三个场景中平均准确率最高提升15.9个百分点。

Zebra: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding

提出 Zebra,首个零样本脑视觉解码框架,通过对抗训练与残差分解将 fMRI 表征解耦为主体不变和语义特定成分,无需对新被试做微调即可实现跨被试的视觉重建泛化。