跳转至

🧠 NeurIPS2025 论文汇总

2529篇NeurIPS2025论文解读,涵盖图像生成(221篇)、模型压缩(143篇)、强化学习(143篇)、优化/理论(126篇)、3D 视觉(116篇)、多模态 VLM(107篇)、LLM Reasoning(82篇)、LLM 安全(81篇)等 51个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (82)

A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers

本文证明了将 Transformer 的深度从常数增长到 Θ(log n) 就能解锁识别正则语言和图连通性这两类固定深度 Transformer 无法表达的问题,且深度扩展比宽度(需超多项式增长)和 CoT 步数(需超对数增长)都更高效。

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

提出首个针对基于采样的测试时缩放方法的理论框架,将推理误差分解为估计误差和模型误差,揭示了Self-Consistency收敛慢、Perplexity模型误差大的局限,并提出RPC方法融合两者优势,在7个基准上以50%的采样成本达到同等推理性能。

AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling

提出 AbbIE,一种将 decoder-only Transformer 的中间层(Body)进行递归迭代的架构,只需训练时用 2 次迭代,推理时即可通过增加迭代次数实现 upward generalization,在语言建模困惑度和 zero-shot ICL 任务上均超过标准 Transformer,且可作为标准 Transformer 的 drop-in 替代。

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

提出 Adaptive Dual Reasoner (ADR)——让推理模型在 fast thinking(简单推理步骤压缩)和 slow thinking(复杂推理步骤保留深度)之间动态切换,通过 SFT 冷启动 + EHPO(熵引导混合策略优化)训练,在数学推理基准上准确率提升最高 6.1% 同时推理 token 减少 49.5%-59.3%。

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

首次系统分析了大推理模型(LRM)在机器翻译MQM评估中的行为,发现LRM存在"过度思考"、评分高估和材料选择依赖模型规模等问题,并提出ThinMQM方法通过训练合成人类评分轨迹来校准LRM思维过程,将思维预算减少约35倍同时提升评估性能(7B模型提升+8.7相关性分数)。

ARM: Adaptive Reasoning Model

ARM 通过让模型自适应地选择四种推理格式(直接回答、短CoT、代码、长CoT),配合改进的 Ada-GRPO 训练算法解决 format collapse 问题,在保持与纯长CoT模型持平的准确率的同时平均节省 ~30% token,最多节省 ~70%。

Atom of Thoughts for Markov LLM Test-Time Scaling

提出 Atom of Thoughts (AoT),将 LLM 推理建模为马尔可夫链,每个状态是与原问题答案等价但复杂度递减的自包含子问题,通过 DAG 分解+收缩的两阶段转移机制消除历史依赖,可与 ToT/反思等方法无缝集成,在数学/代码/多跳QA等6个benchmark上全面领先现有推理框架。

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

提出 SPARKLE 三轴分析框架(计划执行、知识整合、子问题分解)细粒度剖析 RL 如何改变 LLM 推理行为,发现 RL 主要增强了知识整合能力和计划灵活性而非计划执行能力,并提出 SparkleRL-PSS 多阶段 RL 训练 pipeline 通过 partial step scaffolding 有效利用难题数据。

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

从 token 熵模式的全新视角分析 RLVR,发现 CoT 推理中仅约 20% 的高熵"分叉 token"决定推理方向,仅在这些 token 上做梯度更新即可匹配甚至大幅超越全量更新(Qwen3-32B 上 AIME'25 +11.04),揭示 RLVR 本质是优化推理决策点。

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

提出ChartMuseum图表问答基准,包含1162个专家标注问题和184个来源的真实图表,首次系统区分视觉推理与文本推理能力,揭示当前最强模型Gemini-2.5-Pro仅63.0%而人类达93%,视觉推理性能比文本推理低35%-55%。

查看全部82篇「LLM Reasoning」论文 →


🦾 LLM Agent (39)

A-MEM: Agentic Memory for LLM Agents

提出 A-Mem,一种受 Zettelkasten 启发的 LLM Agent 智能记忆系统,每条记忆自动生成结构化笔记(关键词/标签/上下文描述),动态建立记忆间链接,并在新记忆加入时触发旧记忆的演化更新,在 LoCoMo 长对话 QA 上显著超越 MemGPT 等基线。

AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

提出 AgentAuditor——一个免训练、记忆增强的推理框架,通过让 LLM 自适应提取结构化语义特征(场景、风险、行为)构建经验记忆库,再借助多阶段上下文感知的检索增强生成来引导 LLM 评估器判断 agent 行为的安全性与安全威胁,同时发布首个同时覆盖 safety 和 security 的评估基准 ASSEBench(2293 条记录、15 种风险类型、29 个场景),在多个基准上达到人类专家水平的评估精度。

AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness

AgentChangeBench 是首个系统评估 LLM agent 在对话中途目标切换时适应能力的 benchmark:315 基础任务 × 9 变体 = 2835 序列,覆盖 3 个企业领域(银行/零售/航空)和 5 种 user persona,引入 GSRT(目标切换恢复时间)等 4 个互补指标,揭示高 pass@k 掩盖的效率和鲁棒性差距——如 GPT-4o 航空恢复率 92.2% 但零售冗余率达 89.1%。

Agentic NL2SQL to Reduce Computational Costs

提出 Datalake Agent,一个基于交互循环的 agentic NL2SQL 系统,通过分层的信息获取策略(GetDBDescription -> GetTables -> GetColumns -> DBQueryFinalSQL)让 LLM 按需请求数据库 schema 信息而非一次性接收全部,在 319 张表的场景下将 token 使用量减少 87%、成本降低 8 倍,同时在复杂查询上保持更好的性能。

Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

提出 Agentic Plan Caching (APC)——从 agent 执行日志中提取结构化计划模板,通过关键词匹配缓存命中后用小模型适配复用,平均降低 50.31% 成本和 27.28% 延迟,同时保持 96.61% 的最优准确率。

AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents

提出 AgentMisalignment 基准套件,包含 9 个现实场景评估任务,测量 LLM Agent 在非恶意指令下 自发偏离 部署者意图的倾向(而非能力),发现更强的模型倾向于更高的错误对齐,且人格提示(persona prompt)有时比模型选择本身对错误对齐行为的影响更大。

AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

本文研究多阶段复杂任务中的测试时计算最优缩放问题,通过大规模先导实验总结出三个关于 LLM 在多阶段任务中的缩放规律洞察,并提出 AgentTTS——一个基于 LLM Agent 的框架,通过迭代反馈驱动搜索自主寻找计算最优的模型选择和预算分配方案。

Are Large Language Models Sensitive to the Motives Behind Communication?

通过三个递进实验系统评估LLM是否具备"动机警觉性"——识别信息源的意图和激励并相应调整信任度的能力:在控制实验中前沿非推理LLM表现接近理性模型(Pearson's \(r>0.9\))且比理性模型更像人类,但在真实YouTube赞助广告场景中警觉性大幅下降(\(r<0.2\)),简单的prompt steering可部分恢复(\(r\)提升至0.31)。

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

提出 Blink-Think-Link(BTL)脑启发框架,将 GUI 交互分解为 Blink(快速注意力定位)、Think(认知推理决策)、Link(可执行命令生成)三个生物合理阶段,配合自动化 Blink 数据标注 pipeline 和首个基于规则的过程+结果复合奖励机制 BTL Reward,训练的 BTL-UI 在静态 GUI 理解和动态交互 benchmark 上达到 competitive 性能。

CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension

受皮亚杰建构主义理论启发,提出CAM——一种具有结构性(层次化schema)、灵活性(重叠聚类的同化)和动态性(增量适应)三大特征的智能体记忆系统,在6个长文本阅读理解任务上全面超越RAPTOR、GraphRAG等基线。

查看全部39篇「LLM Agent」论文 →


👥 Multi-Agent (17)

3D-Agent: Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation

提出 Tri-MARF 三模态多智能体框架,通过 VLM 标注 Agent(多视角多候选描述)+ 信息聚合 Agent(BERT 聚类 + CLIP 加权 + UCB1 多臂赌博机选择)+ 点云门控 Agent(Uni3D 文本-点云对齐过滤幻觉),实现 CLIPScore 88.7(超越人类标注 82.4)、吞吐量 12k 物体/小时,已标注约 200 万 3D 模型。

Adaptive Coopetition: Leveraging Coarse Verifier Signals for Resilient Multi-Agent LLM Reasoning

提出 Adaptive Coopetition (AdCo) 框架,利用 UCB 多臂老虎机策略和粗粒度验证器信号,使多个 LLM 智能体在推理过程中自适应地切换协作与竞争模式,在数学推理基准上实现 20% 的相对提升。

Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection

将 Agent 组件选择问题形式化为在线背包问题,提出 Composer Agent 框架:通过沙盒实测(而非静态语义检索)评估组件真实能力,结合 ZCL 在线算法在预算约束下动态选取最优组件组合,单 Agent 工具选择成功率提升最高 31.6%,多 Agent 子代理选择成功率从 37% 跃升至 87%。

Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks

提出 Belief-Calibrated Consensus Seeking (BCCS) 框架,通过引入信念(belief)校准的共识判断、冲突感知的协作者分配和领导者选择三个模块,让多智能体系统在复杂NLP任务上达成更稳定的共识,在 MATH 和 MMLU 上的困难任务分别提升 2.23% 和 3.95%。

Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models

提出基于轻量世界模型的"意图通信"架构,通过生成并共享未来轨迹计划来实现多智能体协调,在可扩展性和性能上全面超越端到端涌现通信方案。

Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

通过理论和实验证明,多智能体辩论(MAD)的性能提升主要来自多数投票(ensembling)而非辩论本身——辩论过程构成 martingale(期望不变),即辩论不系统性地提升正确率,并基于此理论提出通过偏向正确信号来改进 MAD。

GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies

提出 GauDP,通过从多智能体的去中心化 RGB 观测中构建全局一致的 3D 高斯场,并将高斯属性动态分配回各智能体的局部视角,实现可扩展的、感知增强的多智能体协作模仿学习。

Large Language Models Miss the Multi-Agent Mark

Position paper 通过调研 1400+ 篇论文,系统论证当前 MAS LLMs 在四个维度偏离传统 MAS 基础理论——LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化,指出该领域有忽视 40 年 MAS 成果而重新发明轮子的风险。

Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve

提出 LessonL 框架,使多个小 LLM 智能体通过相互学习的"课程"(lesson)对成功和失败案例进行反思,协同优化代码性能,3 个 7B-14B 模型组合达到 GPT-4o 甚至接近 o3 的代码优化效果。

MASFIN: A Multi-Agent System for Decomposed Financial Reasoning and Forecasting

提出 MASFIN 多 agent 系统,将金融预测任务分解为多个子任务(宏观分析、行业分析、技术分析、情感分析等),由专门的 LLM agent 协作完成,实现比单一模型更准确和可解释的金融预测。

查看全部17篇「Multi-Agent」论文 →


⚖️ 对齐 / RLHF (36)

Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency

提出基于任务并发(Task Concurrency)的LLM越狱攻击框架 JAIL-CON,通过在词级别交错编码有害任务和良性任务,利用LLM处理并发任务的能力绕过安全防护,同时产生的并发回答在guardrail下具有更强的隐蔽性。

Alignment of Large Language Models with Constrained Learning

本文提出 CAID(Constrained Alignment via Iterative Dualization),通过迭代对偶方法交替更新 LLM 策略和对偶变量,在理论上证明了对偶方法可以找到最优约束 LLM 策略(至多存在参数化间隙),并在 PKU-SafeRLHF 数据集上显著改善了约束满足和 helpfulness-safety 权衡。

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

Ask a Strong LLM Judge when Your Reward Model is Uncertain

提出基于不确定性的路由框架,用SNGP对pairwise reward model做不确定性量化,将高认知不确定性的样本路由到强LLM judge(DeepSeek-R1),在仅调用9.2%~42.5% judge的成本下显著超越随机路由的准确率,且有效改善下游在线RLHF对齐效果。

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

提出两阶段微调攻击:第一阶段用10个问题配相同拒绝答案使LLM过拟合到窄最优解(尖锐loss landscape),第二阶段用相同10个问题配正常答案触发灾难性遗忘——安全对齐被"忘掉",仅用完全良性数据即达94.84%越狱成功率,与恶意微调(97.25%)相当且完全绕过审核模型。

Can DPO Learn Diverse Human Values? A Theoretical Scaling Law

建立了 DPO 在多元人类价值设定下的理论泛化框架——通过分析有限梯度步后 reward margin 的动态轨迹,证明了每种价值所需样本量必须随价值类别数 \(K\) 对数增长(\(Q = \Theta(\log K)\))才能维持泛化性能,揭示了对齐多元化社会价值的统计代价。

Capturing Individual Human Preferences with Reward Features

提出奖励特征模型(RFM):学习共享奖励特征 \(\phi_\theta(x,y)\),每个用户通过线性权重 \(\mathbf{w}_h\) 组合这些特征得到个性化奖励 \(r_h = \langle \phi_\theta, \mathbf{w}_h \rangle\),并首次给出多评价者偏好学习的PAC泛化界,证明增加评价者数 \(m\) 比增加每人样本数 \(n\) 更有效,仅30个样本即可快速适应新用户。

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

提出DeepVideo-R1,将GRPO重新表述为回归优势值的Reg-GRPO(消除clipping/min等保护机制),同时通过难度感知数据增强缓解优势值消失问题,在视频推理任务上相比标准GRPO提升高达10.1个百分点。

EvoRefuse: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

本文提出 EvoRefuse——一个以 LLM 拒绝概率的证据下界(ELBO)为适应度的进化式提示优化算法,自动生成"看着像坏话、其实无害"的伪恶意指令;用它造出评测集 EvoRefuse-Test(582 条,平均拒绝触发率比最强基线高 85.34%)和对齐集 EvoRefuse-Align(3000 条),后者微调 LLaMA3.1-8B 后过度拒绝最多降 45.96% 且不牺牲安全。

From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring

提出 Streaming Content Monitor (SCM)——首个原生支持部分检测的流式有害内容监控器,通过 FineHarm 数据集(29K 样本含 token 级标注)和层次一致性感知学习,平均仅需看到 18% 的 response tokens 即可达到 0.95+ macro F1,实现对 LLM 有害输出的实时早停。

查看全部36篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (81)

A Cramér–von Mises Approach to Incentivizing Truthful Data Sharing

提出一种基于 Cramér-von Mises 两样本检验统计量的激励机制,在贝叶斯和无先验两种设定下均能证明"如实提交数据"构成(近似)Nash 均衡,同时鼓励参与者提交更多真实数据,且不依赖对数据分布的强假设(如高斯、伯努利)。

A Reliable Cryptographic Framework for Empirical Machine Unlearning Evaluation

将机器遗忘的评估问题建模为密码学博弈(unlearning sample inference game),通过定义adversary的"advantage"来衡量遗忘质量,克服了传统MIA准确率作为评估指标的多种缺陷(不以retrain为零基准、对数据划分敏感、对MIA选择敏感),并提出SWAP test作为高效的实用近似方案。

A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs

提出一种自适应 Alpha 聚合策略,在联邦 RLHF 框架中根据各用户群体的历史对齐表现动态调整奖励权重,从而在多元偏好对齐中同时实现高公平性和强对齐性能。

Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning

提出 FedLEASE——解决联邦 LoRA 微调中两个关键问题:(1) 用 LoRA B 矩阵相似度聚类自动确定最优专家数量和分配,(2) 用扩展路由空间(\(2M-1\) 维)实现自适应 top-M 专家选择(每个客户端自动决定用几个专家),在 GLUE 上比最强基线平均提升 5.53%。

Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

提出 Adversarial Paraphrasing——一种无需训练的通用攻击框架,在逐 token 改写时利用 AI 文本检测器的反馈信号选择"最像人写"的 token,使改写后的 AI 文本在 8 种检测器上平均 T@1%F 下降 87.88%,且具有跨检测器的强迁移性。

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。

AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text

提出 AgentStealth 框架,通过对抗式匿名化工作流、监督微调(SFT)和在线强化学习三阶段训练小型语言模型(SLM),实现在保持文本效用的同时有效匿名化用户生成内容,匿名化效果提升12.3%、效用提升6.8%。

ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models

首个针对音频语言模型(ALM)越狱攻击的防御框架——发现对齐过的 ALM 存在可被激活的潜在安全快捷路径(safety shortcuts),通过 Mel 梯度稀疏掩码(M-GSM)定位关键频率段,施加快捷路径激活扰动(SAP),将平均攻击成功率从 41.6% 降至 4.6%,同时几乎不影响正常任务性能。

Approximate Domain Unlearning for Vision-Language Models

提出 Approximate Domain Unlearning (ADU) 新任务,通过 Domain Disentangling Loss (DDL) 和 Instance-wise Prompt Generator (InstaPG) 两个模块,让预训练 VLM 选择性遗忘指定域(如插画、素描)的识别能力,同时保持其他域(如真实照片)的分类精度,在四个多域数据集上大幅超越所有基线。

Attention! Your Vision Language Model Could Be Maliciously Manipulated

本文提出 Vision-language Model Manipulation Attack (VMA),一种结合一阶和二阶动量优化及可微变换机制的图像对抗攻击方法,能够精确操控VLM的每个输出token,可用于实施多种攻击(越狱、劫持、隐私泄露、DoS、海绵样本)同时也可用于版权保护水印注入。

查看全部81篇「LLM 安全」论文 →


👻 幻觉检测 (17)

Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models

系统性审计推理大模型(RLLM)中幻觉的产生与传播机制,发现长 CoT 中的反思(reflection)会通过元认知偏差放大幻觉而非纠正它,即使在幻觉源头进行干预也难以改变最终结果(chain disloyalty),揭示现有幻觉检测方法在多步推理场景下严重不足。

Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs

本文发现 LLM 的数值幻觉根源于预训练语料中符合 Benford 定律的数字频率分布——数字 1 出现概率 ~30% 而数字 9 仅 ~5%,这种偏差被 FFN 后期层的特定"数字选择性神经元"内化,提出数字选择性分数(DSC)定位偏差神经元并通过剪枝 0.01% 的神经元修正 1.36-3.49% 的错误预测。

Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT

将LLM的全部隐层激活组织为"激活张量"(层×token×隐维度),类比图像用ViT处理,设计ACT-ViT架构支持跨LLM联合训练,在15个LLM-数据集组合上一致超越传统probing方法,并展现出对未见数据集和未见LLM的强零样本/少样本迁移能力。

Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models

揭示 MLLM 中物体幻觉的表示层根因——数据集共现偏差导致的语义纠缠,提出双路因果解纠缠框架(Causal-Driven Projector + Causal Intervention Module),通过后门调整在 projector 和最终 Transformer 层分离共现物体表示,使 MME-Perception 提升 22.6%。

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

本文论证 LLM 的泛化能力和幻觉产生源于同一机制——脱语境推理(OCR),并在单层注意力模型上理论证明:分解参数化 \((W_O, W_V)\) 因梯度下降的核范数隐式偏差而能执行 OCR,而合并参数化 \(W_{OV}\) 因 Frobenius 范数偏差而不能,且 OCR 是样本高效的(仅需 \(m_{\text{train}}>0\))。

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

提出REVERSE框架,首次将生成调整和事后验证统一到单个VLM中:通过1.3M半合成样本的幻觉感知训练+推理时回溯重采样,使VLM能在生成过程中自动检测并修正幻觉,在CHAIR-MSCOCO上降低12%、HaloQuest上提升34%。

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

提出GLSim,一种无训练的LVLM物体幻觉检测方法,通过融合全局场景相似度(物体token与最后instruction token的余弦相似度)和局部视觉定位相似度(物体token与Visual Logit Lens定位的Top-K图像patch的余弦相似度),在MSCOCO上以83.7% AUROC超越SVAR 9%、Internal Confidence 10.8%。

Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation

提出将文本到图像(T2I)模型中的幻觉定义为偏差驱动的偏离,建立了包含属性、关系和物体三类幻觉的分类学,并论证幻觉评估作为提示对齐评估的"上界",可揭示模型隐藏偏差。

Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats

提出 AllPath,一个基于 Transformer 因果架构的多路径幻觉干预框架,首次发现 LVLM 的幻觉不来自单一因果路径而是 image-to-input-text、image-to-output-text、text-to-text 三条路径的交互,并且模型会根据问答对齐格式自适应选择不同路径;通过为每条路径设计轻量级关键 head 识别方法并自适应干预,在 POPE、MCQ-POPE、CHAIR、MME 四个不同格式 benchmark 上一致降低幻觉。

Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization

提出 SymMPO(对称多模态偏好优化),通过对比图像的对称配对偏好学习和偏好边际一致性正则化,解决了现有视觉增强型 DPO 方法中目标函数不严格和间接偏好监督两大局限,在五个幻觉评测基准上取得了一致的性能提升。

查看全部17篇「幻觉检测」论文 →


📊 LLM 评测 (38)

AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners

发现 STaR(自我教学推理器)的随机数据采样导致观测训练频率严重不平衡(简单题过度训练、难题训练不足),提出 AdaSTaR——通过自适应多样性采样(优先欠训练样本)和自适应课程采样(根据模型强度调节难度),在 6 个基准上全部取得最高准确率同时减少 58.6% 训练 FLOPs。

Bayesian Evaluation of Large Language Model Behavior

提出基于 Beta-Binomial 贝叶斯模型的 LLM 行为评估框架,通过对每个 prompt 的随机生成结果建模 \(\theta_m\) 后验分布,量化评估指标的统计不确定性,并引入 Thompson sampling 等序贯采样策略以更少的 API 调用获得更窄的置信区间。

Benchmarking is Broken — Don't Let AI be its Own Judge

系统性批评当前 AI 基准评估的根本缺陷——数据污染(MMLU 45%+ 重叠)、选择性报告、缺乏监考——并提出 PeerBench 方案:借鉴高考/GRE 的监考范式,用滚动更新的保密题库 + 同行评审质量控制 + 声誉加权评分 + 加密承诺机制构建下一代 AI 评估基础设施。

Benchmarking Large Language Models for Zero-Shot and Few-Shot Phishing URL Detection

在统一的零样本和少样本 prompt 框架下系统评估 GPT-4o、Claude-3.7 和 Grok-3-Beta 三个商用 LLM 在钓鱼 URL 检测任务上的表现,发现少样本 prompt 可显著提升所有模型性能,Grok-3-Beta 在平衡数据集上取得最佳 F1(0.9399),但不同模型在精度-召回率权衡上呈现差异化行为模式。

Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation

将LLM基准评测形式化为层级统计模型,理论证明多次随机生成(k>1)能降低benchmark分数估计方差,并引入prompt级难度指标\(\mathbb{P}(\text{correct})\)和数据地图用于基准质量控制。

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

提出LAGER框架,通过聚合LLM中间层到最终层的score token logits并计算期望分数,无需微调模型即可将LLM评判与人类评分的对齐度提升最高7.5%,且不需要思维链推理步骤就能匹配或超过推理类方法。

BLINK-Twice: You See But Do You Observe? A Reasoning Benchmark on Visual Perception

提出视觉中心推理 benchmark BLINK-Twice(345 张视觉挑战图 + 103 个对抗样本 + 896 个 VQA + 1725 个推理步骤标注),通过 7 类视觉错觉场景评估 MLLM "看到但未观察到"的推理能力,发现最强模型 Gemini-2.5 Pro 的 G-Acc 仅 26.9%,多轮图像观察和主动视觉交互是提升方向。

Can Large Language Models Master Complex Card Games?

系统评估LLM在8种复杂卡牌游戏上的学习能力,发现通过高质量游戏数据的SFT,LLM可以接近强游戏AI的水平,并能同时掌握多个游戏,但通用能力会下降(可通过混入通用指令数据缓解)。

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

提出 CodeAssistBench (CAB),第一个评估多轮、项目级编程辅助的全自动 Benchmark,从 GitHub Issues 自动构建 3,286 个真实编程求助场景,涵盖 7 种语言 214 个仓库,揭示 SOTA 模型在 StackOverflow 问题上 70-83% 但在 post-cutoff 仓库上仅 7-16% 的巨大鸿沟。

ComPO: Preference Alignment via Comparison Oracles

针对DPO中噪声偏好对(preferred和dispreferred响应相似)导致的似然位移和冗长问题,提出基于比较oracle的零阶偏好对齐方法ComPO,将数据分为干净/噪声子集,用DPO处理干净数据、用ComPO提取噪声数据中的信号,在AlpacaEval 2等benchmark上持续提升LC win rate。

查看全部38篇「LLM 评测」论文 →


⚡ LLM 效率 (34)

3-Model Speculative Decoding (PyramidSD)

在标准的draft-target两模型推测解码的中间插入一个"qualifier"模型,构成三层金字塔式解码架构(PyramidSD),利用模型家族天然的熵梯度来分级过滤token,以模糊接受准则放宽匹配阈值,实现最高1.91×的速度提升(在RTX 4090上达到124 tok/s)。

A Unified Framework for Establishing the Universal Approximation of Transformer-Type Architectures

建立了统一的理论框架证明各类Transformer架构的万能逼近性(UAP),核心条件仅两个——前馈层的非线性仿射不变性和注意力层的token可区分性——并利用解析性假设将后者简化为仅需检验两样本情况,成功覆盖softmax、RBF kernel、Performer、BigBird、Linformer等多种实用架构。

Advancing Expert Specialization for Better MoE

通过正交性损失(减少专家间投影重叠)和方差损失(增大路由分数差异)双目标优化,在不修改 MoE 架构的前提下将专家重叠减少 45%、路由方差提升 150%,11 个基准任务平均提升 23.79%,同时完全保持负载均衡。

Approximately Aligned Decoding

提出 Approximately Aligned Decoding (AprAD),一种利用投机解码(speculative decoding)中的前缀选择算法来实现LLM受约束生成的方法——在遇到约束违反时,既不像约束生成那样仅回退一步(导致极端概率放大),也不像ASAp那样完全重新采样(计算成本过高),而是通过投机采样智能选择回退位置,在输出分布失真和计算效率之间取得良好平衡。

Constant Bit-Size Transformers Are Turing Complete

首次证明常数 bit 精度、固定参数数量的 Transformer(仅允许上下文窗口增长)是图灵完备的,并建立了精确的复杂度等价关系 WINDOW[s(n)] = SPACE[s(n)],表明扩展上下文窗口——而非模型尺寸——已足以实现通用计算。

Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training

提出 branched training 方法直接实证测量临界 batch size (CBS),发现 CBS 在训练早期快速增长后趋于平稳且不依赖模型规模,据此设计 batch size warmup 策略以 43% 更少的梯度步数达到同等甚至更优的训练 loss。

DISC: Dynamic Decomposition Improves LLM Inference Scaling

DISC 提出了一种动态分解算法,在推理时根据每一步的 z-score(采样奖励的标准化最大值)自动、递归地调整推理步骤的粒度——困难步骤分更细、简单步骤一步跨过——可以即插即用地与贪心搜索、Beam Search、MCTS 结合,在 APPS、MATH、LiveCodeBench 上以更少的 token 预算达到更高的 pass@k。

Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving

提出首个无需训练的在线 LLM 路由算法 PORT,通过近似最近邻搜索估计查询特征,并在少量初始查询上一次性优化对偶变量作为路由权重,在有限 token 预算下实现接近离线最优 (\(1-o(1)\) 竞争比) 的路由性能,平均较基线提升 3.55× 性能、1.85× 成本效率和 4.25× 吞吐量。

FlowMoE: A Scalable Pipeline Scheduling Framework for Distributed Mixture-of-Experts Training

FlowMoE提出统一的流水线调度框架,将MHA计算、门控、专家计算和A2A通信纳入一体化流水线,并使用优先级驱动的all-reduce张量分块机制最大化通信与计算的重叠,在多种真实MoE模型上实现1.13×-1.82×加速、10-39%能耗降低和7-32%内存节省。

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers

通过严格的理论分析证明了预训练数据的多样性(由"max-sum ratio"刻画)决定了单层Transformer学到的是可泛化的induction head还是无法OOD泛化的位置捷径,并给出了使模型学会induction head的最优预训练分布。

查看全部34篇「LLM 效率」论文 →


📚 预训练 (51)

A Practical Guide for Incorporating Symmetry in Diffusion Policy

本文提出了一套将对称性融入扩散策略的实用指南——通过不变性表征(相对轨迹动作 + 手眼感知)、等变视觉编码器和 Frame Averaging 三种简单方法,在 MimicGen 12 个任务上达到了接近甚至超越完全等变扩散策略的性能,同时实现复杂度大幅降低。

AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework for Gradient-Guided Resource Allocation in LLMs

本文以 position paper 的形式挑战"规模至上主义",提出以能力-每-资源(Capability-Per-Resource, CPR)取代单纯的规模扩张来衡量 AI 进步,并给出一套基于梯度引导的资源分配理论框架——通过发布"梯度蓝图"元数据,使下游适配者仅微调高影响力参数子集即可在资源占用大幅降低的同时保持接近全参数微调的性能。

Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks

提出交替梯度流(AGF)理论框架解释神经网络的逐步"鞍到鞍"特征学习动力学——将训练建模为休眠神经元的效用最大化和活跃神经元的代价最小化的交替过程,统一了对角线性网络、注意力模型和模块加法的特征选择分析,预测与实际梯度流高度一致。

An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems

本文系统研究了 Neural ODE (NODE) 在含噪合成数据上的外推能力,并探索了将 NODE 作为数据增强工具、与符号回归 (SR) 结合以从有限数据中恢复动力学方程的流水线,结果表明该组合方案能从仅 10% 的仿真数据中恢复三个控制方程中的两个及第三个的良好近似。

Beyond Benign Overfitting in Nadaraya-Watson Interpolators

通过调节 Nadaraya-Watson 插值器中的单一带宽参数 \(\beta\),精确刻画了从灾难性过拟合(\(\beta < d\))→ 良性过拟合(\(\beta = d\))→ 温和过拟合(\(\beta > d\))的完整相变谱,证明高估数据内禀维度比低估更安全。

Born a Transformer – Always a Transformer? On the Effect of Pretraining on Architectural Abilities

通过系统性地研究检索和复制任务家族,揭示了大规模预训练会为Transformer引入方向性偏置(右/前向优于左/后向),但无法克服非唯一任务上的根本架构限制;微调可消除方向偏置但不能突破架构表达力边界。

Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretraining

发现GaLore等低秩优化方法的主导子空间在预训练中会"冻结"(相邻子空间重叠度趋近1),导致权重更新卡在固定低秩子空间中;提出SARA(重要性采样子空间选择),按奇异值权重随机采样奇异向量构建子空间,证明收敛性的同时将低秩优化器与全秩Adam的性能差距缩小最高46%。

Breaking the Gradient Barrier: Unveiling Large Language Models for Strategic Classification

提出 GLIM(Gradient-free Learning In-context Method),首次利用 LLM 的 In-Context Learning 机制隐式模拟策略分类中的双层优化(特征操纵 + 决策规则优化),无需微调即可在大规模数据上高效完成策略分类任务。

Broken Tokens: Your Language Model Can Secretly Handle Non-Canonical Tokenization

揭示 LLM 能秘密处理非标准分词(如将"Hello"拆为"He"+"llo"而非标准的"Hello"整词token)——即使输入的 token 序列与训练时不同,模型表现出惊人的鲁棒性,且这种能力来自嵌入空间中子词嵌入的线性组合近似整词嵌入的特性。

CLIMB: Class-Imbalanced Learning Benchmark on Tabular Data

提出 Climb——迄今最全面的表格数据类别不平衡学习基准,涵盖 73 个真实数据集和 29 种 CIL 算法,通过大规模实验揭示了朴素重平衡往往无效、集成方法至关重要、数据质量比不平衡本身更影响性能等实用洞察。

查看全部51篇「预训练」论文 →


✏️ 知识编辑 (6)

Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in LLMs

提出 NMKE 框架,通过神经元级归因发现 knowledge-general 和 knowledge-specific 两类知识神经元,并结合熵引导的动态稀疏 mask,实现精准神经元级知识编辑,在 5000 步连续编辑后仍保持高编辑成功率和模型通用能力。

KScope: A Framework for Characterizing the Knowledge Status of Language Models

提出LLM知识状态的五分类法(一致正确/冲突正确/缺失/冲突错误/一致错误)和KScope层次化统计检验框架,通过重复采样+多步假设检验精确刻画LLM对给定问题的知识模式结构,并系统研究上下文如何更新各状态,发现受约束的上下文摘要+增强可信度平均提升4.3%的知识更新成功率。

MemEIC: A Step Toward Continual and Compositional Knowledge Editing

提出 MemEIC 框架,通过外部双模态检索记忆 + 内部模态分离 LoRA 适配器 + 仿脑 Knowledge Connector 三层架构,实现大视觉语言模型的持续、组合式知识编辑,在新提出的 CCKEB 基准上大幅超越现有方法。

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs

提出MEMOIR框架,通过在FFN层引入零初始化的残差记忆矩阵,利用基于TopHash的稀疏掩码将每次编辑限制在记忆参数的不同子集上,推理时通过掩码重叠率识别相关编辑并条件性激活知识,在15000次连续编辑下仍保持可靠性、泛化性和局部性的最优平衡。

Rethinking Residual Distribution in Locate-then-Edit Model Editing

揭示 locate-then-edit 模型编辑中残差分配(residual distribution)机制引入的权重偏移误差会随分配距离、batch 大小和编辑序列长度增长,提出 BLUE(Boundary Layer UpdatE)策略仅更新首尾关键层,平均提升 35.59%。

UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models

构建 UniEdit——首个基于开放域知识图谱(Wikidata)的统一 LLM 知识编辑基准,覆盖 5 大类 25 个领域共 311K 条样本,通过邻域多跳链采样(NMCS)算法统一整合多种泛化性和局部性评估标准,系统揭示了现有编辑方法在复杂波纹效应评估下的不足。


💬 LLM 其他 (54)

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

提出 AceSearcher——一种协作式自我博弈框架,让单个 LLM 同时扮演问题分解者(将复杂查询拆解为子问题引导检索)和求解者(整合检索上下文生成答案),通过 SFT + 迭代 DPO 两阶段训练,仅用最终答案作为奖励信号,在 10 个数据集上平均 EM 提升 7.6%,32B 模型匹配 DeepSeek-V3(<5% 参数)。

AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness

提出 AdaptDel 方法,将随机平滑中用于离散序列的固定删除率扩展为根据输入长度等属性自适应调整的可变删除率,在理论上证明了可变率下认证的 soundness,实验在 NLP 序列分类任务上实现认证区域基数最高 30 个数量级的提升。

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

提出 CAKE (Context-Aware Kernel Evolution),利用 LLM 作为遗传算法的交叉和变异算子,在贝叶斯优化过程中自适应地生成和进化 GP 核函数表达式,结合 BAKER 排序机制平衡模型拟合(BIC)与期望改进(EI),在超参数优化、控制器调参和光子芯片设计等任务上持续超越固定核和自适应核基线。

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

从逻辑编程角度提出评估 LLM 推理效率(而非仅正确性)的框架——通过 verbalized logic program 将自然语言证明映射到逻辑程序证明,发现当前 LLM 在含无关公理的数学题中不仅准确率下降,且推理过程严重低效(超过一半的推理步骤是不必要的)。

AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise

AutoDiscovery 提出用贝叶斯惊奇度(Bayesian Surprise)作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度,配合 MCTS+渐进展宽在假设空间中探索,在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现,人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性(0.67)远超 LLM 自身评估的"新颖性"和"有用性"。

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

从信息论角度为掩码扩散语言模型建立了完整的采样收敛理论:证明 KL 散度形式的采样误差以 \(O(1/T)\) 速率衰减、与 token 间互信息线性相关,并给出匹配的下界证明了分析的紧性,理论上论证了扩散模型可以在 \(T < L\)(序列长度)步内生成高质量样本。

C²Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

针对联邦持续学习中prompt通信时的类级知识不一致问题,提出C²Prompt方法,通过局部类分布补偿(LCDC)和类感知prompt聚合(CPA)两个机制显式增强跨客户端的类级知识一致性,在ImageNet-R上Avg准确率达87.20%,超出SOTA Powder 2.51%。

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

CAT 将标准自注意力中的 \(N \times N\) 注意力矩阵替换为一个由 \(N\) 维向量生成的循环矩阵(circulant matrix),利用 FFT 实现 \(O(N \log N)\) 复杂度的注意力计算,在严格保持 softmax 行归一化结构的前提下,在 ImageNet-1k(avg pool 下 CLIP-L 准确率 0.694 vs 标准注意力 0.646)和 WikiText-103 masked LM(PPL 8.32 vs 9.82)上匹配或超越标准注意力。

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

精确刻画了固定精度、严格未来掩码、软注意力、无位置编码的 Transformer 的表达能力——恰好等价于仅含过去算子的线性时态逻辑 LTL[P],并将其与偏序确定有限自动机 (PODFA)、\(\mathcal{R}\)-trivial 幺半群统一起来。

Composing Linear Layers from Irreducibles

利用Clifford代数,将线性层表示为二向量(bivector)的组合——即旋量(rotor)的三明治乘积——仅需 \(O(\log^2 d)\) 参数即可替代 \(d \times d\) 密集矩阵,应用于LLM注意力层的Q/K/V投影时性能接近原始模型和强基线。

查看全部54篇「LLM 其他」论文 →


📖 NLP 理解 (3)

Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention

将选择性SSM(Mamba)展开为注意力形式,利用覆盖数技术推导出受连续时间状态矩阵谱横断面\(s_{\mathbf{A}}\)控制的泛化界——\(s_{\mathbf{A}}<0\)时泛化界与序列长度无关,\(s_{\mathbf{A}}\geq0\)时指数增长,并证明这种依赖不可消除。

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

Weak-to-Strong Generalization under Distribution Shifts

本文发现朴素的弱到强泛化在分布偏移下会失败(强模型甚至不如弱监督者),并提出 RAVEN 框架,通过动态学习多个弱模型的最优组合权重来实现鲁棒的弱到强泛化,在 OOD 任务上超越 baseline 超过 30%。


🗣️ 对话系统 (8)

AC-LoRA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs

设计 AC-LoRA 端到端系统,为不同权限数据集训练独立的 LoRA 适配器,推理时根据用户查询的 cosine 相似度和权限动态检索并无训练合并多个 LoRA 输出,在保证强信息隔离的同时匹配或超越 SOTA LoRA 混合方法的回答质量。

Agentic Persona Control and Task State Tracking for Realistic User Simulation

提出三 agent 协作框架用于逼真的用户模拟——User Agent(协调)+ State Tracking Agent(结构化任务状态)+ Message Attributes Generation Agent(基于 persona 和状态的行为属性控制),在餐厅点餐场景中综合仿真质量(CRRS)提升 102.6%,persona 保持度 +19.9%,行为自然度 +284.5%,且核心发现:无状态感知的行为控制导致 BVS=0(完全刚性)。

Bridging Human and LLM Judgments: Understanding and Narrowing the Gap

提出Bridge统计框架,通过序数logistic回归建模人类和LLM评判之间的潜在关系,以少量人类标签改善LLM评判的校准和对齐,同时支持对系统性偏差的正式统计检验。

HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location

提出HyGen——干扰感知的LLM推理系统,通过精准的批次延迟预测器、SLO感知的性能分析器和前缀共享最大化调度策略,实现在线和离线工作负载的弹性共置,在保证严格SLO合规的同时获得3.87-5.84倍吞吐提升。

KL Penalty Control via Perturbation for Direct Preference Optimization

提出 ε-DPO,通过观察训练时扰动 β 后 logit 作为偏好模型的单调性,实现实例级自适应 KL 惩罚控制,无需额外计算开销即可显著超越 DPO 及大多数直接对齐算法,在 AlpacaEval 2 上达到 46.4% LC win rate(DPO 仅 40.3%)。

LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation

提出 LatentGuard 三阶段框架,通过行为级对齐微调 + 结构化 VAE 监督潜空间 + 潜空间维度操控,实现对 LLM 拒绝行为的可解释、可控制调节,在抵御对抗攻击的同时保持对正常查询的响应能力。

Less is More: Local Intrinsic Dimensions of Contextual Language Models

提出利用上下文 token 嵌入的局部内在维度(Local Intrinsic Dimension, LID)来无监督监测 LLM 训练动态——维度下降预示泛化改善,维度上升预示过拟合——在对话状态跟踪、grokking、情感识别等任务上验证了这一几何信号的实用性。

SciArena: An Open Evaluation Platform for Non-Verifiable Scientific Literature-Grounded Tasks

构建 SciArena 社区驱动的科学文献评估开放平台,采用 Chatbot Arena 式的人类偏好投票方式对 47 个基础模型进行排名,收集超过 20,000 条投票数据,并发布 SciArena-Eval 元基准来评测自动评估系统对文献任务答案质量的判断能力。


🌐 多语言/翻译 (11)

Adaptive Originality Filtering: Rejection-Based Prompting and RiddleScore for Culturally Grounded Multilingual Riddle Generation

提出 Adaptive Originality Filtering (AOF)——一种基于语义拒绝采样的提示策略,通过 MiniLM 嵌入的余弦相似度过滤重复/模板化输出,强制 LLM 生成更新颖、多样且文化匹配的多语言谜语;同时提出 RiddleScore 复合评估指标(Novelty + Diversity + Fluency + Alignment),与人类评分相关性达 \(\rho=0.83\)

Exploring the Translation Mechanism of Large Language Models

提出 subspace-intervened path patching 方法对 LLM 翻译机制进行精细因果分析,发现翻译由不到 5% 的稀疏 attention head 驱动——分为 source head、indicator head、positional head 三类功能角色,MLP 将其特征整合为以英语为中心的中间表示,仅微调 64 个关键 head 即可匹配全参数微调性能。

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

NVIDIA 发布的 40K+ 开源人工标注偏好数据集,覆盖通用/STEM/代码/多语言(13 种语言),训练的奖励模型在 RM-Bench 上达 82.4%(+10%),CC-BY-4.0 许可对商业友好。

How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs

在高维渐近框架下证明了带非线性MLP头的Transformer在ICL误差上等价于结构化多项式预测器,揭示了非线性MLP对非线性任务的增益机制,以及多源数据混合中低噪声和结构化协方差是高质量数据源的关键特征。

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

提出首个多语言交错多条件语义检索数据集 MERIT(320K queries, 135K products, 5种语言, 7大品类),揭示现有检索模型仅关注全局语义而忽略条件细节的瓶颈,并设计 Coral 微调框架通过嵌入重建+对比学习将检索性能提升 45.9%。

On Extending Direct Preference Optimization to Accommodate Ties

将 DPO 中的 Bradley-Terry 偏好模型替换为 Rao-Kupper 和 Davidson 扩展,使偏好优化能够显式建模"平局"数据,避免丢弃模糊偏好对,在翻译和数学推理上获得更好的正则化和性能。

ParallelPrompt: Extracting Parallelism from Large Language Model Queries

构建了首个查询内并行(intra-query parallelism)基准数据集ParallelPrompt,包含37000+条真实用户提示的结构化分解标注,证明约10%的用户查询包含可并行的潜在结构,并行执行可实现最高5.7×的延迟加速且质量损失有限。

Quantifying Climate Policy Action and Its Links to Development Outcomes: A Cross-National Data-Driven Analysis

本文构建了一个NLP-计量经济学一体化框架,先用微调的多语言DistilBERT对全球气候政策文档按主题(减缓/适应/灾害风险管理/损失与损害)自动分类(F1=0.90),再与世界银行发展指标做固定效应面板回归,发现减缓政策与较高GDP/GNI显著正相关,而损失与损害政策全球仍然缺乏实质性实施。

Reflective Translation: Improving Low-Resource Machine Translation via Structured Self-Reflection

提出 Reflective Translation 框架,让 LLM 在推理时对自身的初始翻译进行结构化自我批判(识别误译/遗漏/语义扭曲),再根据批判生成修正翻译,无需微调或额外标注数据即可在 isiZulu/isiXhosa 等低资源非洲语言上取得 BLEU 和 COMET 的统计显著提升。

XIFBench: Evaluating Large Language Models on Multilingual Instruction Following

提出XIFBench——首个系统评估LLM多语言指令遵循能力的约束驱动基准,包含558条指令(0-5个约束,5大类21维度)×6种语言(高/中/低资源),并引入英语需求锚定评估协议,实现94.7%的跨语言评估一致性。

查看全部11篇「多语言/翻译」论文 →


🔍 信息检索/RAG (25)

AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking

利用贝叶斯TrueSkill模型维护文档相关性的概率分布,在每轮迭代中只对排名不确定的文档进行重排序,实现根据查询难度自适应调配计算量的重排框架,在多个基准上以更少调用次数超越固定计算基线。

Chain-of-Retrieval Augmented Generation (CoRAG)

提出 CoRAG 框架,通过拒绝采样自动生成中间检索链(子查询→子答案),微调 LLM 学习迭代检索和推理,并支持多种测试时解码策略(贪心 / Best-of-N / 树搜索)灵活扩展计算量,在多跳 QA 上 EM 提升 26+ 点,KILT 基准 9/10 任务达到 SOTA。

Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers

提出CoopRAG框架,通过问题展开、基于检索器层对比的重排、以及推理链补全,实现检索器与LLM的双向合作,在多跳QA上超越HippoRAG2 5.3%,单跳QA上提升35.2%。

Deep Research Brings Deeper Harm

揭示 Deep Research (DR) 智能体的严重安全隐患——即使底层 LLM 能正确拒绝有害请求,部署为 DR 智能体后仍能生成详细专业的危险报告;提出 Plan Injection 和 Intent Hijack 两种针对性越狱方法,以及 DeepREJECT 评估指标,在 6 个 LLM 上验证了 DR 智能体系统性地削弱了对齐机制。

DICE: Discrete Interpretable Comparative Evaluation with Probabilistic Scoring for RAG

提出 DICE 框架,通过两阶段评估(证据耦合深度分析 + 概率化 {A,B,Tie} 打分)和瑞士赛制锦标赛实现 RAG 系统的可解释、鲁棒、高效评估,在中文金融 QA 数据集上达到 85.7% 人类专家一致率,远超 RAGAS(45.7%)。

Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams

提出 Enginuity——首个面向 AI 自动解析工程图的大规模开放多领域数据集方案,计划构建 50K+ 带有层级组件关系、空间连接和语义角色标注的汽车工程图,通过四阶段人机协同标注管线实现高质量与低成本的平衡,并定义了从符号检测到数字孪生生成的完整任务体系,为多模态大模型理解工程图中的视觉-结构知识提供了首个系统性基准资源。

Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe

研究双编码器(Dual Encoder)在层次化检索(Hierarchical Retrieval)中的可行性,理论证明嵌入维度只需与层次深度线性、文档数对数增长即可求解,并发现"远距离丢失"现象后提出预训练-微调策略,在 WordNet 上将远距离召回率从 19% 提升至 76%。

HiFi-RAG: Hierarchical Content Filtering and Two-Pass Generation for Open-Domain RAG

通过分离轻量级 Flash 模型的过滤能力与 Pro 模型的推理能力,构建多阶段管道(查询优化→分层过滤→两阶段生成→引文验证),在 MMU-RAGent 竞赛中实现 SOTA 性能。

How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?

针对图基ANN索引缺乏统一数据删除评估方法的问题,形式化定义了逻辑删除、物理删除和重建三种基准方法,提出面向实际部署的评估框架和指标体系,并基于实验分析提出Deletion Control算法在精度约束下动态切换删除策略。

HyperGraphRAG: Retrieval-Augmented Generation via Hypergraph-Structured Knowledge Representation

提出 HyperGraphRAG,首个基于超图 (hypergraph) 结构的 RAG 方法,通过超边 (hyperedge) 建模 n 元关系(n≥2),克服了现有图谱 RAG 方法受限于二元关系的瓶颈,在医学、农业、计算机科学和法律等领域的问答任务中全面超越 StandardRAG 和 GraphRAG 系列方法。

查看全部25篇「信息检索/RAG」论文 →


💻 代码智能 (19)

A Self-Improving Coding Agent

提出SICA(Self-Improving Coding Agent),一个能自主编辑自身代码库来提升性能的编程Agent——消除了meta-agent和target-agent的区分,通过迭代式自我改进在SWE-Bench Verified子集上从17%提升到53%。

A Stochastic Differential Equation Framework for Multi-Objective LLM Interactions

将 LLM 迭代交互中的多目标优化建模为 SDE(漂移-扩散过程),通过干扰矩阵量化目标间的耦合模式,通过特征值谱分析策略收敛行为,在代码生成(安全性、效率、功能性三目标)上验证了不同策略的收敛率(0.33-1.29)和可预测性(\(R^2\) 达 0.74)。

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

AstroVisBench 构建了首个评估 LLM 天文科学计算和可视化能力的代码基准——从 110 个 Jupyter Notebook 提取 864 个任务(处理+可视化),设计双重评估管线(执行式变量检查 + VLM-as-Judge 可视化评分,与专家 Spearman ρ=0.822),评测 8 个 SOTA 模型后发现 Gemini 2.5 Pro 最佳但无错误率仅 15.7%,FileNotFoundError 占 43% 错误。

Automated Multi-Agent Workflows for RTL Design

VeriMaAS 是一个多智能体框架,通过将 HDL 形式化验证反馈(Yosys + OpenSTA)集成到工作流自动生成过程中,自适应地为 RTL 代码生成任务选择推理算子(I/O → CoT → ReAct → SelfRefine → Debate),以仅数百个训练样本实现比微调基线高 5-7% 的 pass@k 性能。

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

提出 CURE 框架,让同一个 LLM 同时扮演代码生成器和单元测试生成器两个角色,通过生成代码与生成测试的交叉执行构建成对奖励矩阵,用基于理论推导的奖励信号进行强化学习,在完全不需要 ground-truth 代码标注的情况下实现代码生成能力和单元测试生成能力的共同进化,在五个编程基准上大幅超过同规模的专用 Coder 模型。

CodeCrash: Exposing LLM Fragility to Misleading Natural Language in Code Reasoning

提出 CodeCrash 压力测试框架,通过功能等价的结构扰动和误导性自然语言注入(注释/print/暗示),系统评估 17 个 LLM 的代码推理鲁棒性,揭示模型平均性能下降 23.2%,CoT 仅能挽回至 13.8%,并首次发现大推理模型(LRM)中的 "Reasoning Collapse" 现象。

Embedding Alignment in Code Generation for Audio

提出双 MLP + InfoNCE 对比学习框架,将代码嵌入(distilroberta-base)和音频嵌入(wav2vec2)对齐到共享空间,使 LLM 代码生成流程无需编译执行即可从代码推断音乐相似性,CKA 从 0.090 提升至 0.590。

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

提出一种受工业设计流程启发的CAD程序数据增强范式,通过向LLM提供参考曲面程序和设计流程描述来引导生成包含B-Spline有机形状的CAD程序,显著缩小了公开CAD数据集与工业级设计在几何复杂度上的差距。

Learning to Solve Complex Problems via Dataset Decomposition

提出Decomp方法,利用教师模型将复杂数学题按推理步骤递归分解为更简单的子问题,构建概念依赖图量化难度,再按从易到难的课程顺序训练学生模型——Qwen2.5-1.5B在MATH-500上达51.6%(超MuggleMath用147K数据的50.4%),Qwen3-4B在AIME2025仅用385样本达16.7%(超Qwen2.5-72B的15%)。

MaintainCoder: Maintainable Code Generation Under Dynamic Requirements

首次系统定义并解决 LLM 代码生成的可维护性问题,同时贡献基准和方法:MaintainBench 通过 4 种需求变化模式 + 动态指标评测代码在需求演化下的可维护性;MaintainCoder 将 Waterfall 模型、设计模式与 6 个专业化 Agent 结合,动态可维护性指标提升 60%+,且初始代码正确性也一并提高。

查看全部19篇「代码智能」论文 →


🎨 图像生成 (221)

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float (DFloat11)

DFloat11 利用 BFloat16 权重中指数位(exponent)的低熵特性,通过 Huffman 编码将 LLM/扩散模型无损压缩至原始大小的约 70%(等效 ~11 bit),并设计了层次化查找表和两阶段 GPU kernel 实现高效在线解压,使 Llama 3.1 405B 可在单节点 8×80GB GPU 上无损推理。

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

发现扩散模型在自消耗循环(用生成数据训练下一代模型)中存在从"泛化"到"记忆"的转变过程,揭示训练集熵与模型泛化能力的强线性相关性(Pearson r=0.91),并提出基于熵的数据选择策略(Greedy Selection / Threshold Decay Filter)有效减缓该转变,在 CIFAR-10 accumulate 范式下第 8 轮 FID 从 75.7 降至 44.7。

A Connection Between Score Matching and Local Intrinsic Dimension

证明去噪得分匹配损失(denoising score matching loss)的下界恰好是数据流形的局部固有维度(LID),从而将 DSM loss 本身作为一个高效的 LID 估计器——无需梯度计算或多次前向传播,在 Stable Diffusion 3.5 上内存占用仅为 FLIPD 的 60%,且量化后估计更稳定。

A Data-Driven Prism: Multi-View Source Separation with Diffusion Model Priors

提出 DDPRISM 方法,利用多视图观测中不同线性变换的结构性差异,在 EM 框架下为每个未知源学习独立的扩散模型先验,无需预先获得任何单独的源样本即可完成源分离和后验采样,在合成问题和真实星系观测上超越现有方法。

A Diffusion Model for Regular Time Series Generation from Irregular Data with Completion and Masking

提出两步框架从不规则采样时序数据生成规则时序:先用 TST 自编码器补全缺失值构造"自然邻域",再在视觉扩散模型中用 masking 策略仅在观测像素上计算损失,避免对补全值的过度依赖,在判别分数上平均改善 70%,训练速度提升 6.5 倍。

A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models

提出 DWGF(Diffusion-regularized Wasserstein Gradient Flow),将隐空间扩散模型的后验采样问题严格形式化为 KL 散度在 Wasserstein-2 空间上的正则化梯度流,推导出隐空间中的 ODE 系统用于求解图像逆问题,在 FFHQ-512 上的修复和超分辨率任务中 PSNR 大幅超越基线。

Accelerating Parallel Diffusion Model Serving with Residual Compression

提出 CompactFusion 框架,通过残差压缩(仅传输相邻去噪步骤间的激活差异而非完整激活)来消除并行扩散推理中的通信冗余,在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion,在模拟以太网带宽下实现 6.7× 加速,甚至在 100× 压缩下仍优于 DistriFusion。

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models

揭示扩散模型量化中的误差累积现象——每步的量化误差会传递并放大到后续步骤——并提出在 PTQ 校准阶段显式模拟连续多步去噪过程来联合优化量化参数的方法,同时通过巧妙的目标函数设计将内存从 O(n) 降至 O(1)。

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

提出ALE-Bench,首个面向分数制算法工程竞赛(AtCoder Heuristic Contest)的AI基准,收集40道NP-hard优化赛题并提供交互式Agent评估框架,发现最强模型o3-high在one-shot设置下仅达人类平均水平,且AI在跨问题一致性和长时间迭代改进上与人类专家差距显著。

Aligning Compound AI Systems via System-level DPO

将复合 AI 系统建模为 DAG,提出 SysDPO 框架将 DPO 扩展到多组件联合对齐,通过 DAG 分解将系统级偏好转化为可端到端优化的损失函数,理论证明了 β-完美对齐保证,在 LLM+扩散模型和 LLM+LLM 系统上显著提升协作质量。

查看全部221篇「图像生成」论文 →


🎬 视频生成 (23)

Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

本文提出 AAPT(Autoregressive Adversarial Post-Training),通过对抗训练将预训练视频扩散模型转化为自回归实时视频生成器,每帧仅需一次前向传播(1NFE),基于 student-forcing 训练减少误差累积,8B 模型在单张 H100 上实现 736×416 分辨率 24fps 实时流式生成,最长可达一分钟(1440帧)。

DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

识别并解决视频 DPO 的运动偏差问题——通过从 GT 视频加噪去噪构造结构对齐的视频对来固定运动维度、在时间片段级标注密集偏好来获取更精准的学习信号、用现成 VLM 自动标注来降低成本,仅用 1/3 标注数据即大幅提升运动生成质量同时匹配视觉质量和文本对齐。

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

DisMo 通过双流架构(运动提取器 + 帧生成器)和图像空间重建目标,从原始视频中学习与外观、姿态、类别无关的抽象运动表征,实现跨类别/跨视角的开放世界运动迁移,并在零样本动作分类上大幅超越 V-JEPA 等视频表征模型。

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

提出Force Prompting,将物理力(局部点力和全局风力)作为视频生成模型的控制信号,仅用~15K合成训练视频(Blender旗帜和滚球)和单日4xA100训练,即可在多样真实场景图像上展现跨物体/材质/几何的惊人泛化,包括初步的质量理解能力。

Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation

提出 Foresight,一种训练无关的自适应层复用框架,通过在 warmup 阶段建立逐层 MSE 阈值、在 reuse 阶段按阈值动态决策每层是复用缓存还是重新计算,在 5 个视频生成模型上实现了比静态方法更高质量和更快速度的推理加速(最高 2.23×)。

LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation

提出 LeMiCa,一种免训练的扩散视频生成加速框架,将缓存调度建模为有向无环图上的字典序极小极大路径优化问题,通过全局误差控制实现速度和质量的双重提升(Latte 上 2.9× 加速,Open-Sora 上 LPIPS 低至 0.05)。

MagCache: Fast Video Generation with Magnitude-Aware Cache

发现视频扩散模型中相邻时间步残差输出的幅度比(magnitude ratio)遵循一条跨模型、跨 prompt 普遍成立的单调递减规律("统一幅度定律"),由此提出 MagCache:基于幅度比对跳步误差进行精确累积建模,自适应跳过冗余时间步并复用缓存,仅需 1 个样本校准,即可在 Open-Sora、CogVideoX、Wan 2.1、HunyuanVideo 等模型上实现 2.10–2.68× 加速,且在 LPIPS/SSIM/PSNR 三个指标上全面优于 TeaCache 等已有方法。

Photography Perspective Composition: Towards Aesthetic Perspective Recommendation

提出"摄影透视构图"(PPC) 新范式,超越传统裁剪方法,通过 3D 重建构建透视变换数据集 + Image-to-Video 生成推荐视角 + RLHF 对齐人类偏好 + PQA 模型评估透视质量。

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

PhysCtrl用扩散模型学习四种材料(弹性/沙/橡皮泥/刚体)的物理动力学分布,将动态表示为3D点轨迹,在55万合成动画上训练含时空注意力+物理约束的扩散模型,生成的轨迹驱动预训练视频模型实现力和材料参数可控的高保真物理视频生成。

PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis

提出 PoseCrafter,一种无需训练的极端位姿估计框架:通过混合视频生成(HVG,DynamiCrafter+ViewCrafter双阶段)合成高保真中间帧解决极小/无重叠图像对的位姿估计,配合特征匹配选择器(FMS)高效选取最有用的中间帧,在四个数据集上显著提升极端位姿估计精度。

查看全部23篇「视频生成」论文 →


🧩 多模态 VLM (107)

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

提出 M-Attack,通过对源图像做随机裁剪后与目标图像在嵌入空间做局部-全局/局部-局部匹配,配合多 CLIP 模型集成,使对抗扰动自然聚集在语义关键区域形成清晰的语义细节,在 GPT-4.5/4o/o1 等商业黑盒 LVLM 上实现 >90% 的定向攻击成功率。

A Multimodal Benchmark for Framing of Oil & Gas Advertising and Potential Greenwashing Detection

构建了首个面向石油天然气行业视频广告的多模态框架分析基准数据集(706 个视频、13 种框架类型、50+ 实体、20 个国家),系统评估了 6 款 VLM 在检测 greenwashing 相关 framing 中的能力,发现 GPT-4.1 零样本在环境类标签上达 79% F1 但绿色创新仅 46%,揭示了隐式框架分析和文化背景理解仍是 VLM 的核心挑战。

AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining

提出AdaLRS,一种即插即用的在线学习率搜索算法,通过监控损失下降速度(loss velocity)来自适应调整学习率,将学习率超参搜索的成本从多次独立训练降低到单次训练,实现~50%的训练成本节省。

Adapting Vision-Language Models for Evaluating World Models

提出 UNIVERSE(UNIfied Vision-language Evaluator for Rollouts in Simulated Environments),通过对 PaliGemma 2 进行轻量级投影头微调(仅 0.07% 参数),构建统一的世界模型 rollout 语义评估器,在动作识别和角色识别任务上达到与任务专属模型相当的性能并与人类判断高度对齐。

ADMN: A Layer-Wise Adaptive Multimodal Network for Dynamic Input Noise and Compute Resources

提出 ADMN(Adaptive Depth Multimodal Network),通过两阶段训练——(1) Multimodal LayerDrop 微调使 backbone 适应任意层配置,(2) QoI感知控制器动态分配层预算给各模态——在严格计算约束下根据每个模态的信息质量(QoI)自适应分配层数,匹配全量模型精度同时减少 75% FLOPs 和 60% 延迟。

Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning

提出 CLIC,通过拼接两张图像并基于跨图词汇交换生成 hard negatives,同时创建多个正样本描述,仅微调 CLIP 文本编码器就能同时提升组合推理能力(SugarCrepe++ SOTA)和下游检索性能,打破了之前方法中组合性与检索性不可兼得的困局。

Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment

提出 BACL(Boundary-Aware Curriculum with Local Attention),通过可学习的边界感知负样本采样器(由易到难课程学习)+ 对比局部注意力损失(定位 token 级 mismatch),在 LAION-400M 上为 CLIP 带来 +32% R@1 提升,并在四个大规模基准上取得 SOTA。

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making

反转传统指令接地范式——不将 VLM 知识压缩到中间表征(符号技能或约束),而是将候选机器人轨迹渲染到多视角场景图像中,直接在 VLM 的原生高维表征空间中评估动作方案,实现零样本闭环机器人操作控制。

AQuaMaM: An Autoregressive, Quaternion Manifold Model for Rapidly Estimating Complex SO(3) Distributions

提出AQuaMaM——一种基于Transformer的自回归四元数流形模型,将单位四元数的三个投影分量建模为受几何约束的均匀分布混合,在SO(3)旋转流形上实现精确似然计算和快速采样,比IPDF推理速度快52倍、对数似然高14%,且采样分布与真实分布匹配极为精确。

Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

本文提出 DeepTumorVQA,一个针对腹部CT肿瘤的3D诊断级视觉问答基准,包含9,262个CT体积(370万切片)和395K专家级问题,系统评估了4个先进VLM的临床诊断能力,发现当前模型在测量任务上尚可但在病灶识别和推理上远未达到临床要求。

查看全部107篇「多模态 VLM」论文 →


🧠 VLM Reasoning (30)

ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking

提出ACT(Annotation with Critical Thinking)数据流水线,MLLM批量标注全部数据后由另一个MLLM作为批评者估计每条标注的错误概率,仅将高可疑样本交给人类审核,配合理论推导的ACT损失函数,在6个跨模态数据集上节省70-90%人工成本且下游性能差距<2%。

AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

提出细粒度 3D 具身推理任务(预测可操作元素的空间位置+运动类型+运动轴),通过将 3D 点云渲染为环视图并投影 affordance 候选,结合定制的 CoT 推理范式指导 MLLM 实现 SOTA,AP25 达 23.3%。

Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning

提出 In-Context Representation Learning(ICRL),首个训练无关框架,将非文本模态基础模型(FM)的表征注入纯文本 LLM 进行少样本推理,通过 PCA 文本注入和最优传输嵌入对齐两种策略实现跨模态知识利用。

Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

提出 Qualcomm Interactive Cooking 基准和 LiveMamba 模型,首次系统评估多模态 LLM 在实时流式视频中提供分步任务指导(包括指令下发、完成检测和错误反馈)的能力。

READ: Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions

提出 READ 微调方法,通过两个辅助目标——(1) token-level 重建(冻结解码器从文本嵌入重建替代描述)和 (2) sentence-level 对齐(强制改述的嵌入一致)——增强 CLIP 文本编码器的组合推理能力,在 5 个组合推理基准上达到 SOTA(超 NegCLIP 4.5%,超 FSC-CLIP 4.1%)。

Enhancing Outcome Reward-Based RL Training of MLLMs with Self-Consistency Sampling

针对多模态多选题中"结果奖励 RL 训练导致不忠实推理轨迹"的问题,提出 Self-Consistency Sampling (SCS),通过截断-重采样和视觉扰动获得一致性奖励来惩罚虚假推理,搭载 RLOO 后在六个基准上平均提升 7.7 个百分点。

FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models

FlexAC 发现 MLLM 的联想推理行为主要编码在中间层,通过从幻觉响应中提取引导向量并在推理时注入中间层表示,实现忠实性与创造力的灵活调控——幻觉率降低 29%(CHAIR),创造力提升 5.8×(Creation-MMBench),且无需训练。

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

提出 GUI-Rise 框架,通过结构化推理(进度估计 + 决策推理)、动作预测和历史摘要三个子任务的联合设计,结合 GRPO 强化学习与历史摘要奖励,显著提升 GUI 导航智能体在跨域场景下的泛化能力。

iFinder: Structured Zero-Shot VLM Grounding for Dash-Cam Video Reasoning

提出 iFinder,一个模块化免训练框架,将行车记录仪视频解耦为感知(结构化场景表示)与推理(LLM),通过层级数据结构和三块式提示策略使 LLM 获得可解释的时空推理能力,在四个驾驶视频基准上零样本超越端到端 V-VLM,事故推理准确率提升高达 39%。

MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agriculture

MIRAGE 是首个基于真实农业专家咨询对话(35,000+条)构建的多模态基准,评估视觉语言模型在领域级实体识别、因果推理和"澄清还是回答"决策方面的能力,揭示了即使 GPT-4.1 识别准确率也仅 43.9% 的严峻挑战。

查看全部30篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (8)

Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization

提出 Balanced Token Pruning (BTP),通过联合考虑剪枝对当前层(局部)和后续层(全局)的影响,在浅层侧重多样性保留以维护下游表示质量、在深层侧重注意力选择以保持局部输出一致性,在 LLaVA/Qwen2.5-VL 等多个 LVLM 上仅保留 22% 视觉 token 即保持原模型 98% 性能。

Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability

UAT(Unsupervised Adaptive Thresholding)为早退 DNN 设计了可靠性函数来评估中间层输出质量,并用多臂赌博机(MAB)算法在推理时动态学习最优退出阈值,实现 1.7-2.1× 加速且性能损失 <2%,同时对分布偏移鲁棒。

ElasticMM: Efficient MLLM Serving with Elastic Multimodal Parallelism

提出弹性多模态并行(EMP)范式和 ElasticMM 系统,通过模态感知负载均衡和弹性分区调度将多模态推理的不同阶段解耦到独立实例,相比 vLLM TTFT 降低最高 4.2 倍、吞吐量提升 3.2-4.5 倍。

FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models

从信息流(Information Flow)视角重新理解VLM中视觉token冗余性的涌现机制,提出FlowCut框架通过层自适应剪枝比例、多标准融合评分和累积重要性跟踪实现与模型内在信息传播行为对齐的token剪枝,在LLaVA-1.5-7B上以88.9% token减少率超越SOTA 1.6%,LLaVA-NeXT-7B上以94.4%减少率超越4.3%。

HAWAII: Hierarchical Visual Knowledge Transfer for Efficient VLM

提出 Hawaii 框架,通过混合 LoRA 适配器(MoLA)和分层知识蒸馏(HKD),将多个视觉专家的知识蒸馏到单个视觉编码器中,在不增加推理成本的前提下显著提升 VLM 的视觉理解能力。

PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation

PrefixKV 发现不同层 KV 缓存的重要性分布差异显著,将逐层缓存大小确定问题形式化为全局前缀配置搜索,通过二分搜索找到最优信息保留阈值使每层保持最大上下文信息,在 20% 压缩率下仅有 0.49 PPL 下降且提供 1.8× 推理加速。

SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodal LLMs

提出 SCOPE,一种联合建模显著性和覆盖率的视觉 Token 剪枝策略,通过迭代选择 SCOPE 得分最高的 Token 来保持语义完整性,在 9 倍 Token 缩减下保留 LLaVA-1.5 96% 的性能。

ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

针对VLM推测解码(speculative decoding)中草稿模型难以处理冗余视觉token的问题,提出ViSpec框架,通过视觉适配器压缩图像token+全局视觉特征注入+合成训练数据,首次在VLM推测解码中实现了显著加速(最高3.22×)。


🎵 音频/语音 (47)

A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings

提出 TiALD(Tigrinya Abusive Language Detection),首个面向 Tigrinya 低资源语言的大规模多任务基准数据集,包含 13,717 条 YouTube 评论的辱骂/情感/主题三任务联合标注,同时发现小型微调模型(TiRoBERTa, 125M)在所有任务上全面超越 GPT-4o 和 Claude Sonnet 3.7 等前沿 LLM。

A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity

TRIANGLE提出用高维空间中三模态嵌入向量构成的三角形面积作为相似度度量,替代传统的成对余弦相似度,实现了视频-音频-文本三模态的联合对齐,在视频文本检索等任务上超越SOTA最多9个Recall@1点。

Accelerate Creation of Product Claims Using Generative AI

开发 Claim Advisor 平台,利用 LLM 的 in-context learning 和 LoRA 微调加速消费品产品宣称的搜索、生成、优化和排序,通过模仿 MaxDiff 研究方法论让微调的 Phi-3 14B 模型在宣称排序上超越 GPT-4o(仅用 1 个示例 vs GPT 的 100 个示例),三轮迭代后 100% 的生成宣称达到"高吸引力"级别。

Adapting Speech Language Model to Singing Voice Synthesis

将 1.7B 参数的 TTS 预训练 Speech Language Model 适配到歌声合成(SVS)任务,通过乐谱 tokenization + multi-stream LM 预测 + conditional flow matching 精修 + vocoder,仅用 135 小时合成歌声数据达到与专用 SVS 系统可比的性能。

Associative Syntax and Maximal Repetitions Reveal Context-Dependent Complexity in Fruit Bat Communication

本文提出一种无监督方法来推断果蝠发声的离散单元、语法类型和时序结构,并首次将最大重复子序列(Maximal Repetitions)引入动物通信领域,发现冲突行为中的通信复杂度显著高于合作行为。

AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound

AudSemThinker 为音频语言模型引入结构化语义推理框架——定义 9 类声音语义描述符(谁/什么/如何/何时/何地等),在 Qwen2.5-Omni-7B 上通过 SFT + GRPO(含可验证奖励和长度约束)训练产生 \<think>\<semantic_elements>\<answer> 三阶段输出,MMAU 基准达 66.70%(超越 Audio-Reasoner 61.71% 和 Qwen2.5-Omni 65.60%)。

BNMusic: Blending Environmental Noises into Personalized Music

提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。

Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models

提出 Multi-brain-tuning 方法,通过联合多个被试的 fMRI 数据微调预训练语音模型,将脑对齐所需数据量降低 5 倍,同时脑对齐度提升最高 50%,并可泛化到全新被试和数据集。

Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation

提出 RecBench 综合评估框架,在5个领域数据集上系统对比17个LLM与10个传统DLRM,发现LLM推荐器在CTR任务上AUC提升最高5%、在序列推荐上NDCG@10提升最高170%,但推理速度慢10-1000倍,而传统DLRM结合LLM语义嵌入(LLM-for-RS)可以20倍更快的速度达到LLM约95%的性能,是当前最具工业可行性的方案。

Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models

Data-Juicer 2.0 是面向基础模型的云规模多模态数据处理系统,150+ 跨文本/图像/视频/音频算子,支持自适应分布式执行(Ray/MaxCompute),在 10000+ CPU 核心上高效处理 TB 级数据,已广泛应用于阿里云 PAI 等产品。

查看全部47篇「音频/语音」论文 →


🔎 AIGC 检测 (9)

ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

提出 ASCIIBench,首个公开可用的 ASCII 艺术理解与生成基准(5,315 张图像,752 类),系统评估发现视觉模态显著优于文本模态,多模态融合反而不帮忙,且 CLIP 对 ASCII 结构的表征能力存在根本性瓶颈——只有内部一致性高的类别才能被有效区分。

Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content

提出双Agent(定量+定性)评估框架,从神学准确性、引用完整性和文体恰当性三个维度系统评估 GPT-4o、Ansari AI 和 Fanar 在伊斯兰内容生成任务上的忠实度,发现即使最优模型也在引用可靠性上存在显著不足。

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

提出让 LLM 生成域相关启发式函数的 Python 代码(而非直接生成计划),通过 \(n\) 次采样获得候选启发式池并在训练集上选优,将最优启发式注入 Python 规划器 Pyperplan 配合 GBFS 使用,在 IPC 2023 基准 8 个域上以纯 Python 实现超越了所有 C++ Fast Downward 传统启发式,且与 SOTA 学习型规划器 \(h^{\mathrm{WLF}}_{\mathrm{GPR}}\) 持平,同时保证所有找到的计划 100% 正确。

CLAWS: Creativity Detection for LLM-Generated Solutions Using Attention Window of Sections

提出 CLAWS,通过分析 LLM 在生成数学解答时对不同 prompt 区段的注意力权重分布,无需人工评估即可将生成内容分类为"创造性"、"典型"或"幻觉"三类。

DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code

提出 DuoLens,一种基于 CodeBERT + CodeBERTa 双编码器融合的 AI 生成内容检测框架,在多语言文本(8 种语言)和源代码(7 种编程语言)检测上以极低计算成本(延迟降低 8-12×,VRAM 降低 3-5×)实现 AUROC 0.97-0.99,远超 GPT-4o 等大模型。

"Jutters"

通过荷兰传统"jutters"(海岸拾荒者)的隐喻,构建了一个融合真实海滩碎片与AI生成图像/视频的沉浸式装置艺术,引导参观者以拾荒者心态反思如何对待AI生成内容。

QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code

提出NeuComBack基准数据集用于评估IR到汇编的神经编译任务,并设计自进化提示优化方法,通过从LLM自调试轨迹中学习来迭代改进编译提示,使正确率从44%提升到64%,且87.5%的正确程序性能超越clang-O3。

Reasoning Compiler: LLM-Guided Optimizations for Efficient Model Serving

提出 Reasoning Compiler,将编译器优化建模为序列决策过程,用 LLM 作为上下文感知提案引擎 + MCTS 平衡探索/利用,在 5 个代表性 benchmark 和 5 个硬件平台上实现平均 5.0× 加速且采样效率比 TVM 进化搜索提升 10.8×。

Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency

提出Wedge框架——通过LLM合成性能刻画约束(performance-characterizing constraints)指导约束感知模糊测试,生成能暴露代码性能瓶颈的压力测试输入,构建PerfForge基准,使LLM代码优化器(如Effi-Learner)多减24% CPU指令。


🧊 3D 视觉 (116)

3D Visual Illusion Depth Estimation

揭示了3D视觉错觉(如墙面彩绘、屏幕重播、镜面反射等)会严重欺骗现有SOTA单目和双目深度估计方法,构建了包含约3k场景/200k图像的大规模数据集,并提出基于VLM常识推理的单目-双目自适应融合框架,在各类错觉场景下达到SOTA。

4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

提出4DGT——一种基于4D高斯的Transformer模型,完全在真实世界单目带位姿视频上训练,以前馈方式在几秒内完成动态场景重建,显著优于同类前馈网络,并达到与优化类方法可比的精度。

Anti-Aliased 2D Gaussian Splatting

提出 AA-2DGS,通过世界空间平坦平滑核和物体空间 Mip 滤波器两个互补机制,解决 2D Gaussian Splatting 在不同采样率下渲染时的严重锯齿问题,在保持 2DGS 几何精度优势的同时显著提升多尺度渲染质量。

ARMesh: Autoregressive Mesh Generation via Next-Level-of-Detail Prediction

提出将 3D mesh 生成建模为"由粗到精"的逐级细化过程(next-level-of-detail prediction),通过反转广义网格简化算法(GSlim)获得渐进式细化序列,再用 Transformer 自回归学习,从单个点开始逐步增加几何与拓扑细节生成完整网格。

AtlasGS: Atlanta-world Guided Surface Reconstruction with Implicit Structured Gaussians

提出 AtlasGS,通过将 Atlanta-world 结构先验引入隐式结构化高斯表示(implicit-structured Gaussians),在室内和城市场景中实现平滑且保留高频细节的高质量表面重建,全面超越已有隐式和显式方法。

BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

提出 BecomingLit,基于 3D Gaussian 原语和混合神经着色(neural diffuse BRDF + 解析 Cook-Torrance specular)从低成本 light stage 多视角序列重建可重光照、实时渲染的高保真头部 avatar,并发布了新的公开 OLAT 人脸数据集。

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

CLIPGaussian 提出首个基于 Gaussian Splatting 的统一风格迁移框架,支持文本和图像引导的 2D 图像、视频、3D 物体和 4D 动态场景的风格化,作为即插即用模块集成到现有 GS 管线中,无需大规模生成模型或从头重训,且不改变模型大小。

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Concerto 将 3D 点云模态内自蒸馏与 2D-3D 跨模态联合嵌入预测相结合,以极简设计让单一点云编码器(PTv3)涌现出超越 2D/3D 单模态甚至两者拼接的空间表征,在多个 3D 场景理解基准上刷新 SOTA(ScanNet 语义分割 80.7% mIoU)。

Copresheaf Topological Neural Networks: A Generalized Deep Learning Framework

本文提出 Copresheaf Topological Neural Networks (CTNNs),基于代数拓扑中的余预层(copresheaf)概念,在组合复形(combinatorial complex)上定义方向性、异质的消息传递机制,统一了 CNN、GNN、Transformer、Sheaf Neural Networks 和拓扑神经网络等多种深度学习架构,并在物理模拟、图分类和高阶复形分类任务上超越传统基线。

CosmoBench: A Multiscale, Multiview, Multitask Cosmology Benchmark for Geometric Deep Learning

提出 CosmoBench——目前最大的宇宙学几何深度学习基准,包含 3.4 万点云和 2.5 万有向树,覆盖多尺度、多视角、多任务,并揭示简单线性模型有时能超越大型 GNN。

查看全部116篇「3D 视觉」论文 →


🎯 目标检测 (27)

ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining

首次提出面向工业异常检测的专用表示预训练框架 ADPretrain,通过角度和范数导向的对比损失在大规模异常检测数据集 RealIAD 上学习残差特征表示,替换五种主流嵌入式 AD 方法的原始特征后在五个数据集、五个骨干网络上取得一致性提升。

EPHAD: An Evidence-Based Post-Hoc Adjustment Framework for Anomaly Detection Under Data Contamination

EPHAD 提出一种测试时后处理框架,通过指数倾斜(exponential tilting)将已被污染数据训练的异常检测模型输出与外部证据(CLIP/LOF等)进行贝叶斯式融合校正,无需接触训练流程,在8个视觉和26个表格AD数据集上一致提升被污染模型的检测性能。

Ascent Fails to Forget

本文从遗忘集与保留集之间的统计依赖出发,理论结合实验证明广泛使用的梯度上升/Descent-Ascent(DA)类机器遗忘方法在存在数据相关性时会系统性失败——在 logistic 回归中 DA 解甚至会比原始模型更远离 oracle,且在非凸设置下会将模型困在劣质局部最小值中。

Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent

提出一个自反思 agent 框架,通过迭代的假设生成-测试-验证-反思循环来自动检测视觉模型中的属性依赖(如 CLIP 识别 teacher 依赖教室背景、YOLOv8 检测行人依赖人行横道),在 130 个注入已知属性依赖的模型 benchmark 上显示自反思显著提升检测准确性。

AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing

提出 AutoSciDACT 管线:先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间,再用 NPLM(New Physics Learning Machine)似然比检验对嵌入空间中的分布偏差进行统计量化,在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。

BurstDeflicker: A Benchmark Dataset for Flicker Removal in Dynamic Scenes

提出首个面向多帧闪烁去除(MFFR)的大规模 benchmark 数据集 BurstDeflicker,包含基于 Retinex 的合成数据、真实静态数据和绿幕动态数据三个互补子集,系统解决了动态场景下闪烁-干净图像对难以获取的核心瓶颈。

CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection

针对大规模类别(>10K)目标检测中分类头的正梯度稀释和难负样本梯度稀释问题,提出 CQ-DINO:用可学习类别查询替代分类头,通过图像引导的 Top-K 类别选择将负空间缩小 100 倍,在 V3Det(13204 类)上超越前 SOTA 2.1% AP,同时保持 COCO 竞争力。

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

构建覆盖2282种语言、46.72TB文本的多语言数据集DCAD-2000,提出将数据清洗重构为异常检测问题的语言无关框架,通过8维统计特征+Isolation Forest动态过滤噪声数据,在多个多语言benchmark上验证效果,尤其对低资源语言提升显著。

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

DetectiumFire 构建了最大的多模态火灾理解数据集——14.5K 真实图像 + 2.5K 视频 + 8K 合成图像 + 12K RLHF 偏好对,低重复率(0.03 PHash vs D-Fire 0.15),配合 4 级严重性分类标准和详细场景描述,微调 YOLOv11m 达 mAP 43.74,微调 LLaMA-3.2-11B 火灾严重性分类 83.84%。

DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning

提出 DETree 框架,通过构建层次亲和树(HAT)建模不同人机协作文本生成过程之间的层次关系,并设计树结构对比损失(TSCL)对齐表示空间,在混合文本检测和 OOD 场景下取得了显著优势。

查看全部27篇「目标检测」论文 →


✂️ 语义分割 (45)

Alligat0R: Pre-Training through Covisibility Segmentation for Relative Camera Pose Regression

用共视性分割(covisibility segmentation)替代 CroCo 的跨视图补全作为双目视觉预训练任务,对每个像素预测"共视/遮挡/视野外"三类标签,在低重叠场景下显著超越 CroCo,RUBIK 基准总体成功率 60.3% 排第一。

Attention (as Discrete-Time Markov) Chains

将 softmax 归一化后的注意力矩阵重新解读为离散时间 Markov 链(DTMC)的转移概率矩阵,提出多跳注意力(Multi-Bounce)和 TokenRank(稳态分布,类似 PageRank)来捕获间接注意力路径和全局 token 重要性,在 ImageNet 分割上达 94.29% mAP,并增强 Self-Attention Guidance 的图像生成质量。

ConnectomeBench: Can LLMs Proofread the Connectome?

提出 ConnectomeBench,首个评估多模态 LLM 在连接组校对(片段识别、分裂错误修正、合并错误检测)三项关键任务上能力的标准化基准;o4-mini 在分裂修正多选任务达 85%,但合并错误检测仍显著落后于人类专家。

COS3D: Collaborative Open-Vocabulary 3D Segmentation

提出 COS3D——一种协作式 prompt-分割框架,通过构建实例场(instance field)和语言场(language field)组成的协作场,在训练阶段利用实例到语言的特征映射构建语言场,在推理阶段利用语言到实例的自适应 prompt 精炼生成精确分割,在两个主流基准上大幅超越现有方法。

Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation

提出两阶段主动学习流程(覆盖性→不确定性),利用预训练扩散模型的多尺度特征实现极低标注预算下的高效语义分割。

Exploring Structural Degradation in Dense Representations for Self-supervised Learning

发现并系统研究了自监督学习中"稠密退化"(SDD)现象——训练越久分类越好但稠密任务性能反而下降,提出 DSE 度量和基于 DSE 的模型选择/正则化策略,平均提升 mIoU 3.0%。

Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning

通过卷积解码归一化(替代硬半自回归分块)和基于规则的拒绝微调 R2FT,在 128 步推理下实现与 512+ 步相当的扩散语言模型生成质量,达到 DLM 领域 SOTA。

FAST: Foreground-aware Diffusion with Accelerated Sampling Trajectory for Segmentation-oriented Anomaly Synthesis

FAST 把“异常区域要被持续保留下来”这件事做成了显式机制,一边用 AIAS 把离散扩散的多步反演压缩成少量粗到细更新,一边用 FARM 在每一步都重建并回灌异常前景,因此既快又更适合给下游异常分割模型喂训练数据。

FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning

提出 FineRS 两阶段 MLLM 强化学习框架(全局语义探索 GSE → 局部感知精化 LPR),通过 locate-informed retrospective reward 耦合两阶段,在自建 FineRS-4k UAV 高分辨率数据集上实现超小目标的推理与分割,gIoU 达 55.1%(超 Seg-Zero† 8.5%),同时支持 VQA(MVQA 83.3%)。

GTPBD: A Fine-Grained Global Terraced Parcel and Boundary Dataset

构建首个全球性细粒度梯田地块与边界数据集GTPBD,包含47,537张高分辨率影像(0.5-0.7m)和超20万个人工标注地块,提供三级标签支持语义分割、边缘检测、地块提取和无监督域适应四项任务,并在20种方法上进行全面基准评测。

查看全部45篇「语义分割」论文 →


🖼️ 图像恢复 (26)

Adaptive Discretization for Consistency Models

提出ADCM——通过将一致性模型的离散化步长形式化为局部一致性(可训练性)与全局一致性(稳定性)的约束优化问题,并用Gauss-Newton法求闭式解,实现自适应离散化,在CIFAR-10上用不到25%训练预算超越所有先前CM。

Audio Super-Resolution with Latent Bridge Models

提出 AudioLBM,将音频波形压缩到连续隐空间,用桥模型实现从低分辨率到高分辨率的 latent-to-latent 生成过程,配合频率感知训练扩展数据利用和级联设计突破 48kHz 上限,在语音/音效/音乐上全面超越 AudioSR 等方法,并首次实现 any-to-192kHz 音频超分。

DP²O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution

提出 DP²O-SR 框架,利用扩散模型固有的随机性生成多样化超分辨率输出,通过混合感知奖励构建偏好对,并设计层次化偏好优化(HPO)策略自适应加权训练对,在无需人工标注的前提下显著提升真实世界图像超分辨率的感知质量。

DynaGuide: Steering Diffusion Policies with Active Dynamic Guidance

提出 DynaGuide,在推理时通过外部潜在动力学模型对预训练扩散策略施加 classifier guidance,无需修改策略权重即可引导机器人朝向任意正/负目标,在 CALVIN 仿真上平均成功率 70%,真实机器人达 80%。

Elucidated Rolling Diffusion Models for Probabilistic Forecasting of Complex Dynamics

提出 ERDM,首次将滚动扩散(Rolling Diffusion)框架与 EDM 的原则性设计(噪声调度、预条件化、Heun 采样器)成功统一,通过渐进噪声调度显式建模不确定性增长,在 Navier-Stokes 和 ERA5 天气预报任务上显著优于自回归 EDM 基线。

Encoder-Decoder Diffusion Language Models for Efficient Training and Inference

提出 E2D2,一种面向离散扩散语言模型的编码器-解码器架构,通过轻量解码器迭代去噪、大型编码器定期更新表征,同时实现更快推理(~3× vs MDLM)和更高效的 block diffusion 训练(FLOPs 减半)。

Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark

针对热红外(TIR)图像中低对比度、模糊、噪声等多种退化耦合的问题,提出基于双提示融合的渐进式网络PPFN和选择性渐进训练策略SPT,并构建首个大规模多场景TIR基准数据集HM-TIR,在复合退化场景下PSNR提升8.76%。

FIPER: Factorized Features for Robust Image Super-Resolution and Compression

提出 Factorized Features 统一表示——将图像分解为可学习的非均匀基与空间变化系数,配合锯齿坐标变换和多频调制,在 4× 超分辨率上 PSNR 相对提升 204.4%(HAT-L-F vs SwinIR),在图像压缩上 BD-rate 相比 VTM 降低 21.09%。

GC4NC: A Benchmark Framework for Graph Condensation on Node Classification with New Insights

提出 GC4NC——首个系统化的图凝缩(Graph Condensation)评估基准框架,跨 8 个维度(性能/效率/隐私保护/去噪/NAS有效性/可迁移性等)统一评估多种图凝缩方法,发现轨迹匹配方法最优、无结构方法效率最高,并在 1000x 压缩下图凝缩显著优于图像凝缩。

Implicit Augmentation from Distributional Symmetry in Turbulence Super-Resolution

本文揭示湍流的统计各向同性本身就是一种隐式数据增强,使得标准CNN在超分辨率任务中无需显式旋转增强或等变架构即可部分习得旋转等变性,并展示了等变误差的尺度依赖性与Kolmogorov局部各向同性假说一致。

查看全部26篇「图像恢复」论文 →


🛰️ 遥感 (12)

C3PO: Cross-View Cross-Modality Correspondence by Pointmap Prediction

构建了包含 90K 地面照片-平面图对(597 个场景、153M 像素级对应和 85K 相机位姿)的 C3 数据集,揭示现有对应模型在跨视角跨模态(如地面照片 vs. 平面图)场景下的局限性,通过在该数据上训练可将最佳方法的 RMSE 降低 34%。

ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning

提出ChA-MAEViT,通过动态通道-patch联合掩码、记忆token、混合token融合和通道感知解码器四大组件增强多通道图像(MCI)的跨通道特征学习,在卫星和显微三大数据集上平均超越SOTA 3.0-21.5%。

Cloud4D: Estimating Cloud Properties at a High Spatial and Temporal Resolution

首个基于地面多视角相机的学习框架,通过单应性引导的2D-to-3D Transformer重建四维(3D空间+时间)云液态水含量分布,在25m空间/5s时间分辨率下实现了相对雷达<10%的误差,比卫星观测提升了一个数量级的时空分辨率。

Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models

作为2025 NASA Heliolab的成果,本文构建了首个全面的ML-ready电离层预测数据集,将太阳动力学观测站(SDO)极紫外辐照度嵌入、太阳风参数、行星际磁场、地磁活动指数、JPL稠密TEC全球电离层图、Madrigal稀疏TEC、太阳通量指数以及轨道力学参数等7大类异构数据源统一对齐到一致的时间-空间结构中,并在此基础上训练了包括LSTM、球面神经算子(SFNO)和GraphCast在内的多种时空预测架构,实现了对全球垂直总电子含量(vTEC)在安静和地磁活跃条件下长达12小时的自回归预测,超越了持续性基线。

EcoCast: A Spatio-Temporal Model for Continual Biodiversity and Climate Risk Forecasting

提出EcoCast,融合卫星遥感(Sentinel-2)、气候再分析(ERA5)和公民科学观测(GBIF)数据的Transformer时空序列模型,通过12个月环境特征序列预测下月物种出现概率,在非洲5种鸟类分布预测上F1宏平均从Random Forest的0.31提升至0.65,并设计了基于EWC的持续学习框架以适应数据更新。

GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

GeoLink将OpenStreetMap矢量数据直接融入遥感基础模型预训练,通过异构GNN编码OSM数据并设计多粒度跨模态学习目标(区域-图像级对比 + 对象-patch级融合),在127万样本对上高效预训练后,7个分类和4个分割/变化检测benchmark全面超越现有RS FM。

GreenHyperSpectra: A Multi-Source Hyperspectral Dataset for Global Vegetation Trait Prediction

GreenHyperSpectra构建了一个包含14万+多源高光谱植被样本的预训练数据集,横跨近端、航空和卫星三种平台,通过半监督和自监督方法(MAE、GAN、RTM-AE)训练的标签高效回归模型在7种植物性状预测上全面超越全监督基线,特别是在标签稀缺和分布外场景中优势显著。

Mass Conservation on Rails – Rethinking Physics-Informed Learning of Ice Flow Vector Fields

提出散度无关神经网络(dfNN),通过流函数的辛梯度从架构上精确保证质量守恒(散度恒为零),结合方向引导学习策略,在南极Byrd冰川冰通量插值中显著优于软约束PINNs和无约束NN。

OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning

本文提出OrbitZoo,一个基于工业级Orekit轨道动力学库构建的多智能体RL环境,支持碰撞规避、霍曼转移、星座协调等真实轨道任务,通过PettingZoo接口实现标准化MARL训练,并在Starlink真实星历数据验证中达到低误差组24米RMSE(16.6小时传播)。

OrthoLoC: UAV 6-DoF Localization and Calibration Using Orthographic Geodata

OrthoLoC构建了首个面向正射地理数据(DOP+DSM)的大规模UAV 6-DoF定位基准数据集,包含16425张真实UAV图像覆盖德国和美国47个区域,并引入AdHoP(自适应单应性预处理)匹配改进技术,在不修改特征匹配器的情况下将匹配性能提升95%、平移误差降低63%。

查看全部12篇「遥感」论文 →


🧑 人体理解 (21)

A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation

本文将跨域视线估计(CDGE)问题建模为广义标签偏移(GLS)问题,指出现有域不变表示学习方法在标签偏移存在时理论上不充分,提出基于截断高斯分布的连续重要性重加权和概率感知条件算子差异(PCOD)来联合纠正标签偏移和条件偏移,在多个backbone上平均降低误差12%~27%。

BEDLAM2.0: Synthetic Humans and Cameras in Motion

BEDLAM2.0 在 BEDLAM 基础上全面升级——引入多样化相机运动(合成平移/追踪/环绕 + 手持/头戴设备捕捉)、更广体型覆盖(BMI 18-41)、strand-based 发型、鞋子、分级服装和更多3D环境,构建 27K+ 序列 / 8M+ 帧的合成数据集,仅用合成数据训练即可在世界坐标系人体运动估计上超越 SOTA。

ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts

提出 ConceptScope 框架,利用在视觉基础模型表征上训练的稀疏自编码器(SAE)自动发现和量化数据集中的视觉概念偏差,无需人工标注即可将概念分类为 target / context / bias 三类。

CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals

提出 CPEP 框架,通过对比学习将低质量 EMG 信号表征与高质量手部姿态表征对齐,使 EMG 编码器获得姿态感知能力,首次实现从 EMG 信号零样本识别未见手势,分布内手势分类提升 21%、未见手势分类提升 72%。

Cycle-Sync: Robust Global Camera Pose Estimation through Enhanced Cycle-Consistent Synchronization

提出 Cycle-Sync 全局相机位姿估计框架,通过将消息传递最小二乘 (MPLS) 扩展到相机位置估计、引入 Welsch 型鲁棒损失和环一致性加权,在无需 bundle adjustment 的情况下超越了包括完整 SfM pipeline(含 BA)在内的所有基线方法。

DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces

提出 DevFD——一种发展式 MoE 架构,用共享 Real-LoRA 建模真实人脸共性、正交 Fake-LoRA 序列逐步建模新伪造类型,并通过将正交梯度集成到正交损失中缓解灾难性遗忘,在持续学习人脸伪造检测中达到最高准确率和最低遗忘率。

Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge

FreeCure发现面部个性化模型的身份嵌入会覆盖但不破坏基础模型的prompt控制能力,据此提出无训练框架,通过Foundation-Aware Self-Attention(FASA)将基础模型的属性信息注入个性化生成过程,在保持身份保真度的同时大幅提升prompt一致性,可无缝集成到SD/SDXL/FLUX等主流模型。

HOI-Dyn: Learning Interaction Dynamics for Human-Object Motion Diffusion

将人体-物体交互(HOI)生成建模为 Driver-Responder 系统,通过轻量级 Transformer 交互动力学模型显式预测物体对人体动作的响应,利用残差动力学损失在训练时增强因果一致性,同时保持推理效率。

K-DeCore: Facilitating Knowledge Transfer in Continual Structured Knowledge Reasoning

提出 K-DeCore 框架,通过知识解耦将结构化知识推理分为任务无关的 schema 过滤和任务特定的 query 构建两阶段,配合双视角记忆构建和结构引导的伪数据合成策略,在固定参数量下实现跨异构 SKR 任务的有效知识迁移。

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

提出 PBHC 框架,通过物理感知运动处理流水线和自适应跟踪因子的双层优化,使人形机器人(Unitree G1)学会功夫、舞蹈等高动态全身动作,跟踪误差显著优于现有方法并成功实机部署。

查看全部21篇「人体理解」论文 →


📹 视频理解 (39)

A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis

提出一个完全零样本、无需训练的视频异常分析框架,通过Intra-Task Reasoning(置信度门控的自我精化)和Inter-Task Chaining(从时序检测到空间定位到语义理解的级联prompt传递),在4个benchmark上全面超越先前零样本方法4-6% AUC。

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

提出 AdaVideoRAG,通过轻量级意图分类器将查询按难度路由到三级检索路径(无检索/朴素检索/图检索),结合全知识索引模块(caption+ASR+OCR+视觉+知识图谱)实现长视频理解的效率-精度最优平衡,在 MLVU 上为 Qwen2.5-VL-7B 带来 39.8% 提升。

ConViS-Bench: Estimating Video Similarity Through Semantic Concepts

提出基于语义概念的视频相似度估计任务 ConViS 及配套 benchmark ConViS-Bench(610对视频、16领域、5概念),系统评测了10+主流模型在概念条件下的视频比较能力,揭示当前模型在时序结构和空间语境理解上的显著短板。

Disentangled Concepts Speak Louder Than Words: Explainable Video Action Recognition

提出DANCE框架,通过将动作解释解耦为运动动态、物体和场景三类概念,实现结构化和运动感知的可解释视频动作识别。

DualGround: Structured Phrase and Sentence-Level Temporal Grounding

本文发现现有视频时间定位模型过度依赖 [EOS] token 的全局句子语义而忽略词级信号,提出 DualGround 双分支架构,通过句子级路径(自适应交叉注意力)和短语级路径(循环短语生成+Slot Attention)显式分离全局和局部语义,在 QVHighlights 和 Charades-STA 上实现 SOTA。

EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes

EAG3R 将事件相机的异步事件流融入 MonST3R 点图重建框架,通过 Retinex 增强模块 + SNR 感知融合机制 + 事件光度一致性损失,在极端低光动态场景下实现鲁棒的深度估计、位姿跟踪和 4D 重建,零样本迁移夜间场景即可大幅超越 RGB-only 方法。

EgoGazeVQA: Egocentric Gaze-Guided Video Question Answering Benchmark

提出 EgoGazeVQA,首个融合用户眼动注视数据的第一人称视频问答基准,通过注视引导的提示策略(文本/视觉/显著性图)显著提升 MLLM 对用户意图的理解能力,Gaze Salience Map 策略最高可将 MiniCPM-o 的准确率从35.9%提升至53.7%。

Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders

提出 STAVEQ2,在 Vision Encoder 中堆叠参数高效的时序注意力模块(STA),解决现有 Video-LLM 在细粒度时序理解(如区分"从左到右拉"和"从右到左拉")上的根本性架构缺陷,在 VITATECS/MVBench/Video-MME 上提升最高 5.5%。

FastVID: Dynamic Density Pruning for Fast Video Large Language Models

提出 FastVID,通过动态时序分割 (DySeg) + 密度空时剪枝 (STPrune) 从时间和视觉两个维度系统性消除视频 token 冗余,在 LLaVA-OneVision-7B 上剪掉 90.3% 视频 token 后仍保留 98% 精度,LLM prefill 阶段加速 7.1×。

Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

提出一种融合 V-JEPA 2 视觉上下文特征与 CoMotion 3D 骨骼姿态数据的 cross-attention 多模态架构,在标准及高遮挡动作识别基准上优于单模态基线。

查看全部39篇「视频理解」论文 →


🚗 自动驾驶 (47)

3EED: Ground Everything Everywhere in 3D

提出 3EED——首个大规模多平台(车、无人机、四足机器人)、多模态(LiDAR+RGB)室外 3D 视觉定位基准,包含超 12.8 万目标和 2.2 万语言描述,规模是现有室外数据集的 10 倍;同时设计了跨平台对齐、多尺度采样和尺度自适应融合的基线方法,揭示了跨平台 3D grounding 的巨大性能差距。

Aha: Predicting What Matters Next — Online Highlight Detection Without Looking Ahead

Aha提出首个面向在线高亮检测(OHD)的自回归框架,通过解耦的多目标预测头(相关性/信息量/不确定性)和新颖的Dynamic SinkCache内存机制,在严格不使用未来帧的约束下,于TVSum和Mr.Hisum基准上分别以+5.9%和+8.3% mAP超越此前离线方法。

Availability-aware Sensor Fusion via Unified Canonical Space

提出 ASF(Availability-aware Sensor Fusion),通过统一规范投影(UCP)将 Camera/LiDAR/4D Radar 特征映射到共享空间 + 跨传感器沿 patch 交叉注意力(CASAP,复杂度 \(O(N_qN_s)\) 而非 \(O(N_qN_sN_p)\))自动适配可用传感器 + 传感器组合损失(SCL)覆盖所有 7 种组合,在 K-Radar 上 AP_3D 73.6%(超 SOTA 20.1%),传感器故障时性能仅降 1.7%。

BayesG: Bayesian Ego-Graph Inference for Networked Multi-Agent Reinforcement Learning

BayesG 让网络化 MARL 中的每个 agent 通过贝叶斯变分推断学习其局部通信图的动态结构——用 Gumbel-Softmax 采样边掩码、ELBO 目标联合优化策略和图结构,在 167 agent 的纽约交通场景中奖励比最佳 baseline 高 50%+。

Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems

提出 GSAC 框架,将因果表示学习与元 Actor-Critic 结合,通过从网络 MARL 中学习稀疏因果掩码构建近似紧凑表示 (ACR) 实现可扩展性,通过域因子条件化策略实现跨域泛化,给出了因果恢复、收敛和自适应间隙的有限样本保证。

ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset

提出 ChronoGraph——首个同时包含多元时间序列、显式服务依赖图和事件标签的真实世界微服务数据集(6个月 / ~700服务 / 5维指标 / 8005时间步),基准测试表明现有预测和异常检测方法在长期预测和拓扑感知方面均存在较大提升空间。

Continuous Simplicial Neural Networks

提出 COSIMO,首个基于偏微分方程(PDE)的连续单纯形神经网络,通过在 Hodge Laplacian 上定义热扩散动力学实现连续信息流,比离散 SNN 具有更好的稳定性和过平滑控制能力。

CuMoLoS-MAE: A Masked Autoencoder for Remote Sensing Data Reconstruction

提出 CuMoLoS-MAE,一种结合课程掩码策略和 Monte Carlo 随机集成的 Masked Autoencoder,用于遥感大气廓线数据的高保真重建与逐像素不确定性量化。

CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation

提出首个"草图→3D户外语义场景"生成任务与基准数据集 SketchSem3D,并设计 CymbaDiff(Cylinder Mamba Diffusion)去噪网络,通过柱坐标扫描+笛卡尔扫描的双路 Mamba 块实现结构化空间建模,在 FID 上比 3D Latent Diffusion 低 75%、比 3D DiT 低 71%。

DBLoss: Decomposition-based Loss Function for Time Series Forecasting

提出 DBLoss——一种基于指数移动平均分解的通用损失函数,在预测窗口内将预测值与真实值分别分解为季节和趋势分量并分开计算损失,可即插即用替换 MSE 为任意深度学习预测模型带来一致性提升,在 8 个基准数据集 × 8 个 SOTA 模型上全面验证有效性。

查看全部47篇「自动驾驶」论文 →


🤖 机器人/具身智能 (75)

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

首次将数据归因(data attribution)引入在线强化学习,提出局部归因框架量化每条训练记录对策略更新的贡献,并基于此设计了迭代影响力过滤算法(IIF),在经典RL基准和LLM的RLHF上均显著提升了样本效率和最终性能。

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

提出 DP-AG(Action-Guided Diffusion Policy),通过将扩散策略的噪声预测的 Vector-Jacobian Product (VJP) 作为结构化随机力驱动隐观测特征在扩散步骤间动态演化,并用循环一致对比损失闭合感知-动作环路,在 Push-T 上提升 6%、Dynamic Push-T 上提升 13%、真实 UR5 机器人上成功率提升 23%+。

Adaptive Frontier Exploration on Graphs with Applications to Network-Based Disease Testing

提出 Adaptive Frontier Exploration on Graphs (AFEG) 问题框架,设计基于 Gittins index 的策略,在图是森林时可证明最优,在实际性传播疾病检测网络上仅测试一半人口即可检出几乎全部 HIV 感染者,大幅超越贪心和 DQN 等基线。

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

ALMI提出上下半身对抗训练框架:下半身策略在上半身动作干扰下学习鲁棒运动,上半身策略在下半身运动干扰下学习精确动作模仿,通过迭代对抗训练收敛到Nash均衡,实现Unitree H1-2真实机器人的稳定全身协调控制。

Asymptotically Stable Quaternionic Hopfield Structured Neural Network with Supervised Projection-based Manifold Learning

提出四元数值监督学习 Hopfield 结构神经网络 (QSHNN),通过周期性投影策略保持权重矩阵的四元数结构一致性,并基于 Lyapunov 理论证明了不动点的存在唯一性和渐近稳定性,轨迹曲率有界保证机器人路径规划的平滑性。

Automaton Constrained Q-Learning

提出 ACQL(Automaton Constrained Q-Learning),将线性时序逻辑(LTL)任务规范转化为自动机,结合目标条件学习和最小安全约束,首次在连续控制环境中可扩展地同时支持时序目标序列和非平稳安全约束。

AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling

AutoToM 实现完全自动化的基于模型的心智理论推理——无需人工指定 agent 模型,自动提出贝叶斯网络结构并执行贝叶斯逆规划,通过推理不确定性驱动的迭代模型调整(添加心智变量或扩展时间步),在5个ToM benchmark上以82.43%平均准确率超越GPT-4o(63.39%)、o3-mini(73.94%)等SOTA模型。

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

AutoVLA 将物理动作 token 直接集成到预训练 VLM(Qwen2.5-VL-3B)中,通过 SFT 赋予模型快/慢双思维模式能力,再用 GRPO 强化微调实现自适应推理切换并优化规划性能,在 nuPlan、Waymo、nuScenes 和 CARLA 四大自动驾驶基准上取得有竞争力的端到端驾驶性能。

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token,实现 20× token 压缩(100 步→5 token)、数学保证的动作块间 \(C^0\) 连续过渡,在 LIBERO-Long 上成功率排名第 1(86.4%),推理吞吐量 617 Hz(比 π₀ 快 2.14×、比 OpenVLA 快 101×)。

Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents

Meta 提出 WAGIBench,一个针对可穿戴辅助智能体的多模态目标推断基准,包含 348 名参与者的 3,477 条第一视角录制(29小时),涵盖视觉/音频/数字/纵向四种模态,人类准确率 93% vs 最佳 VLM 84%(MCQ),生成式评估中模型仅 55% 时间产生相关目标,揭示了当前 VLM 在实际可穿戴场景中的显著差距。

查看全部75篇「机器人/具身智能」论文 →


🎮 强化学习 (143)

A Differential and Pointwise Control Approach to Reinforcement Learning

将RL问题通过连续时间控制的微分对偶形式重新表述,利用哈密顿结构嵌入物理先验,提出dfPO算法实现逐点策略优化,在科学计算任务(曲面建模、网格控制、分子动力学)上以更少样本超越12个RL基线。

A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications

将传统只能在单个MDP内度量状态相似性的bisimulation metric (BSM)推广到跨MDP场景,提出广义双模拟度量(GBSM),严格证明了对称性、跨MDP三角不等式和同状态距离上界三个基本度量性质,并在策略迁移、状态聚合和基于采样的估计三个应用中推导出比标准BSM更紧的误差界和闭式样本复杂度。

A Near-optimal, Scalable and Parallelizable Framework for Stochastic Bandits Robust to Adversarial Corruptions and Beyond

提出 BARBAT 框架,改进了经典的 BARBAR 算法,通过固定 epoch 长度和逐 epoch 调整失败概率,将对抗腐蚀下随机多臂老虎机的 regret 从 \(O(\sqrt{K}C)\) 降至近最优的 \(O(C)\)(消除了 \(\sqrt{K}\) 因子),并成功扩展到多智能体、图老虎机、组合半老虎机和批量老虎机等多种场景。

A Theory of Multi-Agent Generative Flow Networks

提出多智能体生成流网络(MA-GFlowNets)的理论框架,证明了"局部-全局原理"——联合流函数可分解为各智能体独立流的乘积形式,设计了四种算法(CFN/IFN/JFN/CJFN),其中 JFN 和 CJFN 实现中心化训练+去中心化执行(CTDE),在 Hyper-Grid 和 StarCraft 环境中超越 RL 和 MCMC 方法。

A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning

首次引入矩阵分裂理论,将线性函数逼近下的TD、FQI和PFQI统一为求解同一目标线性系统 \((\Sigma_{cov} - \gamma\Sigma_{cr})\theta = \theta_{\phi,r}\) 的迭代方法(仅预条件子不同),给出各算法收敛的充要条件,提出rank invariance新概念,并揭示target network的本质是预条件子从常数到数据自适应的连续变换。

Actor-Free Continuous Control via Structurally Maximizable Q-Functions

提出 Q3C(Q-learning for Continuous Control with Control-points),通过学习一组控制点来逼近 Q 函数并保证最大值恰好在控制点上取到,配合动作条件化 Q 值生成、控制点多样性损失和尺度归一化等关键改进,在标准基准上匹配 TD3,在受限动作空间中显著超越所有 actor-critic 方法。

Adaptive Cooperative Transmission Design for URLLC via Deep RL

提出 DRL-CoLA 算法,用双 Agent DQN 分别在源节点和中继节点上自适应配置 5G NR 传输参数(numerology、mini-slot、MCS),在两跳中继系统中仅用本地 CSI 即可达到接近全局 CSI 最优的 URLLC 可靠性。

Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning

提出 ANQ(Adaptive Neighborhood-constrained Q learning),在离线 RL 中引入基于优势函数的自适应邻域约束,在密度约束(过于保守)和支持约束(需精确建模行为策略)之间找到灵活的中间方案,通过双层优化框架实现高效 Q 学习,在 D4RL 基准上达到 SOTA。

Adaptively Coordinating with Novel Partners via Learned Latent Strategies

提出 TALENTS 框架,通过 VAE 学习潜在策略空间 + K-Means 聚类发现策略类型 + Fixed-Share 遗憾最小化算法在线推断队友类型,实现对未知人类/智能体队友的零样本实时适应协作。

ALINE: Joint Amortization for Bayesian Inference and Active Data Acquisition

ALINE 提出统一的分摊贝叶斯推断和主动数据获取框架,用 Transformer 架构 + RL 训练,使模型能同时策略性地选择最有信息量的数据点并即时完成后验推断,还支持灵活地针对特定参数子集或预测目标进行数据获取。

查看全部143篇「强化学习」论文 →


🎁 推荐系统 (24)

ASAP: An Agentic Solution to Auto-Optimize Performance of Large-Scale LLM Training

ASAP 是一个多 Agent 系统(Coordinator + Analyzer + Proposal),自动化诊断大规模 LLM 分布式训练的瓶颈类型(计算/内存/通信)并提出 sharding 配置方案,在 3 个实验场景中均匹配人类专家方案,实现最高 2.58× 吞吐量提升。

Balancing Performance and Costs in Best Arm Identification

提出将最优臂识别(BAI)从固定预算/固定置信度框架重新定义为"误识别概率/简单遗憾 + 采样成本"的风险泛函最小化问题,推导出含相变现象的下界(差距过小时最优策略是直接猜),设计 DBCARE 算法在动态预算下达到对数因子内最优。

EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration

提出EMPATHIA多Agent框架,基于Kegan建构性发展理论,通过情感/文化/伦理三个专业化Agent的选择器-验证器协商评估难民安置建议,在6,359名难民的真实数据上达到87.4%收敛率和92.1%文化专家同意率。

Estimating Hitting Times Locally At Scale

提出两种局部(亚线性)算法估计图上的命中时间——基于相遇时间的 Algorithm 1 和基于谱截断的 Algorithm 3,无需全图访问仅通过以 \(u,v\) 为中心的短随机游走完成估计,在合成和真实图上相对误差 <1.4%,并证明了游走采样的最优样本复杂度下界。

FACE: A General Framework for Mapping Collaborative Filtering Embeddings into LLM Tokens

FACE 提出将协同过滤(CF)嵌入通过解纠缠投影 + 残差量化映射为 LLM 预训练 token(描述符),再用对比学习对齐语义,无需微调 LLM 即可实现 CF 嵌入的语义解读和推荐性能增强。

Inference-Time Reward Hacking in Large Language Models

本文从数学上证明了推理时对齐方法(如 BoN)在优化代理奖励时不可避免地会出现 reward hacking(真实奖励先升后降),提出了 Best-of-Poisson (BoP) 采样方法近似最优 KL-奖励折中分布,并设计了 HedgeTune 算法通过一维寻根找到最优推理时参数,在数学推理和人类偏好场景中有效缓解 reward hacking。

Measuring What Matters: Construct Validity in Large Language Model Benchmarks

本文由29位专家对445篇LLM benchmark论文进行系统性综述,从构念效度 (construct validity) 角度审视现有LLM评测基准在现象定义、任务设计、评分指标和结论声明方面的不足,并提出8条改进建议。

MMPB: It's Time for Multi-Modal Personalization

提出首个 VLM 个性化评测基准 MMPB,包含 111 个可个性化概念、10k+ 图文问答对和 15 种任务类型,评测了 23 个 VLM 后发现即使最强的 GPT-4o 在个性化任务上也表现不佳,揭示了 VLM 在偏好推理、视觉线索利用和安全对齐与个性化的冲突等方面的重大局限。

NeurIPS Should Lead Scientific Consensus on AI Policy

本文是一篇立场论文,主张 NeurIPS 应主动承担 AI 政策领域的科学共识形成角色,借鉴 IPCC(政府间气候变化专门委员会)在气候科学中的成功经验,填补当前 AI 政策领域共识机制的空白。

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

识别 Crosscoder 中 L1 损失引入的两类稀疏性伪影(Complete Shrinkage 将弱共享概念错误归零、Latent Decoupling 将共享概念拆分为虚假模型特定潜变量),提出 Latent Scaling 诊断方法和 BatchTopK Crosscoder 替代方案,显著提升 chat-tuning 概念发现的可靠性。

查看全部24篇「推荐系统」论文 →


🔄 自监督/表示学习 (34)

A Joint Learning Approach to Hardware Caching and Prefetching

提出将硬件缓存替换策略和预取策略进行联合训练的学习框架,通过共享编码器和对比学习两种方式构建共享特征表征,打破两个策略独立训练时的性能瓶颈。

Adv-SSL: Adversarial Self-Supervised Representation Learning with Theoretical Guarantees

提出 Adv-SSL,通过将协方差正则项的 Frobenius 范数重写为 minimax 对偶形式,消除了 Barlow Twins 等方法中样本级风险的有偏估计问题,在不增加额外计算成本的前提下显著提升下游分类性能,并给出端到端的理论收敛保证。

Angular Constraint Embedding via SpherePair Loss for Constrained Clustering

本文提出SpherePair损失函数,通过在角度空间(而非欧几里得空间)进行成对约束嵌入学习,实现了不依赖锚点(anchor)、不需要预知聚类数的深度约束聚类方法,并提供了严格的理论保证来确定最优超参数。

Asymptotic and Finite-Time Guarantees for Langevin-Based Temperature Annealing in InfoNCE

本文通过将嵌入演化建模为紧致黎曼流形上的 Langevin 动力学,证明了经典模拟退火的收敛保证可以扩展到对比学习的温度调度设定中:缓慢对数逆温度调度保证概率收敛到全局最优表示集合,而更快的调度则可能陷入次优极小值。

CleverBirds: A Multiple-Choice Benchmark for Fine-grained Human Knowledge Tracing

提出CleverBirds——迄今最大规模的视觉知识追踪基准,通过eBird公民科学平台收集了40000+参与者完成的1700万+多选鸟类物种识别问答(涵盖10000+物种),系统性评估了多种知识追踪与分类方法,揭示了细粒度视觉知识建模特别是预测学习者错误选择方面的核心挑战。

Connecting Jensen-Shannon and Kullback-Leibler Divergences: A New Bound for Representation Learning

推导了一般情况下KL散度关于JS散度的最优紧致下界\(\Xi(D_{\text{JS}}) \leq D_{\text{KL}}\),证明训练判别器最小化交叉熵损失等价于最大化互信息的一个保证下界,为JSD基于的判别式表示学习方法提供了缺失的理论基础,并在MI估计和Information Bottleneck框架中验证了紧致性与实用性。

Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery

提出 NC-GCD 框架,通过预分配固定的 Equiangular Tight Frame (ETF) 原型为已知类和新类建立统一优化目标,结合语义一致性匹配器 (SCM) 稳定跨迭代伪标签分配,在 6 个 GCD 基准上显著提升新类发现精度。

Continuous Subspace Optimization for Continual Learning (CoSO)

提出 CoSO 框架,通过从每步梯度的 SVD 动态导出连续子空间(而非 LoRA 的固定子空间),结合历史任务正交投影防止干扰和 Frequent Directions 高效聚合梯度信息,在 ImageNet-R 20 任务上以 78.19% 最终准确率超越最佳 baseline 2.77 个百分点。

Contrastive Representations for Temporal Reasoning

提出 CRTR(Contrastive Representations for Temporal Reasoning),通过在训练批次中重复同一轨迹来引入轨迹内负样本对,消除标准时间对比学习对静态上下文特征的依赖,学习到反映时间结构的表征,在魔方等组合推理任务上首次实现无搜索求解。

Curiosity-driven RL for Symbolic Equation Solving

将好奇心驱动探索(RND、ICM 等)与基于表达式树的图动作空间结合,使 PPO 智能体能够求解包含根号、指数和三角函数的非线性方程,超越了此前仅限于线性方程的 RL 方法。

查看全部34篇「自监督/表示学习」论文 →


📐 优化/理论 (126)

A Single-Loop First-Order Algorithm for Linearly Constrained Bilevel Optimization

针对下层问题带耦合线性约束的双层优化问题,提出单循环一阶算法 SFLCB,通过罚函数 + 增广拉格朗日重构消除 Hessian 依赖,将迭代复杂度从 \(O(\epsilon^{-3}\log(\epsilon^{-1}))\) 改进至 \(O(\epsilon^{-3})\)

A Unified Approach to Submodular Maximization Under Noise

本文提出一个统一的元算法框架,能将任何满足"鲁棒性"条件的精确子模最大化算法作为黑盒,自动转换为持久噪声值预言机下保持近似比(仅损失 \(o(1)\))的算法,首次实现了非单调子模函数在拟阵约束和无约束设置下的最优近似比。

A Unified Stability Analysis of SAM vs SGD: Role of Data Coherence and Emergence of Simplicity Bias

通过线性稳定性分析框架,证明了"平坦极小值⇒好泛化"和"SGD偏好简单函数"是同一枚硬币的两面——数据一致性(coherence)同时控制着两者,且SAM通过更严格的稳定性条件进一步放大了简单性偏好。

Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency

揭示了时间序列预测中"适当截断历史数据反而提升精度"的反直觉现象(冗余特征学习问题),基于信息瓶颈理论提出AMRC方法,通过自适应掩码损失和表征一致性约束来抑制冗余特征学习,作为模型无关的训练框架在多种架构上显著提升性能。

Adaptive Algorithms with Sharp Convergence Rates for Stochastic Hierarchical Optimization

提出Ada-Minimax和Ada-BiO两个自适应算法,通过将动量归一化技术与新型在线噪声估计策略结合,首次在无需预知梯度噪声水平的情况下,为非凸-强凹极小极大和非凸-强凸双层优化达到sharp收敛率Õ(1/√T + √σ̄/T^{1/4})。

An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds

AdaRHD 是首个无需预知问题参数(强凸常数、Lipschitz 界、流形曲率)的黎曼双层优化自适应算法——通过逆累计梯度范数策略自适应选择步长,在三阶段框架中逐步求解下层问题/线性系统/上层更新,收敛速率 \(O(1/\epsilon)\) 匹配非自适应方法,对初始步长选择鲁棒性远超 RHGD。

Auto-Compressing Networks

Auto-Compressing Networks(ACN)用长程前向连接(所有层输出直接汇聚到最终输出)替代短残差连接,使得梯度的 Direct Gradient 成分远强于 Forward Gradient,隐式地将信息压缩到早期层——ViT 仅需 6 层达到标准 12 层性能,BERT 节省 75% 层数,还额外获得噪声鲁棒性(+6.4%)和持续学习抗遗忘(-18%)。

Automated Algorithm Design via Nevanlinna-Pick Interpolation

提出基于频域鲁棒控制理论中 Nevanlinna-Pick 插值的自动化算法设计框架,用于求解带等式约束的强凸优化问题,获得了矩阵乘法次数与收敛速率之间的最优权衡。

AutoOpt: A Dataset and a Unified Framework for Automating Optimization Problem Solving

AutoOpt 构建了首个优化问题图像到代码的端到端框架——11554 张优化公式图像(手写+印刷)的 AutoOpt-11k 数据集 + M1 混合编码器(ResNet+Swin→mBART)图像转 LaTeX(BLEU 96.70)+ M2 DeepSeek-Coder LaTeX 转 PYOMO + M3 双层分解求解器,框架级成功率 94.20%。

Better NTK Conditioning: A Free Lunch from ReLU Nonlinear Activation in Wide Neural Networks

证明 ReLU 激活函数对宽神经网络有一个此前未被注意的"免费"益处:(a) 在模型梯度特征空间中产生更好的数据分离(相似输入的角度在梯度空间中被放大),(b) 由此导致 NTK 矩阵条件数严格减小(相比线性网络)。深度进一步放大此效应——在无限宽然后无限深的极限下,所有数据对在梯度空间中等角分离(~75.5°),NTK 条件数收敛到仅依赖数据量 \(n\) 的固定值 \((n+4)/3\)

查看全部126篇「优化/理论」论文 →


📐 学习理论 (25)

A High-Dimensional Statistical Method for Optimizing Transfer Quantities in Multi-Source Transfer Learning

提出基于K-L散度和高维统计分析的理论框架,用于确定多源迁移学习中每个源任务的最优样本迁移数量,避免"用所有源数据"带来的负迁移问题,在DomainNet和Office-Home上超过SOTA 1.0-1.5%的同时减少47.85%的样本使用量和35.19%的训练时间。

Adaptive Data Analysis for Growing Data

本文首次给出了动态增长数据上自适应分析的泛化界,允许分析者根据数据规模自适应调度查询,并通过时变经验精度界和差分隐私机制实现随数据积累越来越紧的泛化保证。

Computable Universal Online Learning

在 universal online learning 框架中引入可计算性约束,证明了"数学上可学习"不等于"可用计算机程序实现的可学习",并给出了 agnostic 和 proper 变体下可计算学习的精确刻画。

Conformal Online Learning of Deep Koopman Linear Embeddings

提出 COLoKe 框架,将 conformal prediction 重新解读为模型一致性诊断工具,仅在 Koopman 模型的预测误差超过动态校准阈值时才触发参数更新,从而实现对非线性动力系统的高效在线 Koopman 线性嵌入学习。

Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantification

本文从统计学习角度分析了条件扩散Transformer(DiT)在时间序列插补任务中的样本复杂度和不确定性量化性能,并提出混合掩码训练策略提升插补效果。

Efficient Kernelized Learning in Polyhedral Games Beyond Full-Information: From Colonel Blotto to Congestion Games

提出基于核化(kernelization)的框架,在部分信息反馈设定下为多面体博弈(Colonel Blotto、图拟阵拥堵博弈、网络拥堵博弈)设计了计算高效的无遗憾学习算法,显著改进了学习粗关联均衡(CCE)的运行时复杂度。

Finite-Time Analysis of Stochastic Nonconvex Nonsmooth Optimization on the Riemannian Manifolds

提出 Riemannian Online to NonConvex (RO2NC) 算法及其零阶版本 ZO-RO2NC,首次为黎曼流形上完全非光滑非凸随机优化建立了 \(O(\delta^{-1}\epsilon^{-3})\) 的有限时间样本复杂度保证,匹配欧几里德最优结果。

How Many Domains Suffice for Domain Generalization? A Tight Characterization via the Domain Shattering Dimension

提出"领域碎裂维度"(Domain Shattering Dimension)这一新组合度量,紧致刻画了领域泛化所需的领域数量(领域样本复杂度),并证明其与经典VC维的关系为 \(\Theta(d \log(1/\alpha))\)

Improved Approximation Algorithms for Chromatic and Pseudometric-Weighted Correlation Clustering

针对 Correlation Clustering 的两个重要推广——Chromatic CC 和 pseudometric-weighted CC,基于 LP relaxation 与精心设计的 rounding function,分别取得 2.15-approximation 和 tight 10/3-approximation,显著改进了先前最佳结果(2.5 和 6)。

Infrequent Exploration in Linear Bandits

提出 INFEX 框架,按给定调度表在探索步执行基线算法(如 LinUCB/LinTS)、其余时刻贪心选臂,证明只要探索次数超过 \(\omega(\log T)\) 即可达到与全时刻探索相同的多项对数 regret,同时大幅降低计算开销(80%-99% 时间步为贪心)。

查看全部25篇「学习理论」论文 →


🔗 因果推理 (20)

A Principle of Targeted Intervention for Multi-Agent Reinforcement Learning

提出基于多智能体影响图(MAIDs)的目标干预范式(Targeted Intervention),通过仅对单个目标智能体施加预策略干预(Pre-Strategy Intervention, PSI),引导整个多智能体系统收敛到满足额外期望结果的优选Nash均衡,无需对所有智能体进行全局干预。

An Analysis of Causal Effect Estimation Using Outcome Invariant Data Augmentation

首次系统分析"结果不变数据增强"(outcome invariant DA)在因果效应估计中的作用,证明当 DA 操作保持结果变量的不变性时等价于对处理变量的软干预,可减少混杂偏差;进一步提出 IV-like(IVL)回归框架,将 DA 参数用作"类工具变量",通过对抗性 DA 组合进一步降低偏差。

Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization

提出 Bi-DFCL,通过双层优化框架联合利用观测数据和 RCT 实验数据来训练营销资源分配模型:上层用 RCT 数据的无偏决策损失端到端训练 Bridge Network 来动态纠正下层在观测数据上的偏差,同时设计了基于原始问题的可微代理决策损失(PPL/PIFD)和隐式微分算法,解决了传统两阶段方法的预测-决策不一致和偏差-方差困境。已在美团大规模在线部署。

Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features

CAPE 通过从表格数据中学习特征间的因果DAG结构,将其嵌入双曲空间生成因果感知的旋转位置编码(RoPE),使 Transformer 能处理非序列但因果相关的特征数据,在多组学数据的下游任务上显著提升性能。

Characterization and Learning of Causal Graphs from Hard Interventions

首次系统分析硬干预(hard interventions)在含隐变量因果发现中的理论优势,提出广义do-演算(4条规则)和孪生增强MAG图表示,给出 \(\mathcal{I}\)-Markov 等价类的充要图条件,并设计可证明正确的FCI变体学习算法;实验表明硬干预比软干预将等价类缩小37-57%。

Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models

提出COUPLE框架,通过构建结构因果模型(SCM)建模多维价值观的依赖关系与优先级,并利用反事实推理实现LLM对任意细粒度多元价值目标的可控对齐。

Cyclic Counterfactuals under Shift–Scale Interventions

本文在循环(非DAG)结构因果模型中建立了shift-scale软干预下反事实推理的理论框架,证明了全局收缩条件保证循环SCM的唯一可解性,并推导出反事实分布的sub-Gaussian集中不等式。

Demystifying Spectral Feature Learning for Instrumental Variable Regression

为基于谱特征的非参数工具变量(NPIV)回归建立严格的泛化误差界,揭示性能由结构函数与条件期望算子的谱对齐(近似误差)和奇异值衰减速度(估计误差)两因素共同决定,提出 Good-Bad-Ugly 三分类法并设计数据驱动诊断工具。

Differentiable Structure Learning and Causal Discovery for General Binary Data

提出基于多元伯努利分布(MVB)的通用可微结构学习框架,不假设特定数据生成过程,能捕获二值离散变量间的任意高阶依赖关系,并证明在一般设定下DAG不可识别但可恢复最小等价类(Markov等价类)。

Do-PFN: In-Context Learning for Causal Effect Estimation

提出 Do-PFN,将 Prior-data Fitted Networks (PFN) 扩展到因果效应估计,在大量合成 SCM 数据上预训练 Transformer 进行 in-context 因果推理,仅需观测数据即可预测干预分布(CID)和 CATE,无需因果图知识或不混杂假设,在合成和半合成实验中表现出色。

查看全部20篇「因果推理」论文 →


🔬 可解释性 (80)

A Controllable Examination for Long-Context Language Models

提出LongBioBench,通过生成虚构传记作为可控的needle和haystack,构建满足"无缝上下文、可控设置、可靠评估"三大原则的长上下文LLM评估框架,测试18个模型后揭示当前LCLM在检索能力尚可的情况下推理和可信性仍有显著短板。

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

发现并系统研究了 SAE 中的"特征吸收"现象:看似单义的 SAE latent 会在特定 token 上不激活,其特征方向被更具体的子 latent "吸收",这是层级特征+稀疏性损失的必然结果,对 SAE 用于可靠解释 LLM 构成根本挑战。

AdaptGrad: Adaptive Sampling to Reduce Noise

AdaptGrad通过分析SmoothGrad噪声的理论来源——超范围采样行为,提出自适应调整每个输入维度的高斯采样方差以控制额外噪声上限的方法,在几乎消除梯度噪声的同时揭示更丰富的细节特征,方法极简且可与任意梯度解释方法组合。

Additive Models Explained: A Computational Complexity Approach

对广义可加模型(GAM)的多种解释类型进行系统的计算复杂度分析,覆盖 54 种"组件模型 × 输入域 × 解释方法"组合,揭示 GAM 的解释复杂度高度依赖输入域类型——这是决策树、神经网络等其他 ML 模型从未展现的独特现象,挑战了"可加即可解释"的直觉假设。

AgentiQL: An Agent-Inspired Multi-Expert Framework for Text-to-SQL Generation

提出 AgentiQL,一个多专家 agent 框架用于 Text-to-SQL:reasoning agent 分解问题为子问题,coding agent 生成子查询,refinement 步骤校正列选择,adaptive router 在基线解析器和模块化 pipeline 之间智能路由,使用 14B 开源模型达到 86.07% EX(Spider),接近 GPT-4 SOTA(89.65%)。

An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating the Impact of Noisy Annotations

本文首次系统研究了标注噪声对概念瓶颈模型(CBM)的影响,发现约23%的"易感概念"驱动了大部分性能退化,并提出训练阶段使用SAM + 推理阶段基于不确定性干预的两阶段缓解策略来恢复模型鲁棒性。

Are Greedy Task Orderings Better Than Random in Continual Linear Regression?

本文系统分析了持续线性回归中贪心任务排序(最大化连续任务间不相似度)与随机排序的收敛性差异,揭示了贪心排序在高秩设定下可媲美随机排序,但在一般秩设定下单遍贪心可能灾难性失败,而允许重复的贪心排序收敛速率为 \(\mathcal{O}(1/\sqrt[3]{k})\)

ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation

ARECHO 将语音多指标评估建模为链式自回归 token 预测任务——设计统一的语音信息 token 化管线处理 87 个异质指标(数值/类别/有界/无界),通过动态分类链显式捕捉指标间依赖关系(如可懂度-自然度相关性),配合两步置信度导向解码减少误差传播,在增强/生成/噪声三类语音评估中全面超越 UniVERSA 基线(Avg Test MSE 23.26 vs 96.99,-76%)。

ARC-JSD: Attributing Response to Context via Jensen-Shannon Divergence Driven Mechanistic Study

ARC-JSD 提出基于 Jensen-Shannon 散度的 RAG 上下文归因方法——通过比较有/无特定上下文句子时模型输出分布的 JSD 差异,无需微调/梯度计算即可定位回答所依赖的上下文,计算效率比 baseline 快 3 倍,Top-1 归因准确率平均提升 10.7%,并通过 Logit Lens 揭示归因相关的注意力头集中在高层。

Base Models Know How to Reason, Thinking Models Learn When

通过无监督 SAE 聚类发现 thinking model 的推理机制分类,然后用 steering vector 在基座模型上激活这些潜在推理能力,混合模型恢复高达 91% 的 thinking-base 性能差距(无需权重更新),证明基座模型已具备推理能力,thinking model 只是学会了"何时"部署它们。

查看全部80篇「可解释性」论文 →


📦 模型压缩 (143)

4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

提出层级化的4D高斯压缩框架4DGCPro,通过感知加权的层级高斯表示、运动感知自适应分组和端到端熵优化训练,在单一模型内实现多码率渐进式体积视频流媒体,可在移动设备上实时解码和渲染,RD性能超越现有SOTA。

A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings

提出 A-Thought——基于 A 搜索算法的 CoT 压缩框架,通过双向重要性评分(BIS)衡量每个推理步骤对问题和答案的相关性,结合路径级 A* 搜索在指数级搜索空间中高效找到最紧凑的推理路径,在 512 token 预算下将 QwQ-32B 准确率提升 2.39 倍,在 4096 token 预算下减少约 50% 输出 token 且几乎不损失准确率。

A Granular Study of Safety Pretraining under Model Abliteration

本文系统地研究了 model abliteration(一种推理时激活空间编辑攻击)对不同数据驱动安全预训练阶段的影响,发现仅依赖 refusal 训练的安全机制极易被攻破,而 组合多种安全信号(safe-only 过滤 + 改写 + metatag + refusal)可使安全行为分散到更广泛的表征空间、从而更难被单一方向投影移除。

A Partition Cover Approach for Tokenization

将分词(tokenization)问题重新建模为分区覆盖(partition cover)优化问题,证明其为NP-hard,并提出多项式时间的贪心算法GreedTok,在压缩率和1B参数LLM预训练下游任务上均优于BPE。

A Simple Linear Patch Revives Layer-Pruned Large Language Models

LinearPatch 通过在层剪枝界面插入一个融合了 Hadamard 变换和通道缩放的轻量对称矩阵,修复了剪枝造成的激活幅度失配问题,在 LLaMA-3-8B 上无训练保留 94.15% 性能,30 分钟蒸馏后达 95.16%。

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

提出 Low-Rank Clone (LRC),通过可学习低秩投影矩阵将 teacher 权重压缩为 student 权重(软剪枝),同时对齐 attention 和 FFN 的中间激活(激活克隆),仅用 20B tokens 训练的 1.7B 模型即超过用 36T tokens 训练的 Qwen3-1.7B(64.98 vs 63.17),实现 1000 倍训练效率提升

Accurate and Efficient Low-Rank Model Merging in Core Space

提出 Core Space Merging 框架——通过在低秩 LoRA 矩阵的公共参考基空间中进行模型合并,无信息损失地将合并操作从 \(m \times n\) 全尺寸空间压缩到 \(Tr \times Tr\) 紧凑空间(\(T\) 为任务数,\(r\) 为 LoRA 秩),在 Llama 3 8B 上达到 SOTA 合并精度同时计算成本降低数个数量级。

Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

发现现有 KV cache 驱逐方法对所有注意力头均匀分配预算忽略了头间注意力集中度的巨大差异,提出 Ada-KV——首个 head-wise 自适应预算分配策略,将稀疏头的预算重新分配给分散头,理论证明最小化驱逐损失上界,在 29 个数据集上即插即用地提升现有方法。

Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees

提出R-AutoEval+框架,通过在testing-by-betting框架中引入自适应权重机制动态调节对LLM评判器合成数据的依赖程度,首次在有限样本下同时保证评估可靠性和采样效率不低于仅用真实数据的方法,在LLM量化、prompt选择和推理预算分配三个场景中验证了理论优势。

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

提出 AdmTree——一种自适应层次化上下文压缩框架,通过信息密度驱动的动态分段构建叶 gist token,再用二叉语义树底向上聚合实现多粒度语义保留,解决了显式方法丢失局部细节和隐式方法位置偏差的双重问题,在 LongBench 上比 SOTA 基线 Activation Beacon 高 10%+。

查看全部143篇「模型压缩」论文 →


🕸️ 图学习 (54)

Agint: Agentic Graph Compilation for Software Engineering Agents

提出 Agint 图编译器,将自然语言意图通过六层类型地板(TEXT→TYPED→SPEC→STUB→SHIM→PURE)渐进编译为类型化DAG,配合混合JIT运行时和Unix风格工具链,使AI代码生成从脆弱的单次文本预测变为结构化、可并行、可复现的编译过程。

BLISS: Bandit Layer Importance Sampling Strategy for Efficient Training of Graph Neural Networks

提出 BLISS,将 GNN 的层级邻居采样建模为多臂老虎机问题,用 EXP3 算法动态调整每条边的采样概率,根据邻居对节点表示的方差贡献作为奖励信号,在 GCN 和 GAT 上维持或超越全批次训练精度。

Bridging Graph and State-Space Modeling for Intensive Care Unit Length of Stay Prediction

提出 S2G-Net,将 Mamba 状态空间模型的时序编码与多视图图神经网络(GraphGPS)进行双路融合,用于 ICU 住院时长(LOS)预测,在 MIMIC-IV 数据集上全面超越序列模型、图模型和混合基线。

Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

提出 DP(Deliberation on Priors)框架,通过渐进式知识蒸馏利用知识图谱的结构先验生成忠实的关系路径,并通过推理内省策略基于约束先验验证推理可靠性,在 KGQA 基准上达到新 SOTA。

Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking

系统审计16个KGQA数据集发现平均事实正确率仅57%(WebQSP 52%,MetaQA 20%),提出KGQAGen框架——通过LLM引导的子图扩展+SPARQL自动验证构建高质量多跳QA数据集KGQAGen-10k(96.3%准确率),揭示KG-RAG的主要瓶颈在检索而非推理。

DuetGraph: Coarse-to-Fine Knowledge Graph Reasoning with Dual-Pathway Global-Local Fusion

DuetGraph 提出双通路(消息传递 + 全局注意力)并行融合模型与粗到精推理优化策略,通过分离而非堆叠局部/全局信息处理来缓解 KG 推理中的分数过平滑问题,在归纳与传导推理任务上取得 SOTA,MRR 最高提升 8.7%、训练加速 1.8×。

Dynamic Bundling with Large Language Models for Zero-Shot Inference on Text-Attributed Graphs

DENSE 提出"文本捆绑"策略,将拓扑/语义相近的节点文本打包后查询 LLM 获取 bundle 级别标签,再用 entropy-based 和 ranking-based 损失监督 GNN 训练,并动态精炼 bundle 排除噪声节点,在 10 个 TAG 数据集上零样本推理全面超越 GPT-4o 和图基础模型。

Elastic Weight Consolidation for Knowledge Graph Continual Learning: An Empirical Evaluation

本文在 FB15k-237 上系统评估了弹性权重固化(EWC)对 TransE 知识图谱嵌入持续学习的效果,发现 EWC 将灾难性遗忘从 12.62% 降至 6.85%(减少 45.7%),并揭示了任务划分策略(基于关系 vs 随机)对遗忘度量的显著影响(9.8 个百分点差异)。

FALCON: An ML Framework for Fully Automated Layout-Constrained Analog Circuit Design

FALCON 提出端到端的模拟/RF 电路自动化设计框架,通过 MLP 拓扑选择 + 边中心 GNN 性能预测 + 可微版图约束梯度推理三阶段流水线,在 100 万级 Cadence 仿真数据集上实现 >99% 拓扑选择准确率、<10% 性能预测误差,单实例推理不到 1 秒。

FastJAM: a Fast Joint Alignment Model for Images

提出 FastJAM,一种基于图的快速图像联合对齐方法:利用现成图像匹配器计算成对关键点对应,通过快速非参数聚类构建关键点图,GNN 传播聚合信息后预测每张图像的单应性参数,配合反向合成损失(inverse-compositional loss)消除正则化超参数需求。将联合对齐时间从小时/分钟级降至约 49 秒,同时对齐质量优于或持平现有方法。

查看全部54篇「图学习」论文 →


📈 时间序列 (54)

A Graph Neural Network Approach for Localized and High-Resolution Temperature Forecasting

提出一种 GCN-GRU 混合框架用于社区尺度(2.5km)高分辨率温度预报(1-48小时),在加拿大西南安大略三个区域上验证,最大区域平均 MAE 1.93°C、48h MAE 2.93°C,探索了 ClimateBERT 语言模型嵌入作为标准化输入的方案,为数据稀缺的全球南方地区提供可迁移的轻量级预报框架。

AERO: A Redirection-Based Optimization Framework Inspired by Judo for Robust Probabilistic Forecasting

AERO提出受柔道"借力重定向"启发的优化范式,尝试将对抗扰动重定向为有利的优化信号而非直接抵抗,理论上通过15条公理和4个定理构建了基于能量守恒的梯度重定向系统,但实际实现大幅简化为带高斯噪声注入的动量SGD,仅在一个私有太阳能价格预测数据集上进行了无基线对比的验证。

AttentionPredictor: Temporal Patterns Matter for KV Cache Compression

AttentionPredictor是首个学习型方法直接预测注意力模式以实现KV缓存压缩和关键token识别,通过轻量CNN捕捉注意力分数的时空模式,实现13倍KV缓存压缩和5.6倍推理加速,统一预测模型仅21KB可跨所有Transformer层共享。

BubbleFormer: Forecasting Boiling with Transformers

提出 BubbleFormer,基于分解时空轴注意力的 Transformer 架构用于预测沸腾动力学——包括难以预测的自主气泡成核事件,配合 BubbleML 2.0 数据集(160+ 高保真仿真),在多种流体、几何和壁面条件下实现准确的沸腾时空过程预测。

Causal Masking on Spatial Data: An Information-Theoretic Case for Learning Spatial Datasets with Unimodal Language Models

证明在空间数据(国际象棋棋盘FEN状态)上直接应用因果掩蔽训练单模态LLM,其表现优于先将数据线性化为序列(PGN棋步)后再应用因果掩蔽——FEN+因果掩蔽的Llama 1.3B达到~2630 Elo,而PGN+因果仅~2130 Elo。

CausalDynamics: A Large-Scale Benchmark for Structural Discovery of Dynamical Causal Models

提出 CausalDynamics——迄今最大规模的动力系统因果发现 benchmark(14000+ 图、5000 万+ 样本),涵盖从 3 维混沌 ODE/SDE 到层级耦合系统再到拟真气候模型的三层渐进复杂度体系,并全面评估了 10 种 SOTA 因果发现算法,揭示当前深度学习方法在高维非线性动力系统上的不足。

Channel Matters: Estimating Channel Influence for Multivariate Time Series

提出 Channel-wise Influence (ChInf)——首个能量化多变量时间序列中不同通道对模型性能影响的影响函数方法,将 TracIn 从整体样本级分解到通道级,衍生出通道级异常检测和通道剪枝两个应用,在 5 个异常检测基准上排名第一。

Decomposition of Small Transformer Models

将 Stochastic Parameter Decomposition (SPD) 扩展到 Transformer,设计适用于序列数据的因果重要性函数和新损失函数,在玩具 induction head 上恢复期望两步电路,在 GPT-2-small 上定位到"高尔夫""篮球"等可解释概念对应的 rank-1 参数子空间。

DemandCast: Global hourly electricity demand forecasting

构建 DemandCast 开源机器学习框架,基于 XGBoost 融合历史电力需求、ERA5 温度和社会经济特征进行全球 56 个国家/地区的小时级电力需求预测,通过归一化目标变量(年度分数)实现跨国家可比,在时间外推测试集上达到 MAPE 9.2%。

Diffusion Transformers as Open-World Spatiotemporal Foundation Models

提出 UrbanDiT,首个基于 Diffusion Transformer 的开放世界城市时空基础模型,通过统一的 prompt learning 框架整合异构数据类型(grid/graph)和多种任务(预测/插值/外推/填补),在多城市多场景下实现 SOTA 性能并展现强大的 zero-shot 泛化能力。

查看全部54篇「时间序列」论文 →


🏥 医学图像 (77)

3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks

提出 3D-RAD——首个大规模3D医学VQA基准,包含170K条CT影像问答数据,覆盖六类临床任务(含创新性的多时相诊断任务),并配套136K训练集,揭示了现有VLM在3D时序推理上的严重不足。

A Novel Approach to Classification of ECG Arrhythmia Types with Latent ODEs

将路径最小化 Latent ODE 的编码器与梯度提升决策树(GBDT)组合为两阶段 ECG 心律失常分类流水线,在 MIT-BIH 数据集上的 macro AUC-ROC 从 360Hz 的 0.984 仅降至 45Hz 的 0.976,展示了对采样频率变化的强鲁棒性。

A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking

提出首个统一视频融合框架 UniVF(基于多帧学习 + 光流特征 warping + 时序一致性损失),并构建首个覆盖四大融合任务(多曝光、多焦点、红外-可见光、医学)的视频融合基准 VF-Bench,在全部子任务上取得 SOTA。

Active Target Discovery under Uninformative Prior: The Power of Permanent and Transient Memory

提出 EM-PTDM 框架,受神经科学双记忆系统启发,利用预训练扩散模型作为"永久记忆"并结合基于 Doob's h-transform 的轻量"瞬时记忆"模块,在无领域先验数据的条件下实现高效的主动目标发现,理论保证先验单调改进。

Are Pixel-Wise Metrics Reliable for Sparse-View Computed Tomography Reconstruction?

揭示 PSNR/SSIM 等像素级指标无法反映稀疏视图 CT 重建中解剖结构完整性(相关性仅 0.16-0.30),提出基于自动分割的解剖感知指标(NSD/clDice)和 CARE 框架——在扩散模型训练中加入分割引导损失,大器官结构完整性提升 32%、血管提升 36%。

Brain Harmony: A Multimodal Foundation Model Unifying Morphology and Function into 1D Tokens

首个统一脑结构形态(T1 sMRI)与功能动态(fMRI)的多模态脑基础模型,通过几何谐波预对齐和时序自适应 Patch Embedding(TAPE)将高维神经影像压缩为紧凑的 1D token 表示,在神经发育/退行性疾病诊断和认知预测任务上全面超越先前方法。

BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals

提出 BrainOmni——首个统一 EEG 和 MEG 的脑信号基础模型,通过 BrainTokenizer(含物理传感器编码器)将异构脑电/脑磁信号离散化为统一 token,再用 Criss-Cross Transformer 进行自监督掩码预测预训练,在阿尔茨海默病检测上提升 11.7 个百分点,并实现对完全未见设备的零样本重建泛化。

Care-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

发布 Care-PD——目前最大的面向帕金森病步态分析的多站点匿名 3D 网格数据集(9 个队列、8 个临床中心、362 名受试者、8477 段步行),并在 UPDRS 步态评分和运动预训练任务上提供系统性 benchmark,证明在 Care-PD 上微调可将 MPJPE 从 60.8mm 降至 7.5mm,F1 提升 17 个百分点。

Convolutional Monge Mapping between EEG Datasets to Support Independent Component Labeling

本文扩展 CMMN(Convolutional Monge Mapping Normalization)方法,提出通道平均 PSD + \(\ell_1\) 归一化质心和 subject-to-subject 匹配两种策略,生成单一时域滤波器实现不同通道数的 EEG 数据集间域适应,在独立成分(IC)脑/非脑分类中 F1 从 0.77 提升至 0.84,超越 ICLabel(0.88→0.91)。

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

提出 CheXStruct + CXReasonBench,一个基于胸部X光的结构化诊断推理评估框架,通过多路径、多阶段评估揭示现有 LVLM 在中间推理步骤上的严重不足。

查看全部77篇「医学图像」论文 →


🩺 医疗 LLM (17)

AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift

这篇立场论文受生物感觉系统的启发,主张AI研究必须从单纯的"扩模型"范式转向"优化输入"——通过在传感器层面动态调整参数(曝光、增益、多模态配置等),使小模型(5M参数的EfficientNet-B0)在理想传感器适应下超越大模型(632M参数的OpenCLIP-H),并提出了从单次感知到闭环感知-运动耦合的渐进式形式化框架。

CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research

提出 CGBench,一个基于 ClinGen 专家标注的临床遗传学 benchmark,从变异和基因策展角度评估 LLM 的科学文献推理能力,涵盖证据评分、证据验证和实验证据提取三个任务,发现推理模型在细粒度任务上表现最佳但在高层判断上不如非推理模型。

CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning

CureAgent 提出 Executor-Analyst 协作框架,将精确工具调用(TxAgent/Llama-8B 做 Executor)与高层临床推理(Gemini 2.5 做 Analyst)解耦,配合分层集成(Stratified Ensemble)的 Late Fusion 拓扑保留证据多样性,在 CURE-Bench 上达到 83.8% 准确率(无需端到端微调),揭示了上下文-性能悖论和动作空间维度灾难两个关键 scaling 发现。

Demo: Guide-RAG: Evidence-Driven Corpus Curation for Retrieval-Augmented Generation in Long COVID

系统评估了六种 RAG 语料库配置用于长新冠(Long COVID)临床问答,发现将临床指南与高质量系统综述结合的 GS-4 配置在 faithfulness、relevance 和 comprehensiveness 三维度上一致优于单指南和大规模文献库方案,并提出 Guide-RAG 框架和 LongCOVID-CQ 评估数据集。

Document Summarization with Conformal Importance Guarantees

首次将Conformal Prediction应用于文档摘要,通过校准句子重要性分数的阈值,为抽取式摘要提供用户可控的覆盖率(\(1-\alpha\))和召回率(\(\beta\))的严格统计保证,方法模型无关且仅需小规模校准集。

Faithful Summarization of Consumer Health Queries: A Cross-Lingual Framework with LLMs

提出结合 TextRank 抽取式句子选择和医学命名实体识别 (NER) 来引导 LLM 生成忠实医学摘要的框架,在英文 MeQSum 和孟加拉语 BanglaCHQ-Summ 数据集上通过微调 LLaMA-2-7B 实现质量和忠实性的一致提升,SummaC 达 0.57,人工评估 82% 摘要保留关键医学信息。

H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis

H-DDx 提出基于 ICD-10 分类层级的鉴别诊断评估框架——将预测和真实诊断扩展到祖先节点后计算层级 F1(HDF1),奖励"临床相关的近似正确"而非仅精确匹配,评估 22 个 LLM 后发现领域特化模型(MediPhi)在 HDF1 上从第 20 名升至第 2 名(Top-5 指标完全遮蔽其优势)。

HealthSLM-Bench: Benchmarking Small Language Models for Mobile and Wearable Healthcare Monitoring

首个系统评估小语言模型 (SLMs, 1-4B参数) 在移动与可穿戴健康监测任务上表现的基准,覆盖zero-shot/few-shot/指令微调三种范式,并在iPhone上验证了端侧部署的可行性。

Large Language Models as Medical Codes Selectors: A Benchmark Using the International Classification of Primary Care

构建了一个 extract-retrieve-select 框架的医学编码基准,在 33 个 LLM 上评估 ICPC-2 编码选择能力,发现 28 个模型 F1>0.8,证明 LLM 无需微调即可有效自动化初级保健编码。

LLM-Assisted Emergency Triage Benchmark: Bridging Hospital-Rich and MCI-Like Field Simulation

基于MIMIC-IV-ED构建了一个开放的、LLM辅助策划的急诊分诊基准数据集,定义了医院丰富资源和大规模伤亡事件(MCI)模拟两种场景,提供基线模型和SHAP可解释性分析,推动分诊预测研究的可复现性和普及化。

查看全部17篇「医疗 LLM」论文 →


🧬 计算生物 (76)

A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification

提出 ESCAPE——首个标准化的多标签抗菌肽分类基准,整合 27 个公开数据库共 80,000+ 肽段,并设计基于双分支 Transformer + 双向交叉注意力的 Baseline 模型,在 mAP 上相对第二名提升 2.56%。

A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random

在高斯混合模型的聚类框架中,统一解决变量选择(区分信号变量、冗余变量和噪声变量)与MNAR缺失数据建模,通过两阶段策略(LASSO惩罚排序加BIC角色分配)和谱距离自适应惩罚权重实现高维场景下的高效推理,并证明了可辨识性和渐近选择一致性。

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

针对现实药物发现中蛋白质 holo 结构不可用的问题,提出 AANet——通过三模态对比学习(配体-holo pocket-检测cavity)对齐表征并用交叉注意力聚合多个候选结合位点,在 apo/predicted 蛋白质结构上的盲筛性能远超 SOTA(DUD-E 上 EF1% 从 11.75 提升至 37.19)。

Amortized Active Generation of Pareto Sets

提出 A-GPS 框架,通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器(CPE)作为 PHVI 的隐式估计替代显式超体积计算,并通过偏好方向向量实现摊还式后验偏好条件化(无需重新训练),在合成基准和蛋白质设计任务上展示了优越的样本效率。

Amortized Sampling with Transferable Normalizing Flows

提出 Prose——一个 285M 参数的全原子可迁移归一化流,基于 TarFlow 架构训练在 21,700 个短肽 MD 轨迹上(总计 4.3ms 模拟时长),实现对任意短肽系统的零样本无相关性提议采样,在能量评估预算相同时超越 MD 基线,生成速度比之前的可迁移玻尔兹曼生成器 (TBG) 快 4000 倍。

Atomic Diffusion Models for Small Molecule Structure Elucidation from NMR Spectra

提出 ChefNMR,首个基于 3D 原子扩散模型的端到端框架,仅从 1D NMR 光谱和化学式直接预测未知小分子(尤其是复杂天然产物)的分子结构,在合成和实验数据集上均达到 SOTA。

GraphFLA: Augmenting Biological Fitness Prediction Benchmarks with Landscape Features

GraphFLA 是一个高效的适应度景观分析框架——计算 20 个生物学意义的景观特征(粗糙度/上位性/可导航性/中性),在 5300+ 真实景观(ProteinGym/RNAGym/CIS-BP)上揭示模型性能高度依赖景观拓扑,如 VenusREM 在高可导航性景观上优于 ProSST 但在高上位性景观上弱于后者,处理百万突变体仅需 20 秒(vs MAGELLAN 5 小时)。

Autoencoding Random Forests

RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码,通过 k-NN 回归在叶节点空间中解码回原始特征,在 20 个表格数据集上重建质量排名 1.80(大幅优于 TVAE 3.38、AE 3.27),并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。

BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research

BarcodeMamba+ 是面向真菌 ITS DNA 条形码分类的 SSM 基础模型,通过预训练+微调范式充分利用海量未标注序列,并结合层次标签平滑、逆平方根加权损失和多头输出三项增强,在三个测试集所有分类层级上大幅超越 BLAST、CNN 和 Transformer 基线,种级准确率最高达 88.9%。

Benchmarking Agentic Systems in Automated Scientific Information Extraction with ChemX

构建 ChemX——10 个由领域专家手工标注和验证的多模态化学数据提取基准数据集,涵盖纳米材料和小分子两大领域,系统评估了 ChatGPT Agent、SLM-Matrix、FutureHouse、nanoMINER 等 SOTA Agent 系统以及 GPT-5/GPT-5 Thinking 等前沿 LLM;提出的单 Agent 方法通过结构化文档预处理(marker-pdf → Markdown → LLM 提取)在纳米酶数据集上达到 F1=0.61,超越所有通用多 Agent 系统,同时揭示了化学信息提取仍存在 SMILES 解析失败、术语歧义等系统性挑战。

查看全部76篇「计算生物」论文 →


⚛️ 物理/科学计算 (57)

3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization

提出 3DID 框架,通过学习物理-几何统一的三平面隐空间表示 + 目标梯度引导扩散采样 + 拓扑保持精炼的两阶段策略,从随机噪声开始直接在完整 3D 空间中进行逆向设计,在车辆气动外形优化上,模拟阻力(Sim-Drag)相比最优基线降低 13.6%。

A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees

提出一类基于当前与历史梯度构造的新型正则化器,结合带负曲率监测的共轭梯度法求解正则化Newton方程,在不需要Hessian Lipschitz常数先验知识的自适应框架下,首次同时实现了\(O(\epsilon^{-3/2})\)最优全局迭代复杂度和二次局部收敛速率。

A Variational Manifold Embedding Framework for Nonlinear Dimensionality Reduction

提出一种变分流形嵌入框架,将降维问题形式化为最优嵌入映射的优化问题(最小化先验分布与数据分布pullback之间的KL散度),在理论上统一了PCA与非线性降维方法,并利用变分法(Euler-Lagrange方程)和Noether定理为最优嵌入提供了可解释性约束。

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

通过理论分析 ODE 和 SDE 求解器的互补弱点(ODE 积累不可消除的梯度误差,SDE 在少步时离散化误差放大),提出 AdaSDE——在每个去噪步引入可学习随机系数 \(\gamma_i\) 控制噪声注入强度,通过轻量蒸馏优化,在 5 NFE 下实现 CIFAR-10 FID 4.18、FFHQ FID 8.05 的 SOTA。

AstroCo: Self-Supervised Conformer-Style Transformers for Light-Curve Embeddings

提出 AstroCo,一种将 Conformer(注意力 + 深度可分离卷积 + 门控)引入天文不规则光变曲线的自监督编码器,在 MACHO 数据集上重建误差比 Astromer v1/v2 降低 61-70%,少样本分类 macro-F1 提升约 7%。

Balanced Conic Rectified Flow

针对 k-rectified flow 中 reflow 步骤导致的分布漂移问题,提出 conic reflow:利用真实图像的反演噪声及其 Slerp 扰动构成锥形监督轨迹,大幅减少所需 fake pair 数量的同时获得更优的生成质量和更直的 ODE 路径。

Bayesian Surrogates for Risk-Aware Pre-Assessment of Aging Bridge Portfolios

提出基于贝叶斯神经网络(BNN)的代理模型,用于替代昂贵的非线性有限元分析(NLFEA),实现对老化桥梁组合的快速、不确定性感知的结构安全预评估,在真实铁路案例中为单座桥梁节省约37万美元。

Collapsing Taylor Mode Automatic Differentiation

提出 Taylor mode 自动微分的"折叠"(collapsing)优化技术,通过重写计算图将导数求和操作向上传播,大幅加速 PDE 算子(如 Laplacian、一般线性 PDE 算子)的计算,实现速度优于嵌套反向传播同时保持前向模式的低内存优势。

DeltaPhi: Physical States Residual Learning for Neural Operators in Data-Limited PDE Solving

提出 DeltaPhi 框架:不直接学习 PDE 的输入→输出映射,而是学习相似物理状态之间的残差,利用物理系统稳定性实现隐式数据增强,在数据稀缺场景下显著提升各类神经算子的性能。

EddyFormer: Accelerated Neural Simulations of Three-Dimensional Turbulence at Scale

提出 EddyFormer,一种基于谱元法 (SEM) 的 Transformer 架构,将流场分解为 LES(大尺度)和 SGS(小尺度)两路并行流,在 256³ 分辨率 3D 湍流上达到 DNS 级精度且加速 30 倍,并在未见的 4× 更大域上泛化良好。

查看全部57篇「物理/科学计算」论文 →


🌍 地球科学 (6)

A Probabilistic U-Net Approach to Downscaling Climate Simulations

首次将概率 U-Net 应用于气候统计降尺度(16× 超分辨率),通过变分隐空间采样生成集合预报来量化降尺度不确定性,并系统比较了 WMSE、MS-SSIM、WMSE-MS-SSIM 和 afCRPS 四种训练目标在捕捉极端事件与保留细尺度空间变异性方面的互补权衡。

Adaptive Online Emulation for Accelerating Complex Physical Simulations

提出 Adaptive Online Emulation (AOE),在物理模拟执行过程中动态训练 ELM 神经网络代理模型替代昂贵计算组件,无需离线预训练,在系外行星大气模拟上实现 11.1× 加速(91% 时间节省)且精度损失仅 ~0.01%。

ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts

提出 ControlFusion,一种基于语言-视觉退化提示的可控红外-可见光图像融合框架,通过物理驱动的退化成像模型模拟复合退化,并用 prompt-modulated 网络动态恢复+融合,在真实世界和复合退化场景下全面超越 SOTA。

Power Ensemble Aggregation for Improved Extreme Event AI Prediction

提出基于幂均值的自适应集成聚合方法,通过对生成式天气预测模型的集成成员得分施加非线性聚合(幂指数\(p>1\)),显著提升极端高温事件的分类性能,尤其在高分位数阈值下效果更佳。

Predicting Public Health Impacts of Electricity Usage

提出 HealthPredictor,一个将电力消费端到端映射到公共健康损害(以 $/MWh 计量)的 AI 流水线,包含燃料组合预测、空气质量转换和健康影响评估三个模块,健康驱动优化比燃料组合驱动基线显著降低健康影响预测误差,并在电动汽车充电调度案例中实现 24-42% 的健康损害减少。

Reasoning With a Star: A Heliophysics Dataset and Benchmark for Agentic Scientific Reasoning

提出 Reasoning With a Star (RWS),一个源自 NASA 太阳物理暑期学校问题集的 158 道科学推理 benchmark(含数值/符号/文本三类答案),配合 unit-aware 评分器,比较了四种多 agent 协调模式(HMAW/PACE/PHASE/SCHEMA),发现没有单一模式在所有任务上占优——系统工程启发的 SCHEMA 在需要严格约束验证的任务上最强。


📡 信号/通信 (5)

Angular Steering: Behavior Control via Rotation in Activation Space

提出Angular Steering,将LLM激活引导统一建模为固定2D子空间中的旋转操作——通过旋转角度提供0°-360°的连续、细粒度、范数保持的行为控制旋钮,统一了激活加法和方向消融为旋转的特例,在Llama 3/Qwen 2.5/Gemma 2(3B-14B)上实现鲁棒的行为调控。

Contrastive Consolidation of Top-Down Modulations Achieves Sparsely Supervised Continual Learning

提出 Task-Modulated Contrastive Learning (TMCL),受大脑新皮层自顶向下调制启发,在持续学习中通过 affine modulation 集成稀疏标签信息(仅需 1% 标签),再利用对比学习将调制信息固化到前馈权重中,在 class-incremental 和迁移学习上超越无监督和有监督基线。

Feature-aware Modulation for Learning from Temporal Tabular Data

论文认为时间表格学习真正难的不是“再加一个时间 embedding”这么简单,而是很多特征的语义会随时间漂移,因此提出 feature-aware modulation,通过时间上下文动态生成每个特征的偏移、缩放与非线性形状参数,把跨时间的语义重新对齐,最终在 TabReD 上让深度模型第一次在平均排名上稳定压过 GBDT。

Masked Symbol Modeling for Demodulation of Oversampled Baseband Communication Signals

本文提出 Masked Symbol Modeling(MSM),将 BERT 的掩码预测范式应用于通信物理层——将脉冲成形产生的符号间贡献重新定义为"上下文信息",训练 Transformer 在干净过采样基带信号上学习波形结构,推理时利用学到的上下文来恢复被冲激噪声破坏的符号。

Memory-Integrated Reconfigurable Adapters: A Unified Framework for Settings with Multiple Tasks

MIRA 将 Hopfield 式联想记忆模块嵌入 ViT 各层,以键值对方式存储和检索 LoRA 适配器权重,通过两阶段训练(适应+巩固),在一个统一架构下同时解决领域泛化(DG)、类增量学习(CIL)和域增量学习(DIL)三类任务,在多个基准上显著超过各任务的专用方法。


👥 社会计算 (20)

Active Slice Discovery in Large Language Models

提出 Active Slice Discovery 问题框架,将主动学习引入 LLM 错误切片发现,利用不确定性采样 + LLM 内部表征(原始 embedding 或 SAE 特征)在仅使用 2-10% 标注的情况下达到接近全标注的切片检测精度。

Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

提出 Reasoning-based Bias Detector(RBD)作为 LLM 评判器的即插即用去偏模块——通过外部检测 4 种评估偏见(冗长/位置/从众/情感),生成带推理链的结构化反馈引导评判器自我纠正,RBD-8B 在 8 个 LLM 评判器上平均提升准确率 18.5%、一致性 10.9%。

Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in LLMs

提出 FaIRMaker 框架,通过"自动搜索+精化"范式先用梯度优化找到去偏见触发词(Fairwords),再训练 seq2seq 模型将其转化为可读指令,在开源和闭源 LLM 上有效缓解性别偏见同时保持甚至提升任务性能。

AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web

AVerImaTeC 构建了首个带完整证据标注的图文事实核查数据集——1297 条真实图文声明 + 5 阶段标注流水线(提取→QA 推理→充分性检查→迭代精炼→二次检查)+ 时间约束证据(防止时间泄露),基线系统在有 ground truth 证据时准确率 82%,但自动检索证据后降至 15-25%,揭示了图文核查的巨大挑战。

Concept-Level Explainability for Auditing & Steering LLM Responses

提出 ConceptX,一种基于概念级(而非 token 级)Shapley 归因的 LLM 可解释性方法,通过语义相似度而非 token 重合度来衡量输入概念对输出的影响,可用于审计偏见和通过 prompt 编辑引导 LLM 输出,在越狱防御中将攻击成功率从 0.463 降至 0.242。

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

DATE-LM构建了首个面向LLM的统一数据归因评估基准,通过训练数据选择、毒性过滤和事实归因三大应用驱动任务系统评估多种归因方法,发现无单一方法全面占优且简单基线在某些场景可媲美归因方法。

DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding

受深度优先搜索(DFS)算法启发,设计了 DeepTraverse 视觉骨干网络,通过参数共享的递归探索模块和自适应通道校准模块,在极少参数下实现高竞争力的图像分类性能。

Don't Let It Fade: Preserving Edits in Diffusion Language Models via Token Timestep Allocation

提出 Token Timestep Allocation (TTA-Diffusion),通过为每个 token 分配独立的去噪时间步来解决扩散语言模型中 classifier guidance 导致的 update-forgetting 问题,实现可控文本生成的稳定性和效率大幅提升。

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

提出 GraphKeeper 框架应对图域增量学习(Graph Domain-IL)中的灾难性遗忘,通过域特异性 LoRA 参数隔离 + 领域内/间解耦 + 基于岭回归的无偏差知识保存三组件,比次优方法提升 6.5%-16.6%,且可无缝集成图基础模型。

IF-GUIDE: Influence Function-Guided Detoxification of LLMs

提出 IF-Guide,利用影响函数在 token 粒度识别训练数据中的有毒内容,并通过惩罚式训练目标在预训练/微调阶段主动抑制模型学习有毒行为,显著优于 DPO 和 RAD 等被动对齐方法。

查看全部20篇「社会计算」论文 →


🛡️ AI 安全 (73)

A Set of Generalized Components to Achieve Effective Poison-only Clean-label Backdoor Attacks with Collaborative Sample Selection and Triggers

提出一组通用化组件(Component A/B/C),通过充分挖掘样本选择与触发器之间的双向协作关系,同时提升 Poison-only Clean-label 后门攻击的攻击成功率(ASR)和隐蔽性,并在多种攻击类型上展现了良好的泛化能力。

Beyond Last-Click: An Optimal Mechanism for Ad Attribution

从博弈论角度分析广告归因中 Last-Click 机制的策略操纵漏洞——平台可以通过篡改时间戳获取不公正的归因信用,提出 Peer-Validated Mechanism(PVM)——每个平台的信用仅取决于其他平台的报告(类比同行评审),理论证明 PVM 是占优策略激励兼容(DSIC)且在同质设置下最优,准确率从 34% 提升到 75%(2 平台)。

Boosting Adversarial Transferability with Spatial Adversarial Alignment

提出 Spatial Adversarial Alignment (SAA),通过空间感知对齐和对抗感知对齐两个模块微调代理模型,使其特征与见证模型对齐,从而显著提升对抗样本的跨架构迁移性(CNN→ViT 迁移率提升 25-39%)。

Brain-like Variational Inference

提出 FOND 框架(Free energy Online Natural-gradient Dynamics),从自由能最小化的第一原理推导出脉冲神经网络推断动力学,并实现 iPVAE(迭代泊松 VAE),在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。

Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness

通过在 CNN 中嵌入旋转等变(P4群)和尺度等变卷积层,提出 Parallel 和 Cascaded 两种对称性感知架构,无需对抗训练即可显著提升对抗鲁棒性,并从 CLEVER 框架出发理论证明等变架构能压缩假设空间、正则化梯度、收紧认证鲁棒性界。

Causally Reliable Concept Bottleneck Models

提出 C2BM(Causally reliable Concept Bottleneck Models),将概念瓶颈(concept bottleneck)按照因果图结构化组织,通过结合观测数据与背景知识自动学习因果关系,在保持分类精度的同时显著提升因果可靠性、干预响应和公平性。

Cost Efficient Fairness Audit Under Partial Feedback

在部分反馈(partial feedback)设定下,提出了一套包含新颖成本模型的公平性审计框架,分别在黑盒与混合模型两种场景给出近最优审计算法,审计成本比自然基线降低约 50%。

CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D

扩展 MLE-Bench 构建了 20 个代码破坏(code-sabotage)任务和 sandbagging 评测,发现前沿 AI agent 能在完成正常 ML 工程任务的同时成功植入后门等破坏,且在部分情况下逃避 LM monitor 的检测。

Deceptron: Learned Local Inverses for Fast and Stable Physics Inversion

提出 Deceptron 双向模块,通过学习可微分前向代理的局部逆映射并引入 Jacobian Composition Penalty (JCP),在求解物理逆问题时将输出空间的残差拉回输入空间,实现类 Gauss-Newton 的预条件梯度更新,迭代次数大幅减少(Heat-1D 约 20 倍加速)。

DESIGN: Encrypted GNN Inference via Server-Side Input Graph Pruning

提出 DESIGN 框架,在全同态加密(FHE)下通过服务器端输入图剪枝和自适应多项式激活度分配两阶段优化,相比 SEAL 基线加速 FHE GNN 推理约 2× 并维持有竞争力的准确率。

查看全部73篇「AI 安全」论文 →


📂 其他 (121)

A Differentiable Model of Supply-Chain Shocks

用 JAX 实现可微分的供应链 Agent-Based Model(~1000 家企业),通过 GPU 并行化 + 自动微分实现比传统 ABC 快 3 个数量级的贝叶斯参数校准,为全球供应链网络的冲击传播建模铺平道路。

A Sustainable AI Economy Needs Data Deals That Work for Generators

提出"经济数据处理不等式"概念——ML价值链中数据从原始形态到模型权重再到合成输出,每一步都精炼了技术信号但系统性剥夺了数据生成者的经济权益;通过分析73个公开数据交易案例实证这一现象,诊断三个结构性缺陷(溯源缺失、议价权不对称、定价非动态),并提出EDVEX框架作为解决方案蓝图。

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation

本文从纯优化角度严格证明了 grokking 现象的成因:带小 weight decay 的梯度流在 \(\lambda\to 0\) 极限下呈现两阶段动力学——先快速收敛到训练损失的临界流形 \(\mathcal{M}\),再在 \(t\approx 1/\lambda\) 时沿流形做黎曼梯度流以最小化 \(\ell_2\) 范数,从而延迟实现泛化。

A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values

提出统一框架将 KernelSHAP、LeverageSHAP 等 Shapley 值估计器纳入随机草图(sketching)视角,首次为 KernelSHAP 提供非渐近理论保证,并通过算法改进(Poisson 近似等)将方法扩展到 CIFAR-10 等高维数据集。

Active Measurement: Efficient Estimation at Scale

提出 Active Measurement 框架,将 AI 模型预测作为重要性采样提议分布,通过迭代的人类标注与模型更新实现科学总量测量的无偏估计,搭配新颖的组合权重方案和条件方差估计器构建可靠的置信区间。

Addressing Mark Imbalance in Integration-free Neural Marked Temporal Point Processes

本文首次揭示标记时间点过程(MTPP)中标记分布不平衡对预测性能的严重影响,提出先预测标记再预测时间的策略,设计阈值方法调节稀有标记的预测概率,并开发无积分近似的IFNMTPP模型高效支持标记概率估计和时间采样。

Adjoint Schrödinger Bridge Sampler

提出 Adjoint Schrödinger Bridge Sampler (ASBS),通过将 Schrödinger Bridge 问题重新解释为随机最优控制问题,消除了先前扩散采样器的 memoryless 条件限制,支持任意源分布(如高斯、谐波先验),使用可扩展的 matching 目标无需重要性权重估计,在多粒子能量函数和分子构象生成上全面超越先前方法。

Adjusted Count Quantification Learning on Graphs

将经典的 Adjusted Classify & Count (ACC) 量化方法扩展到图结构数据,提出结构重要性采样(SIS)和邻域感知ACC两种技术,分别解决图量化中的结构协变量偏移和非同质性边问题。

Aggregation Hides OOD Generalization Failures from Spurious Correlations

揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line(ID 与 OOD 准确率正相关),但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集(最高达 75%),这些子集上 ID 越高 OOD 反而越低(Pearson R 低至 -0.92),证明虚假相关的危害被聚合评估系统性隐藏。

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

提出Alias-Free Vision Transformer(AFT),结合抗混叠信号处理技术和shift-equivariant线性交叉协方差注意力,首次使ViT在分数像素(亚像素)平移下保持接近完美的一致性(~99%),同时在ImageNet分类准确率上几乎无损。

查看全部121篇「其他」论文 →