跳转至

🧪 ICML2025 论文汇总

1061篇ICML2025论文解读,涵盖图像生成(92篇)、模型压缩(74篇)、强化学习(70篇)、优化/理论(61篇)、计算生物(48篇)、多模态 VLM(42篇)、LLM 安全(41篇)、AI 安全(37篇)等 50个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (19)

Ad-Hoc Human-AI Coordination Challenge (AH2AC2)

提出 AH2AC2 挑战——基于 Hanabi 合作卡牌游戏,通过行为克隆+正则化强化学习构建人类代理智能体,并开源有限人类数据集,为 Human-AI 临时协作研究提供标准化、可复现的评估框架。

AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism

AdaDecode 通过在中间层训练轻量级 LM Head 实现高置信度的 token 早期预测,将后续层的 KV cache 计算延迟并行化执行,在保证与标准自回归解码完全一致输出的同时,实现最高 1.73× 的解码吞吐量加速。

Adversarial Manipulation of Reasoning Models using Internal Representations

本文发现推理模型(如 DeepSeek-R1-Distill-Llama-8B)在 CoT 生成阶段存在一个线性"谨慎方向"(caution direction),通过消融该方向可有效越狱模型,揭示了 CoT 本身是对抗攻击的新靶点。

DyCodeEval: Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

基于蜕变测试思想,将编程问题分解为复杂度相关的算法抽象和复杂度无关的上下文描述,通过四个 LLM Agent 协作自动生成语义等价但文本不同的编程问题变体,有效规避数据污染并评估 Code LLM 的真实推理能力,在 18 个模型上验证了框架的有效性。

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

本文通过因果分析、表征分析和注意力分析等方法,在13个开源LLM中识别出支持抽象推理的三阶段涌现符号架构——符号抽象头将输入token转化为抽象变量、符号归纳头在抽象变量层面进行序列归纳、检索头根据预测的抽象变量检索对应值来完成下一token预测。

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

本文提出 JETTS 基准,系统评估 LLM-judge 在 test-time scaling 场景(response reranking、step-level beam search、critique-based refinement)中作为评估器的表现,发现 judge 在 reranking 中与 outcome reward model 竞争力相当但在 beam search 中显著弱于 process reward model,且自然语言 critique 目前无法有效引导生成器改进。

FMC: Formalization of Natural Language Mathematical Competition Problems

本文提出基于 LLM 错误反馈的全自动形式化流水线,将自然语言数学竞赛题转化为 Lean 形式化表示,构建了包含 3,922 道自然语言与 9,787 条 Lean 形式化对齐的奥赛级数据集 FMC,并验证了其作为自动定理证明基准的价值。

Improving Rationality in the Reasoning Process of Language Models through Self-playing Game

本文提出 Critic-Discernment Game(CDG),通过自博弈语言游戏让 LLM 与"有帮助的批评者"和"误导性批评者"互动,用 ReST 强化学习联合优化三个角色,无需人类或更强模型的监督即可显著提升 LLM 对自身推理过程的理性理解,在数学推理、逐步错误检测、自我纠错和长链推理四个任务上均取得一致提升。

MARGE: Improving Math Reasoning for LLMs with Guided Exploration

MARGE 提出了一种基于"命中引导探索"(hit-guided exploration)的方法来增强 LLM 的数学推理能力,通过系统地探索自生成解答中的中间推理状态,实现充分探索和更好的信用分配,无需外部标注或额外价值模型,同时提升了单次准确率和探索多样性。

No Soundness in the Real World: On the Challenges of the Verification of Deployed Neural Networks

本文证明所有当前最先进的神经网络验证器都只提供"理论健全性"(约束全精度输出)而非"实际健全性"(约束部署环境中的浮点输出),并通过构造环境敏感的对抗性后门网络,实证验证了所有测试验证器均可被欺骗。

查看全部19篇「LLM Reasoning」论文 →


🦾 LLM Agent (11)

AdvAgent: Controllable Blackbox Red-teaming on Web Agents

提出 AdvAgent,一个基于强化学习(DPO)的黑盒红队测试框架,训练一个对抗 prompter 模型自动生成不可见的 HTML 对抗 prompt,注入网页后可误导 GPT-4V 驱动的 Web Agent 执行攻击者指定的目标动作(如将买微软股票改为买英伟达),在 440 个任务上达到 97.5% 攻击成功率,且对现有防御手段仍保持 88.8% 以上的有效性。

AGACCI: Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts

AGACCI 提出一个由 9 个专门化 Agent 组成的多 Agent 评估框架,将教育编程作业的评估任务分解为 rubric 解析、代码执行验证、可视化评估、解释性推理评估等角色,通过协作实现比单模型 baseline 更准确、一致且可解释的 rubric 对齐反馈。

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

提出 Aguvis,首个完全基于纯视觉的跨平台自主 GUI Agent 框架,通过统一视觉观察空间、标准化动作空间和内心独白(inner monologue)机制,在离线和在线基准上取得 SOTA,无需依赖闭源模型。

Evaluating Retrieval-Augmented Generation Agents for Autonomous Scientific Discovery in Astrophysics

本文构建了宇宙学领域的 RAG 评测基准 CosmoPaperQA(105 个专家 QA 对),系统评估了 9 种 RAG agent 配置(涵盖商业 API、混合架构、学术工具),发现 OpenAI RAG 方案以 91.4% 准确率领先,并校准了可替代人工评审的 LLM-as-a-Judge 系统。

From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?

本文提出 AR-Bench,一个专门评估 LLM 主动推理能力的基准,包含侦探案件、情境谜题和猜数字三类任务,实验发现 GPT-4o 等最先进模型在需要主动提问获取缺失信息的场景中表现远逊于人类,揭示了被动推理与主动推理之间的巨大鸿沟。

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

GuardAgent 是首个"用 Agent 守护 Agent"的框架,通过将安全规则动态转化为可执行的护栏代码来检查目标 Agent 的动作是否违规,在医疗访问控制和 Web 安全控制两个新基准上分别达到 98%+ 和 83%+ 的护栏准确率。

Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search

提出 LWM-Planner,从交互轨迹中提取"原子事实"增强 LLM 世界模型模拟,结合递归前瞻搜索实现纯 in-context 的 Agent 规划改进,在 ALFWorld 等任务上显著优于 ReAct 和 Reflexion。

KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search

提出 KBQA-o1,将 ReAct Agent 与蒙特卡洛树搜索(MCTS)结合,通过策略模型和奖励模型驱动的启发式搜索实现知识库问答,在低资源设置下以 Llama-3.1-8B 将 GrailQA F1 从 48.5%(GPT-3.5-turbo SOTA)提升至 78.5%。

Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery

本文提出 cmbagent,一个由约 30 个 LLM Agent 组成的多智能体系统,采用 Planning & Control 策略编排无人干预的科研工作流,各 Agent 分别负责论文检索、代码编写、结果解读、输出评审等专业任务,并可在本地执行代码;该系统成功完成了博士级别的宇宙学任务(用超新星数据测量宇宙学参数),在两个基准测试集上优于当前最先进的 LLM。

Towards LLM Agents for Earth Observation

本文提出 UnivEARTH——一个包含 140 个 yes/no 问题的地球观测基准,涵盖 13 个主题和 17 种卫星传感器,评估发现最佳 LLM Agent(使用 Google Earth Engine 生成代码)的准确率仅 33%,主要受限于 58% 的代码无法运行。

查看全部11篇「LLM Agent」论文 →


👥 Multi-Agent (7)

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

本文提出 AutoML-Agent,一个基于多智能体 LLM 协作的全流水线 AutoML 框架,通过检索增强规划策略(Retrieval-Augmented Planning)扩大搜索空间、将任务分解为并行执行的子任务由专业化 Agent 分别完成、并引入多阶段验证机制保障代码生成质量,在 7 类任务 14 个数据集上实现了更高的自动化成功率和模型性能。

Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination

提出跨环境合作(CEC)范式,通过在程序化生成的大量多样化环境中进行自对弈训练(而非增加伙伴多样性),使智能体学习到通用的合作规范,从而在从未见过的新环境中与从未见过的新伙伴实现零样本协调。

From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium

将多 LLM 协调建模为不完全信息博弈,提出 ECON 框架,通过贝叶斯纳什均衡(BNE)实现隐式信念驱动的多 Agent 协调推理,无需显式消息传递即可获得理论收敛保证,在六个推理基准上平均提升 11.2%。

Is Your LLM-Based Multi-Agent a Reliable Real-World Planner? Exploring Fraud Detection in Travel Planning

提出 WandaPlan 评估环境,通过在旅行规划场景中注入三种递进式欺诈(单源误导、团队协调刷单、逐级升级),系统性评估 LLM 多智能体规划系统对虚假信息的脆弱性,并设计反欺诈 Agent 来缓解风险。

MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines

提出 MetaAgent,一个基于有限状态机(FSM)的框架,给定任务描述即可自动设计多智能体系统,无需外部训练数据,支持工具调用和状态回溯,在文本任务、ML 任务和软件开发任务上超越现有自动设计方法并逼近人工设计系统性能。

ResearchTown: Simulator of Human Research Community

提出 ResearchTown,一个基于 agent-data 图和 TextGNN(文本空间消息传递)的多智能体框架,将人类科研社区建模为异构图,统一模拟论文阅读、论文写作和审稿三大核心研究活动,并通过节点掩码预测任务 (ResearchBench) 进行可扩展、客观的仿真质量评估。

Theorem-of-Thought: A Multi-Agent Framework for Abductive, Deductive, and Inductive Reasoning in Language Models

提出 Theorem-of-Thought (ToTh) 框架,通过三个分别模拟溯因、演绎和归纳推理的 Agent 独立生成推理轨迹,将其构建为形式化推理图 (FRG),再用 NLI 校准的贝叶斯置信传播进行一致性评分,选取最优图的终端节点作为最终答案,在符号和数值推理任务上一致超越 CoT、Self-Consistency 和 CoT-Decoding。


⚖️ 对齐 / RLHF (16)

AlphaPO: Reward Shape Matters for LLM Alignment

AlphaPO 在 Direct Alignment Algorithms(DAA)框架中引入 \(\alpha\) 参数来改变奖励函数的"形状",从标准的 log 奖励推广到更一般的幂次变换形式,从而细粒度控制 likelihood displacement 和 over-optimization,在 Mistral-7B 和 Llama3-8B 上相对 SimPO 提升 7%-10%,相对 DPO 提升 15%-50%。

AMPO: Active Multi-Preference Optimization for Self-play Preference Selection

提出 AMPO 框架,将在线策略生成、多偏好组对比损失和主动子集选择相结合,通过从大规模候选响应池中智能挑选少量但信息丰富的子集进行偏好优化,在 AlpacaEval 上达到 SOTA。

AssistanceZero: Scalably Solving Assistance Games

提出 AssistanceZero,首次将 assistance game 扩展到复杂环境(Minecraft 建筑辅助,\(10^{400}\) 种可能目标),通过扩展 AlphaZero 增加 reward 预测头和人类行为预测头,在 MCTS 下进行不确定性规划,显著优于 PPO 和模仿学习基线,人类实验证明能有效减少用户操作并展现挖地基、推断屋顶、从纠正中学习等涌现行为。

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

发现 RLHF 中 KL 正则化带来的结构性质——策略对最优策略的 coverage 被其次优性控制(\(\text{Cov}^{\pi^*|\pi} \leq 1 + \kappa \cdot (J(\pi^*) - J(\pi))/\beta\)),据此提出两条迁移学习原则:(1) 选高 policy value 的 transfer policy,(2) self-transfer 从在线数据蒸馏策略。设计 TPO 算法实现早期 \(O(W\sqrt{T})\)、后期 \(O(\sqrt{T})\) 的 regret,可模块化集成 DPO/IPO/XPO,在 T5 summarization 实验上验证有效。

Challenges and Future Directions of Data-Centric AI Alignment

本文是一篇 position paper,倡导将 AI 对齐的研究重心从算法设计转向数据质量,通过对 Anthropic-HH 数据集的定性分析揭示了人类反馈中的六大不可靠来源,并提出了改进数据收集、清洗和验证的未来方向。

Diverging Preferences: When do Annotators Disagree and do Models Know?

本文系统分析了 RLHF 偏好数据集中标注者分歧的原因(建立了包含 10 个类别的分类法),发现超过 75% 的分歧源于个人偏好而非标注噪声,提出了分布式奖励模型(Mean-Var Reward Model)来有效区分分歧偏好与高一致偏好,并揭示了 LLM-as-Judge 评估方法在分歧情况下的系统性偏见。

DPO Meets PPO: Reinforced Token Optimization for RLHF

本文提出 Reinforced Token Optimization (RTO),将 RLHF 建模为 token 级别的 MDP(而非句子级 bandit),利用 DPO 隐式地提取 token-wise 奖励信号后用 PPO 进行策略优化,在 AlpacaEval 2 上比 PPO 高 7.5 分、在 Arena-Hard 上高 4.1 分,且仅需 1/8 数据量即可达到 PPO 级别性能。

Improving Model Alignment through Collective Intelligence of Open-Source LLMs

本文提出 Mixture of Agents Alignment(MoAA),利用多个开源 LLM 的集体智慧生成高质量的对齐数据(SFT 数据和偏好数据),显著提升目标模型在 Arena-Hard 和 AlpacaEval2 上的表现,并展示了无需外部强监督的自我提升能力。

Instruction Tuning of Large Language Models for Tabular Data Generation—in One Day

本文首次探索用指令微调提升 LLM 的表格数据生成能力,通过构建仅 10K 条高质量指令数据集并在单张 A100 上微调 Llama3.1-8B-Instruct 不到 6 小时,即可达到与 GPT-4o 相当的表格数据生成性能。

Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models

本文发现了 VLM 中图像编码器的"早退出"漏洞(ICET)——跳过图像编码器的部分层会大幅增加有害输出概率,提出 Layer-wise PPO (L-PPO) 修改 Clipped-PPO 算法在不同层级做多模态 RLHF,在 ASR 上降低高达 48%、毒性分数降低 33.64%。

查看全部16篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (41)

Activation Space Interventions Can Be Transferred Between Large Language Models

本文证明了 LLM 之间存在共享的激活空间结构,通过训练自编码器(autoencoder)学习模型间的激活映射,可以将安全干预(如后门移除、有害拒绝转向向量)从源模型迁移到目标模型,实现"小模型对齐大模型"的高效安全干预范式。

Align-then-Unlearn: Embedding Alignment for LLM Unlearning

提出 Align-then-Unlearn 框架,通过在语义嵌入空间(而非 token 级别)执行遗忘操作,先训练嵌入预测模块对齐未来语义表示,再微调 LLM 使预测嵌入远离目标概念嵌入,实现对 prompt 改写鲁棒的概念级知识遗忘。

An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs

提出一种基于词汇表逐token匹配的攻击方法,利用decoder-only LLM隐藏状态的非碰撞特性,可以从三种类型的置换隐藏状态中近乎完美恢复原始输入token,打破PermLLM、STIP、Centaur三种隐私推理方案的安全声明。

Cape: Context-Aware Prompt Perturbation Mechanism with Differential Privacy

提出 Cape——一种上下文感知的 prompt 扰动机制,通过混合效用函数(结合 token 嵌入距离和上下文 logit)以及分桶指数采样机制,在 local DP 保证下实现比现有方法更优的隐私-效用权衡。

Cascade: Token-Sharded Private LLM Inference

提出 Cascade——一种基于 token 维度分片的多方推理协议,通过将隐藏状态按 token 维度分发给不同计算节点,避免密码学原语的高昂开销,在保持抵抗 vocab-matching 攻击能力的同时实现比 SMPC 方案快 100× 的推理速度。

CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization

提出 CROW(Internal Consistency Regularization),通过对抗扰动 + 层间隐藏状态一致性正则化来消除 LLM 中的后门,仅需 100 条干净样本、单卡 4 分钟微调即可将攻击成功率降至 5% 以下,且不需要干净参考模型或触发器先验知识。

Cut out and Replay: A Simple yet Versatile Strategy for Multi-Label Online Continual Learning

提出 CUTER(CUT-out-and-Experience-Replay),通过裁剪图像中标签特定区域并存入记忆缓冲区进行回放,将多标签在线持续学习转化为多个单标签子图像分类任务,同时解决灾难性遗忘、缺失标签和类别不平衡三大挑战。

De-mark: Watermark Removal in Large Language Models

提出De-mark框架,通过随机选择探测(random selection probing)策略估计n-gram水印强度并重建红绿列表,无需知道哈希函数即可去除水印,并提供去除后LM分布与原始分布之间的理论差距保证。

DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning

提出 DRAGON,一种无需微调的 LLM 遗忘框架,通过双层检测模块识别需遗忘的 prompt,再由 CoT guard 模型生成推理指令做上下文干预,在不修改模型参数的前提下实现高效遗忘。

EgoPrivacy: What Your First-Person Camera Says About You?

提出 EgoPrivacy——首个大规模第一人称视频隐私基准,定义三类隐私(人口统计/个体/情境)七大任务,并设计检索增强攻击 (RAA) 将 ego-to-exo 检索与分类联合,证明基础模型零样本即可以 70–80% 准确率推断佩戴者性别、种族等敏感属性。

查看全部41篇「LLM 安全」论文 →


👻 幻觉检测 (3)

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

提出 MemVR 解码范式,将视觉 token 作为补充证据通过 FFN 的 key-value memory 机制重新注入到中间触发层,以"再看一次"的方式缓解 MLLM 幻觉问题,不引入额外推理开销。

Rejecting Hallucinated State Targets during Planning

本文系统识别了目标导向决策规划中生成器产生不可行目标(幻觉目标)导致的"妄想行为"类型,并设计了一种可行性评估器(feasibility evaluator)作为附加模块来识别和拒绝这些不可行目标,结合离策略学习规则、分布式架构和后见重标记数据增强,在不修改原始智能体的前提下显著减少妄想行为并提升OOD泛化性能。

Steer LLM Latents for Hallucination Detection

提出 Truthfulness Separator Vector (TSV),一种轻量级 steering vector,在推理时重塑 LLM 表示空间以增强真实与幻觉输出的分离,仅需 32 个标注样本即可接近全监督性能。


📊 LLM 评测 (22)

AAAR-1.0: Assessing AI's Potential to Assist Research

提出 AAAR-1.0 基准,通过公式推断、实验设计、论文弱点发现、审稿质量鉴别四个专家级任务,系统评估 LLM 辅助科研的真实能力,揭示当前模型在深度研究任务上仍有显著不足。

Are LLM Belief Updates Consistent with Bayes' Theorem?

本文提出贝叶斯一致性系数(BCC)来量化 LLM 的信念更新是否符合贝叶斯定理,发现更大、更强的预训练模型在给定新证据时,其信念更新与贝叶斯定理更一致。

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

提出 SITAlign——基于有界理性的满意决策框架,在推理时最大化主要目标(如有用性)同时确保次要目标(如无害性)满足阈值约束,通过对偶理论求解,在 GPT-4 评估上相比多目标解码 SOTA 提升 22.3% 胜率。

Communicating Activations Between Language Model Agents

提出让 LLM 智能体通过中间层激活(而非自然语言)进行通信的方法——在模型 B 的前向传播中间层注入模型 A 的激活向量,无需额外参数和数据,在多项推理基准上比自然语言通信提升 27%,计算量仅为 1/4。

Consistency in Language Models: Current Landscape, Challenges, and Future Directions

系统综述了 LLM 一致性研究的全景,提出包含逻辑一致性(否定/对称/传递)、语义一致性、事实/信息一致性和非逻辑一致性(道德/规范)的分类体系,分析了 2019-2025 年间评测方法的不足,并呼吁建立标准化多语言基准和跨学科方法。

Correlated Errors in Large Language Models

本文通过对超过350个LLM的大规模实证分析,发现不同LLM之间存在高度相关的错误模式——在两个模型都出错时约60%的情况下会选择同一个错误答案,且越准确的模型相关性越高;进而研究了这种相关性对LLM-as-Judge评估和招聘市场的下游影响。

DataDecide: How to Predict Best Pretraining Data with Small Experiments

本文构建了 DataDecide——迄今最大规模的开放模型套件(25 种数据配方 × 14 种模型规模 × 3 个随机种子),系统研究如何用小规模实验预测最佳预训练数据,发现单一小规模排名(如 150M 参数)即可达到约 80% 的成对决策准确率,且连续似然代理指标仅需目标计算量 0.01% 即可让多个基准任务的预测准确率超过 80%。

Disentangling and Integrating Relational and Sensory Information in Transformer Architectures

本文提出了 Dual Attention Transformer(DAT),通过在标准注意力机制中引入"关系注意力"头,将感知信息和关系信息解耦后并行处理再整合,在关系推理基准、数学问题求解、图像识别和语言建模等任务上均展现出显著的数据效率和参数效率提升。

EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities

EnIGMA 是一个用于自主解决 Capture The Flag (CTF) 挑战的 LM agent,通过引入新型交互式 Agent 工具(调试器和服务器连接工具),首次使 LM agent 能够运行交互式终端程序,在 4 个基准的 390 个 CTF 挑战上取得 SOTA,并发现了 "soliloquizing" 这一新的幻觉现象。

MultiCogEval: Evaluating LLMs Across Multi-Cognitive Levels

受 Bloom 分类法启发,提出多认知层次评估框架 MultiCogEval,从知识掌握、综合应用、情景问题解决三个层次评估 LLM 医学能力,发现所有模型性能随认知复杂度增加显著下降,且模型规模在高层次更关键。

查看全部22篇「LLM 评测」论文 →


⚡ LLM 效率 (12)

Autonomy-of-Experts Models (AoE)

AoE 提出让 MoE 中的 expert 基于自身内部激活范数自主决定是否处理输入(而非由外部 router 决定),通过低秩权重分解降低预计算开销,在 700M-4B 参数语言模型预训练中超越传统 MoE。

Cooperation of Experts: Fusing Heterogeneous Information with Large Margin

提出 Cooperation of Experts (CoE) 框架,将异构信息编码为多重网络,通过两级专家设计与大间隔置信张量优化实现专家协作(而非竞争),在节点分类任务上全面超越现有 MoE 和多重网络方法。

Curse of High Dimensionality Issue in Transformer for Long-context Modeling

本文从监督学习视角重新审视序列建模中的注意力冗余问题,提出了 Dynamic Group Attention (DGA) 机制,通过将不重要的 token 动态分组聚合来减少注意力计算中的冗余,在保持竞争性能的同时大幅降低推理延迟(LLaMA2-7B 在 16K 上下文下推理速度提升 2.42 倍)。

DSSD: Efficient Edge-Device LLM Deployment and Collaborative Inference via Distributed Split Speculative Decoding

提出分布式拆分推测解码(DSSD)框架,将推测解码的验证阶段拆分到设备端和边缘端,用一次下行传输(LLM的单个词表分布)替代多次上行传输(SLM的\(\gamma\)个词表分布),在保持推理质量不变的前提下大幅降低通信延迟。

EasyInv: Toward Fast and Better DDIM Inversion

提出 EasyInv,通过在反演过程中周期性地将当前 latent 状态与前一步 latent 状态加权聚合(类卡尔曼滤波),增强初始 latent 的影响力、抑制噪声累积误差,在不需要迭代优化的前提下达到与迭代方法相当甚至更好的反演质量,同时推理速度提升约 3 倍。

Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling

本文提出 Grouped Cross-Attention (GCA) 机制,将 chunk 级别的因果检索(causal retrieval)集成到注意力中实现端到端可学习的检索器,构建的 Differentiable Retrieval-based Transformer (DRT) 在 16M 上下文的 passkey 检索测试中达到近乎完美的准确率,实现了训练长度 1000 倍的长度泛化。

Ladder Residual: Parallelism-Aware Architecture for Accelerating Large Model Inference

本文提出 Ladder Residual,一种简单的架构修改——将每个模块的输入从上一层的输出改为上上层的输出(错位残差),使模块计算与 AllReduce 通信解耦,从而实现通信与计算的重叠,在 70B 模型 8 卡 TP 推理中实现 29% 的端到端加速,且模型性能与标准 Transformer 持平。

Long-Short Alignment for Effective Long-Context Modeling in LLMs

本文从模型输出分布的角度提出长度泛化的新视角——长短对齐 (Long-Short Alignment),指出不同长度输入的输出分布一致性是长度泛化的关键因素,提出 Long-Short Misalignment 度量并将其作为训练正则项,在合成任务和自然语言任务上均显著提升长上下文建模能力。

Mixture of Lookup Experts

提出 MoLE(Mixture of Lookup Experts),将 MoE 中的路由专家输入从中间特征改为 embedding token,使专家可在推理前被重参数化为查找表(LUT)并卸载到存储设备,从而在保持 MoE 级别性能的同时实现与 dense 模型相当的推理速度和显存占用。

MoH: Multi-Head Attention as Mixture-of-Head Attention

本文将多头注意力(MHA)重新表述为求和形式,借鉴 MoE 思想提出 Mixture-of-Head Attention(MoH),通过路由器为每个 token 动态选择最相关的注意力头子集,仅激活 50%~90% 的头即可匹配甚至超越标准 MHA 性能,并证明预训练模型(如 LLaMA3-8B)可通过 continue-tuning 转换为 MoH 模型。

查看全部12篇「LLM 效率」论文 →


📚 预训练 (31)

A Square Peg in a Square Hole: Meta-Expert for Long-Tailed Semi-Supervised Learning

提出 Meta-Expert 算法,通过动态专家分配(DEA)模块根据样本的类别归属(头/中/尾)自动选择最擅长的专家生成伪标签,并利用多深度特征融合(MFF)模块缓解模型对头类的偏向,实现"方枘方凿"——让每个专家处理它最擅长的样本区间。

Algebra Unveils Deep Learning -- An Invitation to Neuroalgebraic Geometry

本文提出 neuroalgebraic geometry(神经代数几何) 这一新研究方向,系统地利用代数几何的工具(维度、度、奇异点、纤维、临界点理论等)来分析深度学习模型参数化的函数空间(neuromanifold),建立起代数几何不变量与机器学习核心问题(样本复杂度、表达能力、训练动力学、隐式偏差)之间的对应字典。

Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks

首个面向神经缩放定律(Neural Scaling Law)的贝叶斯外推方法,通过设计专门的先验分布(覆盖Down/Down-Down/Down-Up-Down三种功能族),利用PFN (Prior-data Fitted Networks) meta-learn外推能力,在点估计精度和不确定性质量上均优于现有方法。

Benign Overfitting in Token Selection of Attention Mechanism

本文首次从理论上证明了注意力机制中 token 选择的良性过拟合现象,表明一层注意力网络通过梯度下降可以完美拟合含噪标签的训练数据,同时在信号学习与噪声记忆之间保持平衡时仍能泛化。

Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

提出 Chameleon 框架,利用 kernel ridge leverage scores(KRLS)在代理模型的嵌入空间中量化各训练域的重要性,以仅 DoReMi 1/10 的计算成本达到同等或更优的数据混合效果,且支持新域引入时无需重训代理模型、统一处理预训练和微调场景。

Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers

通过直方图计数任务,揭示了小型Transformer中注意力层与前馈层之间的精细分工:注意力擅长关系比较(relation-based counting),前馈层负责字典记忆(inventory-based counting),两种策略的出现由嵌入维度 \(d\)、隐层大小 \(p\) 和词表大小 \(T\) 的相对关系决定。

Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning

提出 DRE-BO-SSL,将半监督学习(标签传播/标签扩散)引入密度比估计型贝叶斯优化,通过无标签数据点缓解监督分类器的过度利用(over-exploitation)问题,在探索与利用之间取得更好平衡。

DipLLM: Fine-Tuning LLM for Strategic Decision-Making in Diplomacy

提出 DipLLM,通过自回归分解框架将外交博弈的指数级组合动作空间分解为单元级决策序列,并微调 LLM 学习均衡策略,仅用 Cicero 1.5% 的训练数据即超越其性能。

Does Data Scaling Lead to Visual Compositional Generalization?

本文通过受控实验系统研究了数据规模与数据多样性对视觉模型组合泛化能力的影响,发现组合泛化的关键驱动力是数据多样性而非数据量,并证明当表示呈线性分解结构时仅需每个概念值2个组合样本即可完美泛化。

Evaluating Morphological Alignment of Tokenizers in 70 Languages

扩展 MorphScore 评估框架至 70 种语言,系统研究分词器的形态边界对齐程度与下游任务性能之间的相关性,发现形态对齐仅能解释极少量的性能方差,且呈负相关,挑战了"形态对齐分词有利于模型性能"的主流假设。

查看全部31篇「预训练」论文 →


✏️ 知识编辑 (2)

Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

通过在环形结构知识图谱上训练Transformer的合成实验,发现知识编辑(KE)会"粉碎"模型内部学到的几何表示流形,且粉碎程度与编辑距离正相关(\(r^2=0.905\)),从而提出"表示粉碎"(representation shattering)作为KE损害模型能力的机制性假说,并在Llama 3和Mamba上验证了该现象的普遍性。

WikiBigEdit: Understanding the Limits of Lifelong Knowledge Editing in LLMs

本文提出 WikiBigEdit,一个包含 50 万+ 真实 Wikidata 知识编辑的大规模终身知识编辑基准,揭示了现有知识编辑方法在实际规模下的严重局限性——检索增强和持续微调+模型合并等通用方法反而表现更优。


💬 LLM 其他 (28)

B-score: Detecting biases in large language models using response history

提出B-score指标,通过比较LLM在单轮(single-turn)与多轮(multi-turn)对话中的回答概率差异来检测偏见,发现LLM在多轮对话中能"自我去偏",并利用B-score提升答案验证准确率。

BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute

提出 BEST-Route(Best-of-n Enhanced Sampling and Test-time Route Optimization),在传统查询路由的基础上引入 best-of-n 采样策略,使路由器不仅选择模型,还自适应决定采样数量 n,通过小模型多次采样+选优替代大模型单次调用,在不到 1% 性能损失下降低高达 60% 的推理成本。

Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence

本文通过设计 In-Context Meta-Learning (ICML) 实验环境,揭示了 Transformer 在获得上下文元学习能力的训练过程中,内部电路经历了三个截然不同的阶段性涌现(Bigram → Label Attention → Chunk Example),而非 induction head 研究中观察到的单阶段跃变,从而为理解 ICL 的深层机制提供了新视角。

Binary Hypothesis Testing for Softmax Models and Leverage Score Models

从理论角度研究Softmax模型和Leverage Score模型的二元假设检验问题,建立了在能量约束下区分两个参数化模型所需的查询次数的紧界,与理解LLM不同能力域的区分性问题相关。

Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting

提出 TimeFuse——一个样本级自适应模型融合框架,通过元特征描述输入时间序列特征并训练可学习融合器预测最优模型组合权重,在多个预测基准上对 SOTA 模型实现近乎普遍的改进(95.1% 样本优于最佳单模型)。

Build Agent Advocates, Not Platform Agents

Position paper,指出LMA(语言模型代理)若被平台公司控制将成为加剧监控、锁定和注意力操控的"platform agents",提出应发展用户控制的"agent advocates"来保护个人自主权,并给出三大干预措施:开放模型/算力、互操作性标准、市场监管。

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

提出 DPS(Defense through Partial-Perception Supervision),利用裁剪图像的响应作为"弱监督"来引导全图模型在推理时自我修正,实现无需训练的黑盒 LVLM 视觉攻击防御,平均攻击成功率降低 76.3%。

Expert Evaluation of LLM World Models: A High-Tc Superconductivity Case Study

以高温超导(HTS)领域为案例,构建了专家级数据集(1,726篇论文 + 67道专家问题),系统评估6种LLM系统的科学文献理解能力,发现基于精选文献的RAG系统在事实完整性和证据支持方面显著优于通用闭源模型。

Generalized Interpolating Discrete Diffusion

提出广义插值离散扩散框架 GIDD,将掩码扩散 (MDM) 推广为支持任意时变混合分布的扩散族,通过结合掩码与均匀噪声赋予模型自纠错能力,在扩散语言建模中取得 compute-matched SOTA。

Generative Social Choice: The Next Generation

将生成式社会选择框架扩展至带成本/预算约束和近似查询的场景,提出 DemocraticProcess 算法并给出近乎最优的近似比例代表性理论保证,实现了实用系统 PROSE(基于 GPT-4o)在药物评论和城市治理数据集上验证有效性。

查看全部28篇「LLM 其他」论文 →


📖 NLP 理解 (1)

Cover Learning for Large-Scale Topology Representation

提出 Cover Learning 作为一种统一的无监督学习问题,基于优化的视角设计三项损失函数(测度、几何、拓扑)学习数据集的拓扑忠实覆盖,所得单纯复形在拓扑推断中比标准几何复形更紧凑,在大规模拓扑可视化中比 Mapper 图能表示更高维信息。


✍️ 文本生成 (1)

Understanding and Mitigating Memorization in Diffusion Models for Tabular Data

首次系统研究表格扩散模型中的记忆化现象,发现记忆化随训练轮次增加而加剧且与数据集大小强相关,提出TabCutMix/TabCutMixPlus通过特征段交换缓解记忆化同时保持生成质量。


🗣️ 对话系统 (2)

Investigating Non-Transitivity in LLM-as-a-Judge

揭示了 LLM-as-a-Judge 框架中评判偏好的非传递性问题(A>B, B>C 不能推出 A>C),证明固定基线模型的排名方式不可靠,提出基于循环赛 + Bradley-Terry 模型的排名方法及高效的 Swim 锦标赛策略。

Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents

本文是一篇 Position Paper,通过梳理文献中 aleatoric 和 epistemic 不确定性的多种相互矛盾的定义,论证传统二分法在 LLM 交互场景中根本性失效,并提出 underspecification uncertainty(任务/上下文欠规范)、interactive learning(通过追问减少不确定性)和 output uncertainty(用自然语言而非标量表达不确定性)三个新研究方向。


🌐 多语言/翻译 (1)

KELPS: A Framework for Verified Multi-Language Autoformalization via Semantic-Syntactic Alignment

提出基于断言逻辑的中间表示——知识方程(Knowledge Equation),实现自然语言数学命题到多种形式语言(Lean4/Coq/Isabelle)的规则化翻译,在 MiniF2F 上 pass@1 句法准确率达 88.9%,超越 DeepSeek-V3 和 Herald。


🔍 信息检索/RAG (6)

Don't Lag, RAG: Training-Free Adversarial Detection Using RAG

本文提出 VRAG 框架,通过构建对抗补丁数据库 + 视觉检索增强生成(VRAG)+ VLM 推理的免训练 pipeline,实现对多种对抗补丁攻击的高效检测,Gemini-2.0 达到 98% 准确率,开源模型 UI-TARS-72B-DPO 达 95%。

FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems

FedRAG 提出了一个同时支持集中式和联邦式架构的 RAG 系统微调框架,填补了 RAG 生态系统中缺乏统一微调工具的空白,并通过轻量级抽象实现了从集中式到联邦式训练的无缝转换。

POQD: Performance-Oriented Query Decomposer for Multi-Vector Retrieval

提出 POQD,一个面向性能的查询分解框架,利用 LLM-based Prompt Optimizer 迭代优化查询分解 prompt,并通过交替训练算法联合优化 prompt 和下游 RAG 模型参数,在检索和端到端 QA 任务上大幅超越现有方法。

RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding

提出 RAPID,将 RAG 与 Speculative Decoding 结合:用 RAG drafter(在短检索上下文上运行的 LLM)为长上下文目标 LLM 生成候选 token,并通过推理时知识迁移增强目标分布,在长上下文推理中同时实现 >2× 加速和生成质量提升。

Unable to Forget: Proactive Interference Reveals Working Memory Limits in LLMs Beyond Context Length

借鉴认知科学中的前摄干扰(Proactive Interference)范式,发现LLM的信息检索准确率随干扰信息量呈对数线性下降至零,揭示了一种独立于上下文长度的"工作记忆"容量瓶颈,且提示工程无法有效缓解。

Understanding Synthetic Context Extension via Retrieval Heads

本文通过系统实验揭示了合成上下文扩展(synthetic context extension)为何有效的机制:合成数据训练出的"检索头"(retrieval heads)与真实数据训练出的检索头高度重叠,检索头的召回率可以预测下游长上下文任务的性能,并通过注意力剔除(attention knockout)和激活修补(activation patching)从机制层面证明了检索头的必要性。


💻 代码智能 (9)

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

提出基于模型预测置信度自动划分推理步骤的方法 AdaptiveStep,用于训练更精确的 Process Reward Model(ASPRM),在数学推理和代码生成任务上以不到 70% 的数据构建成本超越现有开源 PRM,并能通过 Token 级引导解码进一步提升推理性能。

EffiCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning

EffiCoder 通过构建“正确且高效”的指令微调数据集 EffiInstruct,让代码大模型在提升 pass@1 的同时显著降低执行时间和总内存开销,证明“效率可以通过数据配方学习出来”。

EpiCoder: Encompassing Diversity and Complexity in Code Generation

提出基于特征树(Feature Tree)的代码数据合成框架,通过从代码中提取层次化语义特征并迭代进化,实现对合成数据复杂度和多样性的精确控制,训练得到的 EpiCoder 系列模型在函数级和文件级代码生成基准上达到同规模 SOTA。

Function-to-Style Guidance of LLMs for Code Translation

提出 F2STrans,通过功能学习(正确性)和风格学习(可读性)两阶段渐进式微调 LLM,使 Qwen-1.5B 在 20 种代码翻译场景中平均超越 prompt 增强的 Qwen-32B 和 GPT-4。

Mind the Gap: A Practical Attack on GGUF Quantization

首次提出针对 GGUF 量化格式的攻击:利用量化误差作为"自由度"训练恶意量化模型,全精度下正常但量化后注入后门,在不安全代码生成(Δ=88.7%)、定向内容注入(Δ=85.0%)和良性拒绝(Δ=30.1%)上有效。

Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

提出 ORPS(Outcome-Refining Process Supervision),通过将代码执行反馈与 LLM 自我批评结合,在树状搜索框架中统一过程奖励与结果奖励,无需训练 PRM 即可在代码生成中实现 26.9% 的正确率提升和 42.2% 的效率提升。

Robust Learning of Diverse Code Edits (NextCoder)

提出合成代码编辑数据生成流水线 + 鲁棒自适应算法 SeleKT(Selective Knowledge Transfer),通过在微调过程中周期性地对任务向量做 top-k 稀疏投影,使模型在获得强代码编辑能力的同时保留原始代码生成与通用推理能力,得到的 NextCoder 系列模型在五个代码编辑基准上超越同规模甚至更大模型。

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

提出 SparseLoRA,通过上下文稀疏性 (contextual sparsity) 动态选择权重子集进行前向/梯度计算,首次将推理时的稀疏加速思路迁移到 LLM 微调阶段,实现最高 2.2× FLOPs 降低和 1.6× 实测加速,同时保持精度。

Training Software Engineering Agents and Verifiers with SWE-Gym

本文提出 SWE-Gym——首个用于训练软件工程 Agent 的环境,包含来自 11 个开源 Python 仓库的 2438 个真实任务实例,通过在 SWE-Gym 上进行拒绝采样微调训练 SWE Agent 和 Verifier,在 SWE-Bench Verified/Lite 上最终达到 32.0%/26.0% 的解决率,创造了开源权重 SWE Agent 的新 SOTA。


🎨 图像生成 (92)

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

本文提出将预训练生成模型(扩散模型和流匹配)的 score 函数解释为随机动力学中的漂移项,通过最小化 Onsager-Machlup (OM) 作用泛函来零样本复用预训练模型进行分子系统的过渡路径采样 (TPS),在丙氨酸二肽、快速折叠蛋白等系统上以远低于传统方法的计算成本获得了物理真实的过渡路径。

All-atom Diffusion Transformers: Unified Generative Modelling of Molecules and Materials

提出 All-atom Diffusion Transformer (ADiT),通过 VAE 将分子和晶体映射到统一潜空间、再用 Diffusion Transformer 在潜空间生成的两阶段框架,首次实现单一模型同时生成周期性材料(晶体)和非周期性分子系统,在 MP20、QM9、GEOM-DRUGS 上达到 SOTA,且比等变扩散模型快一个数量级。

Angle Domain Guidance: Latent Diffusion Requires Rotation Rather Than Extrapolation

发现 Classifier-Free Guidance (CFG) 导致颜色失真的根本原因是潜空间样本范数被放大,提出 Angle Domain Guidance (ADG) 算法——在角度域而非幅度域增强引导,约束范数变化的同时优化角度对齐,在高引导权重下消除颜色饱和度异常并保持甚至改善文本-图像对齐。

Annealing Flow Generative Models Towards Sampling High-Dimensional and Multi-Modal Distributions

提出 Annealing Flow (AF)——基于连续归一化流(CNF)的高维多模态分布采样方法,用动态最优传输(OT)目标配合 Wasserstein 正则化训练,通过退火过程引导模式探索,在高维多模态设置中大幅优于现有 NF 和 MCMC 方法。

Autoencoder-Based Hybrid Replay for Class-Incremental Learning

提出基于自编码器的混合重放策略(AHR),利用混合自编码器(HAE)将样本压缩存储在潜空间中而非原始输入空间,结合带电粒子系统能量最小化(CPSEM)和斥力算法(RFA)增量嵌入新类质心,在最坏情况下将内存复杂度从 \(\mathcal{O}(t)\) 降低到 \(\mathcal{O}(0.1t)\),同时保持 SOTA 性能。

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

提出偏好嵌入(Preference Embedding)——将响应嵌入到多维潜空间中捕捉复杂偏好结构(包括不可传递偏好),实现 \(O(K)\) 的查询复杂度(与 BT 模型相同但表达力更强),配合 General Preference Optimization (GPO) 在 RewardBench 和 AlpacaEval2.0 上超越 BT 奖励模型。

Beyond One-Hot Labels: Semantic Mixing for Model Calibration

提出 CSM(Calibration-aware Semantic Mixing)——利用预训练扩散模型生成高保真的语义混合样本(如猫-狗混合体),并通过 CLIP 重标注精确的软标签置信度,用 \(L_2\) 损失训练实现比现有校准方法更优的模型置信度校准。

BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling

提出 Bridge 框架,通过 LLM 多智能体系统生成高质量文本-时序配对数据,并利用语义原型与文本描述的混合提示驱动扩散模型,实现跨域、实例级别的文本控制时序生成(Text-Controlled TSG),在12个数据集中11个取得SOTA。

Broadband Ground Motion Synthesis by Diffusion Model with Minimal Condition

提出 HEGGS(High-fidelity Earthquake Groundmotion Generation System),利用地震数据集中波形天然可配对的特性,结合条件隐扩散模型与 ACM 振幅校正模块,仅需最少条件信息(经纬度、震源深度、震级)即可端到端生成高保真三分量地震波形。

Compositional Scene Understanding through Inverse Generative Modeling

本文提出逆生成建模(IGM)框架,将场景理解任务转化为在组合式生成模型中寻找最优条件参数的反演问题,通过将多个小型扩散模型组合来表示复杂场景,实现了强分布外泛化能力,并可直接利用预训练文生图模型进行零样本多目标感知。

查看全部92篇「图像生成」论文 →


🎬 视频生成 (7)

AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration

提出 AsymRnR——一种免训练的视频 DiT 加速方法,基于注意力中不同组件(Q/K/V)、不同层、不同去噪步骤的冗余程度不同的观察,非对称地削减 token 以实现无损加速。

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

提出 Ca2-VDM,通过因果生成(Causal Generation)和缓存共享(Cache Sharing)两大设计,消除自回归视频扩散模型中条件帧的冗余计算,将计算复杂度从二次降至线性,生成 80 帧视频速度比基线快 2.5 倍,同时保持 SOTA 级生成质量。

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

提出 Data-Juicer Sandbox 沙箱套件,通过"探测-分析-精炼"(Probe-Analyze-Refine) 工作流,在低成本小规模实验中系统探索数据处理算子 (OP) 与模型性能的交互关系,将获得的数据配方迁移到大规模场景,在 VBench 排行榜取得第一名。

Diffusion Adversarial Post-Training for One-Step Video Generation

提出对抗式后训练(Adversarial Post-Training, APT)框架,通过在扩散模型预训练后引入对抗训练阶段,实现单步生成高质量视频(2秒、1280×720、24fps),模型名为Seaweed-APT。

How Far is Video Generation from World Model: A Physical Law Perspective

通过构建严格遵循经典力学定律的2D物理模拟视频数据集,系统性评估视频生成模型是否能从纯视觉数据中发现物理规律,揭示当前模型仅能记忆训练分布内的模式而无法泛化到新的物理条件。

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

基于 Stable Video Diffusion 构建姿态引导人体视频生成框架,通过将姿态估计置信度编码进引导信号、对高置信手部区域放大训练损失、以及位置感知的渐进式潜变量融合三项设计,在 TikTok 数据集上 FID-VID 达 9.3(前最优 12.4),同时支持任意长度平滑视频生成。

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

通过系统分析RoPE位置编码中各频率分量的角色,发现存在一个"固有频率"主导外推时的时间重复行为,提出仅降低该频率使其在外推后保持单周期的最小化方案RIFLEx,在CogVideoX-5B和HunyuanVideo上实现无训练2×高质量视频外推。


🧩 多模态 VLM (42)

CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization

提出 CoCoA-Mix 框架,通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型,在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。

CoMemo: LVLMs Need Image Context with Image Memory

提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆,结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减,通过三阶段训练策略平衡双路径,在同等设置下全面超越LVLM-S和LVLM-X。

Context is Key: A Benchmark for Forecasting with Essential Textual Information

提出 Context is Key(CiK)基准——71个手工设计的预测任务横跨7个领域,每个任务必须结合数值历史和自然语言上下文才能准确预测,同时提出 RCRPS 评估指标和 Direct Prompt 方法,发现 Llama-3.1-405B 的简单提示方法(RCRPS=0.159)大幅领先所有统计模型和时序基础模型。

Core Knowledge Deficits in Multi-Modal Language Models

提出 CoreCognition 基准(12种核心认知能力、1503题),大规模评测230个MLLM后发现:模型在基础认知能力上系统性落后于人类,且随规模增大并未改善,而是更依赖捷径学习而非真正理解。

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

提出了一个在任意状态空间上构建多模态扩散模型的统一框架,通过为每种模态引入独立的解耦噪声调度(decoupled noise schedule),在单个模型中同时实现无条件生成和模态条件生成,无需外部的 tokenizer 或 VAE 预处理。

Do Vision-Language Models Really Understand Visual Language?

本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。

Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning

本文提出 D-MoLE 方法,通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略,在参数预算约束下自动演化 MLLM 架构以持续适配新任务,相比最优基线平均提升 15%。

Efficient Quantification of Multimodal Interaction at Sample Level

提出 LSMI(Lightweight Sample-wise Multimodal Interaction)估计器,首次实现了对真实世界连续分布数据的逐样本级别多模态交互(冗余、唯一性、协同)精确且高效的量化,并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。

ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs

提出 ERL-VLM,用大型视觉语言模型(VLM)对单条轨迹做绝对评分(rating)而非成对比较(preference),结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题,显著提升 VLM 反馈驱动的奖励函数学习效果。

查看全部42篇「多模态 VLM」论文 →


🧠 VLM Reasoning (5)

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

提出 DiffusionVLA (DiVLA),将自回归 VLM 的推理能力与扩散模型的动作生成能力统一到一个端到端框架中,通过推理注入模块(Reasoning Injection Module)将自生成的语言推理直接嵌入策略学习过程,实现了对未见物体的泛化分类、可解释的动作决策以及高速推理(2B 模型 82Hz)。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出一种可扩展的贝叶斯心智理论(ToM)规划器,通过将多步推理分解为逐步贝叶斯更新,并利用弱到强控制机制将小模型的 ToM 专项能力迁移至大模型(最高 405B),在多模态 ToM 基准上超越 SOTA 4.6%。

Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

提出 RCTS 框架,通过自一致性评估机制构建推理上下文丰富的知识库,并用带启发式奖励的蒙特卡罗树搜索(MCTS-HR)重排检索示例,使 LVLM 在多个 VQA 数据集上显著超越 ICL 和 Vanilla-RAG 方法(平均 +3-4%)。

Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems

系统评估4个闭源+4个开源MLLM在经典合成Bongard Problems、Bongard HOI、Bongard-OpenWorld三个数据集上的抽象视觉推理能力,提出7种解题策略和新数据集Bongard-RWR(用真实图像表达合成BP概念),揭示MLLM在合成BP上的极差表现并非因域差异而是固有的抽象推理局限。

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

从机制可解释性视角研究 VLM 空间推理失败的原因,发现图像 token 虽占输入 90% 但仅获 10% 注意力,且注意力的几何分布才是关键;提出 AdaptVis——基于推理时置信度自适应调整图像注意力温度的无训练解码方法,在 WhatsUp 上实现高达 50% 绝对提升。


⚡ VLM Efficiency (3)

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

首次揭示 VLM 中 token 稀疏与神经元稀疏之间的内在关联——核心神经元与核心 token 相互决定、相互强化,并据此提出 CoreMatching 协同稀疏推理框架,在 pre-filling 和 decoding 两阶段同时实现加速,达到 5× FLOPs 降低和 10× 整体加速。

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

本文提出 MMInference,通过“模态感知的置换稀疏注意力 + 头级离线模式搜索 + 在线动态索引 + 定制 GPU Kernel”,在不改模型不微调的前提下,将长上下文 VLM 的 prefill 阶段在 1M token 场景最高加速到 8.3x,同时尽量保持任务精度。

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架,通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性,结合自适应剪枝比率和 token 回收机制,在 LLaVA 上仅保留 192 个 token(减少 66.7%)时维持 99.1% 的原始性能。


🎵 音频/语音 (15)

Aligning Spoken Dialogue Models from User Interactions

首次为全双工语音对话模型(Moshi)设计完整的偏好对齐框架,从15万+条真实用户语音对话中自动构建内容+时序两类偏好对,通过仅在文本token上做DPO-LN对齐,QA平均提升3.1%、安全性提升6.9%,并通过人类评估确认多轮对话质量的改善。

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

提出 BinauralFlow,一个基于条件 Flow Matching 的流式双耳语音合成框架,通过因果 U-Net 架构和连续推理管线实现高保真、可流式生成的双耳音频,感知测试中 42% 的混淆率表明生成结果几乎无法与真实录音区分。

Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition

本文提出 LatentVoiceMix,在语音转换模型 Diff-HierVC 的说话人风格编码器潜在空间中进行 mixup 插值,生成具有新颖声音特征的合成语音数据用于增强 ASR 训练,在低资源语言 Wolof 上取得了优于波形增强、频谱增强和标准语音转换的 WER 改善效果。

Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech

首次提出零样本TTS中的说话人身份遗忘任务,设计了Teacher-Guided Unlearning (TGU) 框架,通过引入随机性使模型"忘记"目标说话人的声纹特征,同时保持对其他说话人的高质量语音合成能力,并提出 spk-ZRF 指标量化遗忘效果。

ETTA: Elucidating the Design Space of Text-to-Audio Models

ETTA 通过大规模系统性实验阐明了文本到音频(TTA)模型的设计空间(数据、架构、训练目标、采样策略),并基于分析结论构建了当前公开数据下最优的 TTA 模型。

FLAM: Frame-Wise Language-Audio Modeling

提出 FLAM,一个帧级音频-语言对比模型,通过文本依赖的 logit 偏置校正和百万级合成 SED 数据集,实现开放词汇声音事件的精确时间定位,同时保持全局检索和零样本分类性能。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

提出 IMPACT 框架,将迭代掩码并行解码(MGM)与潜在扩散模型(LDM)结合,在连续潜在空间中进行文本到音频生成,以轻量 MLP 扩散头替代重型注意力层,同时引入无条件预训练阶段,在 AudioCaps 上取得 FD/FAD 指标 SOTA 且推理速度与最快的 MAGNET-S 相当。

Long-Form Speech Generation with Spoken Language Models

提出 SpeechSSM,首个能在单次解码会话中学习和生成长达 16 分钟语音的 textless 语音语言模型,利用 Griffin 混合 SSM 架构实现常量内存解码和无限上下文,并引入 LibriSpeech-Long 评估基准和新的嵌入/LLM 评判指标。

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

提出 MuseControlLite,通过在解耦交叉注意力层中引入旋转位置编码(RoPE),以仅 85M 可训练参数(比 ControlNet 少 6.75 倍)实现对文本到音乐生成的精确时变条件控制,同时首次统一支持音乐属性控制与音频修复/续写。

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction

提出 Next-Token-Pair Prediction (NTPP) 范式,首次用 decoder-only 架构对双通道语音对话进行 speaker-independent 联合分布建模,实现更自然的轮次转换、更低的推理延迟和更强的说话人无关性。

查看全部15篇「音频/语音」论文 →


🧊 3D 视觉 (17)

ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization

将DPO思想引入扩散式人体网格恢复(HMR):训练HMR-Scorer评估预测质量,构建偏好数据集(winner/loser对),用DPO微调基座扩散模型,无需3D标注即可提升in-the-wild图像上的HMR性能。

D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

本文提出 D-Fusion 方法,通过 mask 引导的自注意力融合(Self-Attention Fusion)构建视觉一致的偏好数据对并保留去噪轨迹,解决了 DPO 训练扩散模型时因视觉不一致导致效果受限的问题,在多种 RL 算法和 prompt 类型上显著提升了 prompt-image 对齐质量。

Diverse Prototypical Ensembles Improve Robustness to Subpopulation Shift

提出 Diversified Prototypical Ensemble (DPE),用多个多样化的原型分类器替换标准线性分类头,通过显式(inter-prototype similarity loss)和隐式(bootstrap 采样)两种多样化策略,在不需要子群标注的情况下自适应发现子群决策边界,显著提升 worst-group accuracy。

FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields

提出 FlowDrag,从图像构建 3D 网格后利用渐进式 SR-ARAP 变形生成连续 2D 向量流场,将全局几何先验注入扩散模型的 motion supervision 过程,在 DragBench(MD=22.88)和新提出的 VFD-Bench(PSNR=18.55, 1-LPIPS=0.82, MD=28.23)上全面领先。

FreeMesh: Boosting Mesh Generation with Coordinates Merging

提出 Per-Token-Mesh-Entropy(PTME)度量来免训练评估网格tokenizer质量,并引入从NLP借鉴的 Rearrange & Merge Coordinates(RMC)坐标合并技术,在 MeshXL/MeshAnythingV2/EdgeRunner 三种tokenizer上实现最高21.2%的压缩率、显著增加可生成面片数和几何细节保留。

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model

提出 GAPrompt,针对预训练 3D 视觉模型的几何感知 PEFT 方法,通过可学习点云提示 (Point Prompt)、点偏移提示器 (Point Shift Prompter) 和提示传播 (Prompt Propagation) 三个模块协同利用点云几何信息,仅训练 2.19% 参数即可匹配甚至超越全量微调。

High Dynamic Range Novel View Synthesis with Single Exposure

首次提出仅使用单曝光LDR图像进行HDR新视角合成(HDR-NVS)的问题设定,并设计了一个基于相机成像原理的元算法框架Mono-HDR-3D,通过LDR→HDR颜色转换器(L2H-CC)和HDR→LDR闭环转换器(H2L-CC)实现无HDR监督下的HDR场景建模。

Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents

系统比较真实小鼠与RL智能体在捕食者-猎物迷宫中的行为差异,发现RL缺乏自我保护本能,提出创伤启发安全缓冲(TISB)和方差惩罚TD学习(VP-TDMPC-2)两种机制,将智能体与小鼠的状态访问重叠率从20.9%提升至86.1%。

PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views

PhysicsNeRF 提出了一个基于物理先验的稀疏视角 NeRF 框架,通过深度排序、跨视角一致性、稀疏性正则和渐进训练四种互补约束,在仅 8 个视角下实现 21.4 dB 的 PSNR,并对稀疏视角下过拟合的本质进行了深入的理论分析。

Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes

NPISeg3D提出了首个基于层次化神经过程(Hierarchical Neural Processes)的概率交互式3D分割框架,通过场景级和物体级双层潜变量结构以及概率原型调制器,在少量点击下实现了优于AGILE3D的分割精度,同时提供可靠的不确定性估计。

查看全部17篇「3D 视觉」论文 →


🎯 目标检测 (12)

BlueGlass: A Framework for Composite AI Safety

提出 BlueGlass 复合 AI 安全框架,通过统一基础设施整合分布式评估、近似探针和稀疏自编码器三种安全分析工具,对视觉语言模型(VLM)在目标检测任务上的能力边界、层级动态和内部概念表示进行系统性安全分析。

Causality-Aware Contrastive Learning for Robust Multivariate Time-Series Anomaly Detection

提出 CAROTS——将因果关系融入对比学习的多变量时间序列异常检测框架,用因果保持增强作为正样本(正常变化),因果破坏增强作为负样本(模拟异常),训练编码器基于因果结构区分正常与异常。

CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering

将立体匹配/光流估计中的代价体滤波(cost volume filtering)思想引入无监督异常检测(UAD),构造输入与模板之间的匹配代价体,并通过3D U-Net 加双流注意力引导进行去噪滤波,作为通用后处理插件可同时提升重建型和嵌入型 UAD 方法的性能,在 MVTec-AD 和 VisA 上取得 SOTA。

Few-Shot Learner Generalizes Across AI-Generated Image Detection

首次将 AI 生成图像检测重新定义为少样本分类任务,提出 FSD (Few-Shot Detector) 基于原型网络学习度量空间,仅用 10 个来自未见生成模型的样本,在 GenImage 数据集上平均准确率达 84.1%,超越此前 SOTA (LARE2) +11.6%。

FG-CLIP: Fine-Grained Visual and Textual Alignment

FG-CLIP 系统性地解决 CLIP 细粒度理解的三大瓶颈:用 1.6B 长描述-图像对捕获全局语义细节,12M 图像+40M 区域标注实现精细区域对齐,10M 硬负样本训练模型区分微妙语义差异,在细粒度理解、开放词汇检测、图文检索等多项任务上取得全面领先。

KAN-AD: Time Series Anomaly Detection with Kolmogorov-Arnold Networks

KAN-AD 将时间序列异常检测重新建模为用光滑单变量函数逼近序列,用截断傅里叶展开替代 KAN 中的 B 样条避免局部扰动敏感性,以不到 1000 个参数在 4 个基准上平均提升 15% 检测精度。

Open-Det: An Efficient Learning Framework for Open-Ended Detection

Open-Det 提出了一个高效的开放端目标检测(OED)框架,通过重构目标检测器(解耦 one-to-many/one-to-one 匹配)、引入 VL-prompts 蒸馏模块桥接视觉-语言语义鸿沟、LoRa Head + Text Denoising 加速 LLM 训练、以及 Masked Alignment Loss 消除矛盾监督,仅用 GenerateU 1.5% 的训练数据和 20.8% 的训练 epoch 就取得了更高的检测性能(APr +1.0%)。

Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models

提出 Outlier Gradient Analysis (OGA),将影响函数中识别有害训练样本的问题转化为梯度空间上的异常点检测,绕开了 Hessian 矩阵求逆的高计算开销,同时在噪声标签校正、NLP 数据筛选和 LLM 影响力数据识别等任务上取得优于传统影响函数方法的效果。

Self-Organizing Visual Prototypes for Non-Parametric Representation Learning

提出 Self-Organizing Prototypes (SOP) 策略,用多个语义相似的支持嵌入(support embeddings)替代传统 SSL 中单一原型来表示特征空间的局部区域,并引入非参数化 MIM 任务,在检索、检测、分割等下游任务上取得 SOTA 表现。

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

提出 UI-Vision——首个面向桌面环境的综合离线评估基准,覆盖 83 个软件应用,提供密集的 bounding box、UI 标签和操作轨迹标注,定义从细粒度到粗粒度的三级评估任务(Element Grounding → Layout Grounding → Action Prediction),系统评估并揭示 SOTA 模型在专业软件理解、空间推理和复杂操作上的关键短板。

查看全部12篇「目标检测」论文 →


✂️ 语义分割 (18)

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

提出 ActionPiece,首个上下文感知的动作序列分词器,将用户行为序列建模为"特征集合的序列",通过类 BPE 的合并策略在集合内部和相邻集合之间发现高频特征模式,使同一动作在不同上下文中被分词为不同 token,显著提升生成式推荐性能。

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

提出 ActionPiece,首个上下文感知的动作序列分词方法,将每个动作表示为无序特征集合,通过加权共现统计在集合内和相邻集合间学习合并规则构建词表,使同一动作在不同上下文中被分词为不同token,在推荐任务中显著提升生成式推荐的准确性。

Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation

本文发现 adapter 天然具有领域信息解耦能力(基于结构而非损失),据此提出 Domain Feature Navigator (DFN) 作为结构化领域解耦器,配合 SAM-SVN 防止源域过拟合,在跨域少样本语义分割 (CD-FSS) 上以 1-shot 平均 63.99% / 5-shot 平均 69.77% MIoU 显著超越 SOTA。

Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery

提出首个大规模油气井检测基准数据集 Alberta Wells Dataset(213k+ 井位、188k+ 卫星图像 patch),将废弃/暂停/活跃油气井的定位问题建模为二值分割和目标检测任务,并评估了多种 CNN 和 Transformer 基线模型。

Balanced Learning for Domain Adaptive Semantic Segmentation

提出 BLDA——通过分析网络预测的 logit 分布来直接量化类别偏差程度,用共享锚点分布对齐各类 logit 分布实现后处理校准,同时在自训练中用 GMM 在线估计并修正 logit 生成无偏伪标签,在 GTA→CS 和 SYN→CS 两个基准上为多种基线方法带来一致提升。

ConText: Driving In-context Learning for Text Removal and Segmentation

首次将视觉上下文学习(V-ICL)范式应用于OCR任务,提出任务链式提示(task-chaining prompting)、上下文感知聚合(CAA)和自提示策略(self-prompting)三项关键设计,在文本去除和分割任务上大幅超越现有V-ICL通用模型和专用模型,分别取得 +4.50 PSNR 和 +3.34% fgIoU 的提升。

Dual form Complementary Masking for Domain-Adaptive Image Segmentation

提出 MaskTwins 框架,将掩码重建理论化为稀疏信号重建问题,证明互补掩码对(dual form complementary masks)在提取域无关特征方面具有理论优势,并在端到端训练中通过互补掩码一致性约束实现域自适应分割。

Efficient and Robust Semantic Image Communication via Stable Cascade

基于 Stable Cascade 架构构建语义图像通信框架,利用 EfficientNet-V2 提取极紧凑图像嵌入(仅占原始大小 0.29%)作为 LDM 条件,通过噪声鲁棒微调使系统在低 SNR 信道下仍能忠实重建图像,同时实现 3-16 倍推理加速。

FeatSharp: Your Vision Model Features, Sharper

提出 FeatSharp,通过将 FeatUp 的联合双边上采样(JBU)与图像瓦片(tiling)特征进行注意力融合,以极低成本将低分辨率视觉编码器的特征图连贯地上采样到高分辨率,同时捕获原始分辨率下丢失的细粒度细节。

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

提出 InfoSAM,从信息论角度为 SAM 的参数高效微调(PEFT)设计了基于 Rényi 互信息的关系压缩与蒸馏框架,通过压缩伪不变信息、保留域不变关系来提升微调效果。

查看全部18篇「语义分割」论文 →


🖼️ 图像恢复 (5)

Adaptive Estimation and Learning under Temporal Distribution Shift

提出基于小波软阈值的估计算法,在无需先验知识的情况下实现时间分布偏移下的最优逐点估计误差界,将序列非平稳性与小波域稀疏性建立联系,并应用于分布偏移下的二分类和全变分去噪问题。

ε-VAE: Denoising as Visual Decoding

提出 ε-VAE,将传统自编码器中的单步确定性解码器替换为扩散/去噪过程,实现"去噪即解码"(Denoising as Decoding),在相同压缩率下重建质量提升 40%、下游生成质量提升 22%,或在保持生成质量的同时通过提高压缩率实现 2.3 倍推理加速。

Evaluating Deepfake Detectors in the Wild

构建包含50万+高质量deepfake图像的新数据集,通过引入JPEG压缩、降分辨率、图像增强等真实场景增强,系统评估6种开源deepfake检测器,揭示不到一半检测器AUC>60%,最低仅约50%(随机水平)。

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

提出 HarmoniCa 框架,通过 Step-Wise Denoising Training (SDT) 和 Image Error Proxy-Guided Objective (IEPO) 两大设计解决现有学习型特征缓存方法中训练与推理不对齐的问题,在 PixArt-α 等 8 种模型上实现超 40% 延迟降低(2.07× 理论加速)且不损失生成质量。

TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation

提出 TimeDART,将自回归建模与去噪扩散过程统一在一个自监督预训练框架中,通过因果 Transformer 编码器捕获长期动态演化、patch 级扩散去噪捕获细粒度局部模式,在预测和分类任务上均超越现有方法。


🛰️ 遥感 (7)

Causal Foundation Models: Disentangling Physics from Instrument Properties

提出因果驱动的基础模型,通过双编码器架构和结构化对比学习从天文时间序列中解耦物理信号和仪器效应,利用自然存在的观测三元组(同一目标不同仪器/同一仪器不同目标),在低数据场景下显著优于单一潜空间方法。

ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts

提出 ExPLoRA,通过解冻 1-2 个 ViT block 并对其余层施加 LoRA,以参数高效的方式在目标域上继续自监督预训练,在遥感等域偏移场景下以 <10% 参数量超越从头全量预训练的 SOTA。

High-Resolution Live Fuel Moisture Content (LFMC) Maps for Wildfire Risk from Multimodal Earth Observation Data

利用预训练多模态地球观测模型 Galileo 微调生成 10 米分辨率的活体燃料含水量(LFMC)地图,相比随机初始化模型 RMSE 降低 20%+,并通过 2025 年洛杉矶野火案例验证了管线的实用性。

LIGHTHOUSE: Fast and Precise Distance to Shoreline Calculations from Anywhere on Earth

提出了一个全球10米分辨率的海岸线数据集和毫秒级查询库 Lighthouse,通过融合 ESA WorldCover 与 OpenStreetMap 数据,结合分层 BallTree + 球面 Voronoi 索引实现仅需1 CPU/2GB RAM的实时海岸距离查询,精度比已有数据集提升100倍以上。

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

提出 MapEval 基准,通过 700 道涵盖文本、API 和视觉三类任务的多选题,系统评估 30 个基础模型在地图场景下的地理空间推理能力,发现最强模型准确率不超过 67%,且所有模型落后人类表现 20% 以上。

Neural Augmented Kalman Filters for Road Network Assisted GNSS Positioning

提出用时序图神经网络(TGNN)将开源道路网络信息集成到 GNSS 卡尔曼滤波中——TGNN 在图结构上预测最可能的道路段并动态估计其不确定性,在真实城市数据中 P95 定位误差从 77.23m 降至 55.02m(降幅 29%)。

Resampling Augmentation for Time Series Contrastive Learning: Application to Remote Sensing

论文提出一种面向时间序列对比学习的重采样增强(resampling augmentation),通过“上采样 + 不相交子序列抽取 + 对齐回原时间轴”构造正样本对,在多项 SITS 农业分类任务上优于常见增强策略,并在 S2-Agri100 上取得领先结果。


🧑 人体理解 (3)

How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects

本文首次提出一个统一框架,通过为 Truebones Zoo 数据集(70+ 物种)标注文本描述、引入 rig augmentation 技术以及在 Motion Diffusion Model 中融入 TreePE 和 RestPE 编码,实现了面向大词汇量异构骨骼对象的文本驱动动作生成,可为动物、恐龙乃至虚构生物合成高质量 3D 动作。

LLaVA-ReID: Selective Multi-Image Questioner for Interactive Person Re-Identification

本文定义了交互式行人重识别(Inter-ReID)新任务,构建了 Interactive-PEDES 多轮对话数据集,并提出 LLaVA-ReID——一个基于选择性多图像上下文和前瞻性监督的大多模态问题生成模型,通过迭代对话逐步细化目标人物描述。

Scaling Large Motion Models with Million-Level Human Motions

本文提出 MotionLib(首个百万级运动数据集,120 万条序列)、MotionBook(无损特征 + 2D 无查找运动分词器)和 Being-M0(大型运动模型),首次在运动生成领域展示了数据和模型规模的 scaling law。


📹 视频理解 (4)

Fine-Grained Captioning of Long Videos through Scene Graph Consolidation

提出 SGVC 框架,通过将视频各段的文本描述解析为场景图、用 Hungarian 算法迭代合并为统一图表示、再用轻量图到文本解码器生成视频级描述,以极低计算开销实现了超越 LLM-based 方法的零样本长视频描述性能。

MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition

提出 MoMa 框架,通过序列调制操作 (SeqMod) 将 Mamba 的线性复杂度 SSM 以 scale-bias 方式注入冻结的 CLIP Transformer,实现高效全时空动态建模,在多个视频识别基准上以更少计算量达到 SOTA 水平。

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

ViLaMP 提出差分蒸馏 (Differential Distillation) 原则,通过层次化的帧级差分关键帧选择 (DKS) 和 patch 级差分特征融合 (DFM) 两种机制实现"混合精度"视频处理——关键帧保留全部视觉 token,非关键帧压缩为单个 token,成功在单张 A100 GPU 上处理长达 10K 帧(约 2.7 小时)的超长视频。

Unifying Specialized Visual Encoders for Video Language Models

MERV 提出了多编码器视频表示方法,将四种专长不同的视觉编码器(DINOv2、ViViT、SigLIP、LanguageBind)通过时空对齐和跨注意力融合整合到单一 VideoLLM 中,在视频推理基准上比基线 Video-LLaVA 提升最高 4.62%,并验证了不同编码器的互补专长。


🚗 自动驾驶 (10)

Don't be so Negative! Score-based Generative Modeling with Oracle-assisted Guidance

提出 Gen-neG 方法,通过迭代地在扩散模型的合成数据上训练贝叶斯最优分类器并用其引导采样,将生成分布从约束违规区域引导至正支撑域。关键创新在于正确处理类先验概率的重要性采样,交通场景生成中碰撞+越界率从 29.3% 降至 5.6%。

DriveGPT: Scaling Autoregressive Behavior Models for Driving

提出 DriveGPT,一个 1.4B 参数的自回归 Transformer 驾驶行为模型,在 1.2 亿真实驾驶片段上训练(比现有最大数据集多 50x),首次系统建立驾驶行为建模的数据/模型/计算缩放定律,验证数据是性能瓶颈,在规划和 WOMD 预测任务上超越 SOTA。

Geometry-to-Image Synthesis-Driven Generative Point Cloud Registration

提出 Generative Point Cloud Registration 新范式,设计 DepthMatch-ControlNet 和 LiDARMatch-ControlNet 两个配准专用可控 2D 生成模型,从纯几何点云对生成跨视图一致的 RGB 图像对,通过几何-颜色特征融合即插即用地提升现有 3D 配准方法,在 3DMatch/ScanNet/Dur360BEV 上验证有效。

GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction

首次将最大熵逆强化学习框架与向量化场景表示相融合,提出 GoIRL 轨迹预测框架:通过可学习的 Feature Adaptor 将图特征聚合到网格空间以适配 IRL,再用层级参数化轨迹生成器(Bézier曲线+精细化模块)和 MCMC 概率融合机制实现多模态轨迹预测,在 Argoverse 和 nuScenes 上达到 SOTA 并展现出相比监督模型显著更强的泛化能力。

Hierarchical and Collaborative LLM-Based Control for Multi-UAV Motion and Communication in Integrated Terrestrial and Non-Terrestrial Networks

提出一种基于 LLM 的层次化协作控制框架,通过 HAPS 端部署的元控制器 LLM 和 UAV 端部署的边缘控制器 LLM 的双层协同,实现多 UAV 在 3D 空中高速公路场景下的运动规划与通信接入联合优化。

Hybrid Quantum-Classical Multi-Agent Pathfinding

提出首个最优混合量子-经典MAPF算法QP和QCP,将MAPF的路径选择问题转化为可在量子硬件上求解的QUBO子问题,通过冲突图+列生成框架实现理论最优性,在真实量子硬件上验证可行性。

InfoCons: Identifying Interpretable Critical Concepts in Point Clouds via Information Theory

提出 InfoCons 框架,将信息瓶颈(IB)原理应用于点云模型解释——通过学习一个注意力瓶颈网络来分解点云为不同重要性的 3D 概念,引入可学习的无偏先验替代固定先验,在保证对模型预测忠实(faithfulness)的同时生成概念连贯(conceptual cohesion)的解释。

R3DM: Enabling Role Discovery and Diversity Through Dynamics Models in Multi-agent Reinforcement Learning

提出 R3DM 框架,通过最大化智能体角色、历史轨迹与未来预期行为之间的互信息,利用动力学模型驱动的内在奖励实现角色多样性与协调性的平衡,在 SMAC/SMACv2 环境中将胜率提升最高 20%。

SafeMap: Robust HD Map Construction from Incomplete Observations

SafeMap 提出了一个即插即用的鲁棒高精地图构建框架,通过高斯采样视角重建(G-PVR)和蒸馏式 BEV 校正(D-BEVC)两个模块,在相机视角缺失的不完整观测条件下仍能准确构建矢量化高精地图。

SPHINX: Structural Prediction using Hypergraph Inference Network

提出SPHINX无监督超图推断模型——将超边发现建模为序列化软聚类问题,用k-subset可微采样产生离散稀疏超图结构,可插入任意超图神经网络,在合成数据上超图重建达90%重叠率、在NBA轨迹预测和3D物体分类上超越现有方法。


🤖 机器人/具身智能 (20)

Action-Constrained Imitation Learning

形式化了"动作约束模仿学习(ACIL)"新问题——受限Agent从无约束专家学习,提出DTWIL通过MPC+DTW距离生成替代性约束轨迹来消除占用度量失配,在多种机器人任务上显著优于基线。

Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning

提出首个在分布式 RL 框架内优化一般静态谱风险度量(SRM)的算法,超越了仅限于简单 CVaR 的现有方法,通过利用回报分布实现闭式外层优化和中间风险度量的时间分解,在多种风险设置中超越现有风险敏感 DRL 模型。

BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly

提出 BiAssemble 框架,通过学习感知双臂协作的点级可供性(affordance),将几何装配任务分解为抓取→对齐→装配三步,在破碎物体重组任务上超越现有可供性和模仿学习方法,并在真实世界基准上验证。

Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling

将 LLM 的自精炼规划过程建模为不动点问题(深度均衡模型),通过隐式微分实现端到端监督训练,无需额外验证器或 RL,并设计嵌套均衡求解实现闭环长程机器人规划。

CommVQ: Commutative Vector Quantization for KV Cache Compression

提出 CommVQ——通过可加向量量化压缩 KV cache,创新性地设计与 RoPE 可交换的码本并用 EM 算法训练,在 2-bit 下几乎无损、1-bit 下仍保持可用精度,使 LLaMA-3.1 8B 在单张 RTX 4090 上支持 128K 上下文。

Efficient Robotic Policy Learning via Latent Space Backward Planning

提出潜在空间反向规划(LBP),从最终目标出发递归预测越来越接近当前状态的中间子目标,在保持任务对齐的同时大幅提升规划效率,在 LIBERO-LONG 仿真和真实机器人长时域任务上达到 SOTA。

Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples

提出 Flow of Reasoning (FoR),将多步 LLM 推理建模为 DAG 上的马尔可夫流,借助 GFlowNet 的轨迹平衡目标微调 LLM,使其仅用极少训练样本(如15个)即可采样出概率正比于奖励的多条高质量且多样化的推理路径。

FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making

提出 FOUNDER 框架,通过学习映射函数将 Foundation Model (FM) 的多模态任务表示对齐到 World Model (WM) 的状态空间,结合时间距离预测器生成奖励信号,实现无需环境奖励的开放式多任务具身决策。

Geometric Contact Flows: Contactomorphisms for Dynamics and Control

提出 Geometric Contact Flows (GCF),利用黎曼几何和接触几何作为归纳偏置,通过接触微分同胚(contactomorphisms)将具有稳定性/能量守恒等期望性质的潜在接触哈密顿动力学映射到目标动力学,同时利用集成不确定性驱动测地线实现鲁棒泛化和避障。

Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning

提出 Annealed Q-learning (AQ-L),通过期望分位损失(expectile loss)的参数 τ 从接近1退火至0.5,实现从 Bellman 最优算子到 Bellman 算子的平滑过渡,在连续动作空间中既加速了早期学习又抑制了后期过估计偏差,与 TD3/SAC 结合后在多种运动控制和操控任务上显著优于基线。

查看全部20篇「机器人/具身智能」论文 →


🎮 强化学习 (70)

A Theoretical Study of (Hyper) Self-Attention through the Lens of Interactions: Representation, Training, Generalization

从"交互实体"统一视角出发,证明单层线性 self-attention 以 \(\Theta(|\mathcal{S}|^2)\) 参数高效表示、学习并泛化成对交互函数(全连接网络需 \(\Omega(L^2|\mathcal{S}|^2)\)),并在此理论基础上提出 HyperFeatureAttention(特征级交互耦合)和 HyperAttention(高阶多实体交互)两个新模块,在语言建模中降低了 perplexity。

Action-Dependent Optimality-Preserving Reward Shaping (ADOPS)

提出ADOPS方法,通过查询critic网络的外在/内在值函数估计,仅在内在奖励会改变最优动作偏好时调整奖励,从而实现action-dependent的optimality-preserving reward shaping,突破了PBRS只能处理action-independent形式的限制,在Montezuma's Revenge上超越所有先前的optimality-preserving方法和baseline RND。

Actor-Critics Can Achieve Optimal Sample Efficiency

本文首次证明 Actor-Critic 算法在一般函数逼近(general function approximation)和需要策略性探索的设定下可以达到 \(O(1/\epsilon^2)\) 的最优样本复杂度,通过整合乐观探索、离策略 Critic 估计和稀疏策略切换,并将结果扩展到混合 RL 设定。

Adversarial Cooperative Rationalization: The Risk of Spurious Correlations in Even Clean Datasets

揭示协作理据化框架(RNP)中的隐蔽缺陷——即使在干净数据集上,生成器的采样偏差也会引入理据与标签间的虚假相关,提出对抗检测+指令干预方法,在文本和图分类上显著超越现有方法。

Automatic Reward Shaping from Confounded Offline Data

提出首个理论上有保障的数据驱动方法,从含未观测混淆因子的离线数据中自动学习基于势的奖励整形函数 (PBRS),通过因果贝尔曼最优方程上界最优状态值作为势函数,并证明所得 Q-UCB Shaping 算法在伪次优状态-动作对上享有比 vanilla Q-UCB 更优的 gap-dependent regret bound。

BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning

提出 BEAVER 基准——首个面向建筑能源管理的多目标上下文强化学习评估框架,通过参数化热动力学和气候区域构建可控环境变化,系统评估现有 MORL 算法的跨环境泛化能力。

Benchmarking Quantum Reinforcement Learning

提出量子强化学习(QRL)的严格基准测试方法论——基于样本复杂度的统计估计器和统计显著性定义的"超越"概念,在新设计的 6G 波束管理环境上进行迄今最大规模(100 seeds)的 QRL vs 经典 RL 比较,发现先前关于 QRL 优越性的声称需要更审慎看待。

Beyond The Rainbow: High Performance Deep Reinforcement Learning on a Desktop PC

提出 BTR(Beyond The Rainbow)——整合 6 项 RL 改进到 Rainbow DQN 中,在单台桌面 PC 上 12 小时内训练 Atari-60 达到 IQM 7.4(Rainbow 为 1.9),并首次成功训练智能体玩马里奥银河、马里奥赛车和真人快打等 3D 游戏。

BRITE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

提出 BRITE——通过自举(bootstrapping)方式迭代收集和强化 LLM 的中间思维过程,结合过程级奖励模型和 PPO 训练,持续提升 LLM 在数学推理等任务上的表现。

Conceptual Belief-Informed Reinforcement Learning

提出 HI-RL(Human Intelligence-RL)——将认知科学中的概念抽象和概率先验信念机制引入 RL,从经验中提取高层概念并构建概念关联的自适应先验来指导值函数/策略更新,作为算法无关插件一致提升 DQN/PPO/SAC/TD3 的样本效率。

查看全部70篇「强化学习」论文 →


🎁 推荐系统 (17)

Adaptive Elicitation of Latent Information Using Natural Language

提出一种基于 LLM 的自适应信息获取框架,通过元学习预测模型对未来观测进行自回归前向模拟,量化并区分认知不确定性与偶然不确定性,自适应选择最具信息量的自然语言问题来高效减少对潜变量实体的认知不确定性。

Aligning LLMs by Predicting Preferences from User Writing Samples

提出通过分析用户写作样本预测其偏好来实现个性化 LLM 对齐的新范式,无需显式偏好标注即可从用户文本风格中推断偏好信号,为个性化对齐开辟了新的数据来源。

Deprecating Benchmarks: Criteria and Framework

提出了一套判断 AI 基准何时应被废弃的 7 项标准 和一个包含评估-报告-通知三阶段的 废弃框架,并以 EU AI Office 为例给出了制度化落地方案。

ELMO: Efficiency via Low-precision and Peak Memory Optimization in Large Output Spaces

提出 ELMO 框架,通过纯 BFloat16/Float8 低精度训练结合梯度融合、分块策略等峰值显存优化,将 300 万标签的 XMC 模型训练显存从 39.7 GiB 降至 6.6 GiB,且不损失分类精度。

How to Set AdamW's Weight Decay as You Scale Model and Dataset Size

将 AdamW 的权重更新解释为指数移动平均(EMA),揭示了 EMA 时间尺度 \(\tau = 1/(\eta\lambda)\) 是核心超参数,其以 epoch 为单位的最优值在模型和数据集规模变化时保持稳定,从而给出了 weight decay 随规模缩放的明确规则。

LCRON: Learning Cascade Ranking as One Network

提出LCRON,将多阶段级联排序系统作为统一网络进行端到端训练:通过可微排序技术构建的端到端代理损失\(L_{e2e}\)直接优化ground truth items通过整个级联的存活概率下界,辅以从下界紧致度推导出的各阶段辅助损失\(L_{single}\)驱动阶段间协同,在公开基准和工业广告系统的线上A/B测试中均取得显著提升(广告收入+4.10%,用户转化+1.60%)。

New Interaction Paradigm for Complex EDA Software Leveraging GPT

提出 SmartonAI 系统,将大语言模型(LLM)和检索增强生成(RAG)集成到 EDA 工具 KiCad 中,通过自然语言交互实现任务分解、文档检索和智能插件推荐与执行,大幅降低复杂工程软件的学习门槛。

Not All Explanations for Deep Learning Phenomena Are Equally Valuable

本文是一篇 position paper,主张深度学习中的"反直觉现象"(如 double descent、grokking、lottery ticket)在实际场景中很少出现,研究者不应追求对它们的孤立解释,而应将其作为检验和完善更广泛深度学习理论的实验场。

PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model

提出 PARM 单一统一的偏好感知自回归奖励模型,通过 PBLoRA(Preference-Aware Bilinear Low-Rank Adaptation)将偏好向量条件化到 ARM 中,实现高效的多目标测试时对齐——用 1 个奖励模型替代 k 个独立 ARM,降低推理成本且支持弱到强引导(7B 引导 65B)。

Position: Don't Use the CLT in LLM Evals with Fewer Than a Few Hundred Datapoints

本文作为立场论文,论证了在 LLM 评估数据量少于几百个样本时,基于中心极限定理 (CLT) 的置信区间严重低估不确定性,推荐使用贝叶斯可信区间或 Wilson 得分区间作为替代方案。

查看全部17篇「推荐系统」论文 →


🔄 自监督/表示学习 (22)

A Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints

引入"下游自由能"作为预训练检查点可适应性的贝叶斯模型选择准则,证明"预训练自由能"可作为其上界代理(无需下游数据),并实验验证大学习率/小 batch/高 momentum 通过降低预训练自由能改善下游迁移性能。

AdaWorld: Learning Adaptable World Models with Latent Actions

提出 AdaWorld——通过从视频中自监督提取潜在动作(latent actions)进行动作感知预训练,构建高度可适应的世界模型,支持零样本动作迁移和少量交互快速适应新环境。

Alpha-SQL: Zero-Shot Text-to-SQL using Monte Carlo Tree Search

Alpha-SQL 将零样本 Text-to-SQL 建模为树搜索问题,通过蒙特卡洛树搜索 (MCTS) 框架结合 LLM-as-Action-Model 和自监督奖励函数,无需微调即可在 BIRD 数据集上以 32B 开源模型达到 69.7% 执行精度,超越基于 GPT-4o 的零样本 SOTA 2.5 个百分点。

Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions

在 Apple Heart and Movement Study 的 162K 参与者、25 亿小时可穿戴行为数据上,系统探索 tokenizer 和架构组合,以 TST+Mamba-2+对比学习构建行为数据基础模型 WBM,在 57 项健康检测任务上显著优于手工特征基线,并与 PPG 传感器模型形成互补。

CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries

提出 CLARIFY 方法,通过对比学习构建融合偏好信息的轨迹嵌入空间,利用拒绝采样选择更清晰可区分的偏好查询,从而提升离线 PbRL 在非理想反馈下的标注效率和策略性能。

ReSA: Clustering Properties of Self-Supervised Learning

系统分析了 JEA-based SSL 中各组件的聚类性质,发现 encoding 比 embedding 和 projector 隐层具有更优更稳定的聚类能力,据此提出 ReSA(Representation Self-Assignment)利用 encoding 的聚类信息引导 embedding 学习,形成正反馈 SSL 框架,在多个标准基准上大幅超越 SOTA。

Collapse-Proof Non-Contrastive Self-Supervised Learning

提出 FALCON 方法,基于超维计算 (hyperdimensional computing) 原理设计投影器和损失函数,理论证明可同时避免四种已知训练失败模式(表示崩塌、维度崩塌、聚类崩塌、簇内崩塌),并使表征自然具备去相关和聚类特性。

Contextures: Representations from Contexts

建立 contexture 理论,统一证明监督学习、自监督学习和流形学习等多种表示学习范式都可被理解为学习上下文变量诱导的期望算子的 top-\(d\) 奇异函数,并揭示模型规模增大的边际递减效应以及提出上下文质量评估指标。

Deep Learning is Not So Mysterious or Different

本文是一篇 position paper,论证深度学习中被认为"神秘"的泛化现象(良性过拟合、双重下降、过参数化的成功)并非深度学习独有,也不神秘,可以通过长期存在的泛化框架(PAC-Bayes、可数假设界)形式化描述,并提出软归纳偏置(soft inductive biases)作为统一解释原则。

Discovering Global False Negatives On the Fly for Self-supervised Contrastive Learning

提出 GloFND,通过为每个锚点样本学习动态阈值,在训练过程中实时发现并过滤全局假阴性(false negatives),以低额外开销提升对比学习表示质量。

查看全部22篇「自监督/表示学习」论文 →


📐 优化/理论 (61)

A Generalization Result for Convergence in Learning-to-Optimize

提出一个概率框架,将 PAC-Bayesian 泛化理论与变分分析中的 Kurdyka-Łojasiewicz (KL) 收敛定理相结合,首次在不限制学习算法设计的前提下,以高概率证明了学习型优化算法收敛到临界点。

A Near-Optimal Single-Loop Stochastic Algorithm for Convex Finite-Sum Coupled Compositional Optimization

本文提出 ALEXR 算法——一种高效的单循环原始-对偶块坐标随机算法,用于求解凸有限和耦合复合优化(cFCCO)问题,在光滑和非光滑条件下均达到近最优收敛速率,并通过推导下界证明了算法的最优性。

A Unified View on Learning Unnormalized Distributions via Noise-Contrastive Estimation

以f-NCE为基础提出alpha-CentNCE和f-CondNCE两个估计器家族,统一了MLE、MC-MLE、GlobalGISO、pseudo-likelihood、ISO等学习非归一化分布的方法,纠正了CondNCE与score matching的误导性联系,并为有界指数族首次建立有限样本收敛保证。

Adjustment for Confounding using Pre-Trained Representations

本文研究如何利用预训练神经网络的隐表示来调整非表格数据(如图像、文本)中的混杂因素,形式化了表示充分性条件,证明了稀疏性/可加性假设在可逆线性变换(ILT)下不成立,并基于低内在维度和层次组合模型建立了深度网络的收敛速率理论,从而保证 DML 框架下 ATE 估计的有效推断。

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

提出 AdvPrompter——用一个 LLM(AdvPrompter)在秒级速度内为目标 LLM 生成人类可读的对抗提示后缀,通过交替优化算法训练,在 AdvBench 和 HarmBench 上实现高攻击成功率,且可迁移到闭源黑盒 LLM,同时展示了用生成的对抗后缀进行对抗训练以增强目标 LLM 鲁棒性的策略。

Benefits of Early Stopping in Gradient Descent for Overparameterized Logistic Regression

在过参数化逻辑回归中,理论证明了早停梯度下降(early-stopped GD)相比渐近 GD 具有统计优势:早停 GD 是校准且一致的,而渐近 GD 的 logistic risk 趋于无穷且校准误差不消失;同时建立了早停与 \(\ell_2\) 正则化之间的定量联系。

Beyond Self-Repellent Kernels: History-Driven Target Towards Efficient Nonlinear MCMC on General Graphs

提出 History-Driven Target (HDT) 框架,通过修改目标分布(而非转移核)将自排斥机制嵌入任意 MCMC 采样器,在保持 O(1/α) 方差缩减的同时解决了 SRRW 的计算开销大、仅限可逆链、内存占用高三大问题。

BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization

将 preference optimization(偏好优化)引入神经组合优化(NCO),提出 BOPO:通过 (1) best-anchored 偏好对构建(hybrid rollout + uniform filtering + best-anchored pairing)和 (2) objective-guided 自适应缩放损失函数(\(\beta = g(y_l)/g(y_w)\)),在 JSP/TSP/FJSP 三类经典组合优化问题上全面超越 SOTA,无需 reward model 或参考策略。

Can Transformers Learn Full Bayesian Inference In Context?

证明 Transformer 可以在上下文中执行完整的贝叶斯推断——通过在合成数据上预训练一个编码器-解码器架构(TabPFN 编码器 + 扩散 Transformer 解码器),模型在部署时无需参数更新即可为 GLM、混合高斯模型等统计模型生成与 HMC 质量媲美的后验样本。

Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed

证明了 AdaGrad/Adam 在重尾噪声下的高概率收敛可能很差(依赖置信水平的多项式),并证明梯度裁剪可以修复这个问题——Clip-AdaGrad-Norm 和 Clip-Adam-Norm 在重尾噪声下实现了对置信水平的对数多项式依赖的高概率收敛界,扩展到延迟步长版本。

查看全部61篇「优化/理论」论文 →


📐 学习理论 (16)

Avoiding Catastrophe in Online Learning by Asking for Help

提出一个全新的在线学习理论框架来处理灾难性(不可逆)错误:将回报定义为避灾概率、目标函数为回报之积(总体避灾概率),引入导师求助机制和Local Generalization假设,证明不可能结果(不求助则必灾难)和可能结果(策略类可学则后悔和求助率同时趋零),将标准在线学习的子线性后悔提升为子常数后悔。

Heavy-Tailed Linear Bandits: Huber Regression with One-Pass Update

提出基于 Online Mirror Descent 的单遍 Huber 回归算法 Hvt-UCB,用于重尾噪声线性 bandit,将每轮计算复杂度从 \(\mathcal{O}(t\log T)\) 降至 \(\mathcal{O}(1)\),同时保持最优且依赖实例的 regret 界。

Improved and Oracle-Efficient Online \(\ell_1\)-Multicalibration

提出将在线 \(\ell_1\)-multicalibration 归约为新定义的在线线性乘积优化 (OLPO) 问题,分别达到 \(\widetilde{O}(T^{-1/3})\)(改进速率)和 \(\widetilde{O}(T^{-1/4})\)(oracle 高效速率)的多校准误差上界。

Improved Generalization Bounds for Transductive Learning by Transductive Local Complexity and Its Applications

提出转导局部复杂度(TLC)框架,将经典的局部 Rademacher 复杂度扩展到转导学习设定,获得了与归纳学习几乎一致的超额风险界(仅差对数因子),并解决了十年未决的开放问题。

Learning-Augmented Algorithms for MTS with Bandit Access to Multiple Predictors

在度量任务系统(MTS)中,当算法仅能以 bandit 方式(每步只查询一个启发式且需连续查询 \(m\) 步才能观测状态)访问 \(\ell\) 个启发式时,本文给出了 regret 为 \(O(\text{OPT}^{2/3})\) 的算法,并证明该界是紧的。

Learning-Augmented Hierarchical Clustering

本文研究借助分裂预言机(splitting oracle)的辅助信息来突破层次聚类的近似硬度障碍,获得 Dasgupta 目标的 \(O(1)\) 常数近似和 Moseley-Wang 目标的 \((1-o(1))\) 近似,并推广到流式和并行计算场景。

Maximum Coverage in Turnstile Streams with Applications to Fingerprinting Measures

首次在 turnstile 流模型(支持任意插入/删除)下给出最大覆盖问题的单遍流算法,空间 \(\tilde{O}(d/\varepsilon^3)\)、更新时间 \(\tilde{O}(1)\),并将其推广到隐私指纹识别(fingerprinting)场景,实验比先前方法快 210×。

Multiple-Policy Evaluation via Density Estimation

提出 CAESAR 算法,通过两阶段方法(粗估计访问分布 + 最优采样分布下的密度比估计)同时评估 K 个策略,实现非渐近、实例依赖的样本复杂度,核心技术是"粗估计"——仅需 \(O(1/\epsilon)\) 样本即可获得常数倍精度的分布近似。

Near-Optimal Consistency-Robustness Trade-Offs for Learning-Augmented Online Knapsack Problems

提出一族基于简洁预测(临界值的点预测或区间预测)的在线背包算法,在consistency与robustness之间实现近Pareto最优的权衡,并给出分数解到整数解的通用转换方法。

Near Optimal Best Arm Identification for Clustered Bandits

在多智能体聚类多臂赌博机设置下,提出 Cl-BAI 和 BAI-Cl 两种算法,利用聚类结构大幅降低最优臂识别的样本复杂度,并证明 BAI-Cl++ 在 \(M\) 为常数时达到 minimax 最优。

查看全部16篇「学习理论」论文 →


🔗 因果推理 (17)

Causal Abstraction Inference under Lossy Representations

提出 投影抽象(Projected Abstraction) 框架,突破现有因果抽象理论对"抽象不变性条件(AIC)"的依赖,使得在有损/降维表示下仍能进行数学一致的因果推断,并给出图模型层面的可识别性判据。

Causal Effect Identification in lvLiNGAM from Higher-Order Cumulants

在存在潜在混淆的线性非高斯无环模型(lvLiNGAM)中,利用高阶累积量(而非仅协方差矩阵)识别因果效应,解决了两个挑战性设置:(1) 单个可能影响处理的代理变量; (2) 工具变量数少于处理变量数的欠定工具变量问题。两种情况下均证明了可识别性并提供了一致估计方法。

Causal Evidence for the Primordiality of Colors in Trans-Neptunian Objects

利用模型无关的因果发现方法(FCI算法),以 98.7% 的置信度证明海王星外天体(TNO)的颜色是其轨道倾角分布的根本原因,从而强有力地支持了 TNO 颜色的"原生性"假说——即颜色反映的是形成位置而非后期碰撞演化的结果。

Classifier Reconstruction Through Counterfactual-Aware Wasserstein Prototypes

提出利用 Wasserstein 重心将原始样本与反事实样本融合为类别原型,从而在有限查询预算下高保真地重建目标二分类器,有效缓解了朴素使用反事实样本导致的决策边界偏移问题。

Doubly Protected Estimation for Survival Outcomes Utilizing External Controls for Randomized Clinical Trials

提出一种双重保护(doubly protected)的生存结局估计框架,通过密度比加权校正协变量偏移、DR-Learner检测结局漂移并选择性借用可比外部对照,在保证一致性和效率提升的同时对外部数据异质性具有鲁棒性。

E-LDA: Toward Interpretable LDA Topic Models with Strong Guarantees in Logarithmic Parallel Time

提出 E-LDA(Exemplar-LDA),通过将 LDA 的 MAP 主题-词分配问题重新形式化为单调子模函数最大化问题,首次获得了具有 \(1-1/e\) 近似保证的实用算法,并且在对数并行时间内收敛,同时保证每个学到的主题都具有基于关键词的形式化可解释性。

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

提出 Centralized Gaussian Linear SCM (CGL-SCM),通过将外生变量标准化为 \(\mathcal{N}(0,1)\) 大幅减少参数量,并设计基于 EM 的估计算法,在有限观测数据下准确恢复可识别的因果效应。

Exogenous Isomorphism for Counterfactual Identifiability

提出外生同构(Exogenous Isomorphism, EI)概念,证明 \(\sim_{\mathrm{EI}}\)-identifiability 蕴含 \(\sim_{\mathcal{L}_3}\)-identifiability(完整反事实层可辨识性),并在双射SCM和三角单调SCM两类特殊模型上给出实现EI的充分条件,统一并推广了已有反事实可辨识性理论。

Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors

利用LLM内部已识别的因果机制来预测模型在分布外输入上的输出正确性,提出反事实模拟和值探测两种方法,在OOD设置中比现有基线平均AUC-ROC提升13.84%。

Isolated Causal Effects of Natural Language

提出"孤立因果效应"(Isolated Causal Effect)的形式化估计框架,通过双重稳健估计器和遗漏变量偏差(OVB)敏感性分析,将焦点语言属性的因果效应从相关的非焦点语言中隔离出来。

查看全部17篇「因果推理」论文 →


🔬 可解释性 (31)

A Reasoning-Based Approach to Cryptic Crossword Clue Solving

提出三阶段LLM推理pipeline(答案候选生成→wordplay解释→Python形式化验证),使用开源9B模型在Cryptonite密码填字谜数据集上实现新SOTA,关键创新在于将wordplay推理形式化为可执行Python代码并通过带hints的verifier迭代修正。

Ab Initio Nonparametric Variable Selection for Scalable Symbolic Regression with Large p

提出 PAN+SR 框架,通过基于 BART 的非参数变量预筛选,将高维符号回归问题降维至低维子空间,使 19 种现有 SR 方法在高维场景下均获显著性能提升。

Concept-Based Unsupervised Domain Adaptation

提出 CUDA 框架——将概念瓶颈模型(CBM)与无监督域适应(UDA)结合,通过松弛一致性对齐概念表示(允许域间小差异)和目标域的无标注概念推断,首次在域偏移下同时提供可解释性和跨域泛化,并提供理论保证。

Configurable Preference Tuning with Rubric-Guided Synthetic Data

提出Configurable Preference Tuning (CPT)框架,通过基于细粒度rubric生成的合成偏好数据训练LLM,使模型能在推理时仅通过修改system prompt就动态调整行为风格,无需重新训练,在多个基座模型上准确率从0.52-0.68提升至0.76-0.83。

DeltaSHAP: Explaining Prediction Evolutions in Online Patient Monitoring with Shapley Values

DeltaSHAP 是一种专为在线患者监护系统设计的可解释AI算法,通过将 Shapley 值适配到时序场景,解释连续预测之间的变化量而非绝对预测值,同时提供特征归因的方向和幅度,在 MIMIC-III 基准上实现 62% 的解释质量提升和 33% 的计算时间缩减。

Do Sparse Autoencoders Generalize? A Case Study of Answerability

本文系统评估了稀疏自编码器(SAE)提取的特征在"可回答性"(answerability)任务上的跨域泛化能力,发现 SAE 特征的域外迁移表现极不一致——在某些数据集上优于残差流线性探针,但在另一些上接近随机,揭示了当前 SAE 可解释性方法在捕获抽象概念方面的根本局限。

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

提出 NeuronEval 统一框架,将 19 种现有神经元解释评估方法形式化为同一数学范式,并设计 Missing Labels / Extra Labels 两项合理性检验,揭示大多数常用指标(如 Recall、AUC、top-and-random 采样下的 Correlation)不可靠,仅 Correlation(Pearson)、Cosine、AUPRC、F1 和 IoU 通过测试。

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

提出 PromptQuine 框架,通过进化搜索对 ICL prompt 进行 token 级剪枝,发现将清晰示例剪成看似"乱码"的子序列反而能提升 LLM 性能,且匹配或超越 SOTA prompt 优化方法。

Explaining, Fast and Slow: Abstraction and Refinement of Provable Explanations

本文提出了一种基于抽象-细化的方法来高效计算神经网络预测的可证明充分解释(provably sufficient explanations),通过将大网络抽象为小网络来加速验证过程,解释质量有形式化保证。

FastCAV: Efficient Computation of Concept Activation Vectors for Explaining Deep Neural Networks

提出 FastCAV,通过计算概念样本激活的归一化均值向量来替代 SVM 训练提取概念激活向量(CAV),在理论上等价于 Fisher 判别分析的简化形式,实测加速高达 63.6 倍(平均 46.4 倍),同时保持与 SVM-CAV 相当的分类精度和下游解释质量。

查看全部31篇「可解释性」论文 →


📦 模型压缩 (74)

A Cross Modal Knowledge Distillation & Data Augmentation Recipe for Improving Transcriptomics Representations through Morphological Features

提出 Semi-Clipped(基于 CLIP 的跨模态蒸馏方法)和 PEA(扰动嵌入增强),在弱配对数据场景下将显微镜图像的丰富形态学特征蒸馏到转录组学表征中,在保持基因表达可解释性的同时显著提升其预测能力。

A Mathematical Framework for AI-Human Integration in Work

本文提出了一个评估 AI-人类工作集成的数学框架,将技能分解为决策层和执行层两类子技能,理论证明了工作成功概率存在相变效应、互补技能融合可带来超加性收益,并解释了 GenAI 辅助中低技能工人获益更大的"生产力压缩"现象,通过 O*NET 和 Big-bench Lite 数据验证了框架的实用性。

ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence

本文深入分析了知识蒸馏中 FKLD 和 RKLD 的概率质量分配缺陷,发现它们在 Hardness-Concentration 和 Confidence-Concentration 两种效应上分别处于极端,提出基于 α-β-divergence 的 ABKD 框架,通过调节 α 和 β 灵活平衡两种效应,在 17 个语言/视觉数据集、12 种师生配置上取得了 SOTA 性能。

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks

提出 RSR/RSR++ 算法——通过预处理固定的二值/三值权重矩阵构建分桶排列索引,实现 \(O(n^2/\log n)\) 复杂度的向量-矩阵乘法,比标准 \(O(n^2)\) 方法快最高 29× 的矩阵乘法、6× 的内存节省,并在 1.58-bit LLM 推理中实现 5.24× 加速。

any4: Learned 4-bit Numeric Representation for LLMs

提出 any4——一种通过 k-means 聚类学习每行权重矩阵的最优 4-bit 非均匀量化码本的方法,无需权重/激活预处理,在 Llama 2/3、Mistral、Mixtral 上均优于 int4/fp4/nf4,且仅用单个校准样本即可。

BECAME: BayEsian Continual Learning with Adaptive Model MErging

提出 BECAME——基于贝叶斯持续学习原则重新建模模型融合机制,利用 Laplace 近似推导出最优融合系数的闭式解,结合梯度投影(稳定性)和无约束训练(可塑性)的两阶段框架,在多个持续学习基准上显著超越 SOTA。

Best Subset Selection: Optimal Pursuit for Feature Selection and Elimination

本文从优化视角重新审视经典最优子集选择中的特征选择/消除准则,发现传统准则(相关性选择 + Wald-T 消除)仅捕获了目标函数的"一步变化"而忽视了特征交互,从而提出了"目标函数感知"的最优选择和消除准则,将其作为元替换(Meta-Substitution)即插即用地增强 OMP/CoSaMP/(A)BESS 等经典算法,在压缩感知和稀疏回归任务上实现显著性能提升且不增加计算复杂度。

Beyond Communication Overhead: A Multilevel Monte Carlo Approach for Mitigating Compression Bias in Distributed Learning

本文提出了一种基于多级蒙特卡洛(MLMC)的梯度压缩方案,利用有偏压缩器构造统计无偏的梯度估计,将压缩偏差转化为可控方差,从而在保持有偏压缩器经验效率的同时享受无偏方法的理论保证,结合自适应概率优化在 BERT 微调和 CIFAR-10 上验证了优越性。

Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics

从无限宽度视角理论分析并实验验证:LoRA 的 A、B 矩阵同时非零初始化(Init[AB])相比传统零初始化(Init[A])能显著提升对次优学习率的鲁棒性,且引入的随机噪声不影响微调性能——即微调不必严格从预训练模型出发。

BlockDialect: Block-wise Fine-grained Mixed Format Quantization for Energy-Efficient LLM Inference

提出 BlockDialect——对权重和激活进行块级细粒度混合格式量化,为每个 block 从 FP4 变体(方言)格式书中选择最优数值格式,在 LLaMA3-8B 上比 MXFP4 准确率提升 10.78%,仅比全精度低 5.45%。

查看全部74篇「模型压缩」论文 →


🕸️ 图学习 (31)

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks

提出 Cognac——首个有效的 GNN 纠正性遗忘方法,通过交替执行图邻域对比遗忘(CoGN)和解耦梯度上升/下降(AC⚡DC),在仅识别 5% 被操纵实体时即可恢复接近 oracle(完全干净数据训练)的性能,比从头重训高效 8×。

A General Graph Spectral Wavelet Convolution via Chebyshev Order Decomposition

提出 WaveGC——通过分离 Chebyshev 多项式的奇偶项构建严格满足可容许性条件的可学习图小波,结合矩阵值滤波核的多分辨率图谱卷积网络,在短程和长程图任务上均实现一致改进(VOC 上提升 15.7%)。

A Recipe for Causal Graph Regression: Confounding Effects Revisited

首次系统性地将因果图学习从分类扩展到回归任务,通过增强型图信息瓶颈(Enhanced GIB)承认混淆子图的预测能力,并用对比学习替代依赖离散标签的因果干预方法,在图级 OOD 回归基准上显著超越现有方法。

Balancing Efficiency and Expressiveness: Subgraph GNNs with Walk-Based Centrality

提出 HyMN——通过游走中心性(Subgraph Centrality)对子图 GNN 的子图包进行高效采样,仅需 1-2 个子图即可媲美全包 Subgraph GNN 的性能,同时将中心性作为结构编码进一步增强判别能力,使子图方法首次可扩展到数百倍更大的图。

Banyan: Improved Representation Learning with Explicit Structure

Banyan 通过纠缠层次树结构对角化消息传递两大创新,仅用 14 个非嵌入参数就在语义文本相似度任务上超越了大规模 Transformer 模型,为低资源语言的语义表示学习提供了高效可行的替代方案。

Beyond Message Passing: Neural Graph Pattern Machine

提出 Neural Graph Pattern Machine (GPM),用随机游走采样图模式,通过语义路径与匿名路径的双编码器捕捉节点特征和拓扑结构,再用 Transformer 识别任务相关的关键模式,彻底绕过消息传递范式,在节点/边/图级任务上全面超越 SOTA。

CoDy: Counterfactual Explainers for Dynamic Graphs

提出 CoDy——首个用于时序图神经网络(TGNN)的反事实解释方法,通过蒙特卡洛树搜索(MCTS)结合时空启发式策略高效探索可能的解释子图空间,在多个数据集上 AUFSC+ 提升 16%。

Diss-l-ECT: Dissecting Graph Data with Local Euler Characteristic Transforms

提出 Local Euler Characteristic Transform (ℓ-ECT),将经典 ECT 拓扑不变量扩展到图的局部邻域,为每个节点生成无损的拓扑-几何指纹,在节点分类任务(尤其是高异质性图)上超越标准 GNN,同时提供理论可逆性保证与可解释性。

Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis

首次从"数据操作"角度为 Graph Prompt 提供完整理论框架:证明 Prompt 能通过模拟图数据变换将原始图映射到"桥接图"使冻结模型适配下游任务,并推导了单图/多图场景下的误差上界与分布。

EvoMesh: Adaptive Physical Simulation with Hierarchical Graph Evolutions

EvoMesh 提出一种全可微的层次图演化框架,通过各向异性消息传递(AMP)和基于 Gumbel-Softmax 的可微节点选择(DiffSELECT),根据物理输入自适应构建随时间演化的多尺度图层次结构,在五个物理仿真基准上平均超越固定层次方法约 20%。

查看全部31篇「图学习」论文 →


📈 时间序列 (21)

A Generalizable Physics-Enhanced State Space Model for Long-Term Dynamics Forecasting in Complex Environments

提出 Phy-SSM,将部分已知的物理知识融入深度状态空间模型(SSM),通过动力学分解(已知/未知矩阵)和物理状态正则化,实现对噪声大、不规则采样数据的长期动力学精准预测与外推。

Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle

提出 Daily Oracle——一个每日自动从新闻生成预测性 QA 对的持续评估基准,系统性揭示了 LLM 预测能力随预训练数据过时而平滑退化的规律,TF 题平均降 21.55%、MC 题降 11.33%,且 RAG 也无法完全挽救。

Causal Discovery from Conditionally Stationary Time Series

提出 SDCI(State-Dependent Causal Inference)——处理条件平稳时间序列的因果发现方法,通过离散潜状态变量建模非平稳行为,实现状态依赖的因果结构恢复,在粒子交互、基因调控网络和 NBA 球员运动预测中验证有效性。

Channel Normalization for Time Series Channel Identification

提出通道归一化(Channel Normalization, CN),通过为每个通道分配独立的仿射变换参数来增强时间序列模型的通道可辨识性(CID),并扩展出自适应版本 ACN(动态调整参数)和原型版本 PCN(支持未知/可变通道数),在多种时间序列模型上实现显著性能提升。

Customizing the Inductive Biases of Softmax Attention using Structured Matrices

提出用高效结构化矩阵(BTT 和 MLR)替换 softmax attention 中的低秩打分函数,既解决了标准 attention 的低秩瓶颈问题,又通过 MLR 引入了距离依赖的计算偏置,在上下文回归、语言建模和长程时间序列预测上均取得改进。

Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading

利用大语言模型对金融推文进行多标签事件分类标注,将非结构化社交媒体文本转化为结构化、可解释的事件驱动量化因子,发现特定事件类别(如谣言/投机)具有显著的负Alpha信号(Sharpe ratio低至-0.38)。

Foundation Models for Clinical Records at Health System Scale

提出 GPT-EHR,一种基于下一次就诊事件预测的生成式预训练框架,在 NYU Langone 129 万患者的纵向 EHR 数据上训练 decoder-only Transformer,零样本即可预测痴呆和膝骨关节炎发病,性能媲美全量微调的 BERT 基线,同时揭示并解决了重复事件 token 造成评估指标虚高的关键陷阱。

HyperIMTS: Hypergraph Neural Network for Irregular Multivariate Time Series Forecasting

提出 HyperIMTS,利用超图结构表示不规则多元时间序列(IMTS)中的观测值和其依赖关系,通过三种消息传递机制(节点→超边、超边→超边、超边→节点)实现不规则性感知的时间和变量依赖学习,在 5 个 IMTS 数据集上达到 SOTA 且计算效率优于 padding 方法。

IMTS is Worth Time × Channel Patches: Visual Masked Autoencoders for Irregular Multivariate Time Series Prediction

提出 VIMTS 框架,将不规则多变量时间序列(IMTS)转化为 time × channel 的类图像 patch 结构,借助在大规模 RGB 图像上预训练的视觉 MAE 的稀疏多通道建模能力,结合 GCN 跨通道补全与粗到细预测策略,在 IMTS 预测任务上实现 SOTA 性能和强 few-shot 能力。

Learning Soft Sparse Shapes for Efficient Time-Series Classification

提出 SoftShape 模型,用基于贡献分数的软稀疏化替代传统硬筛选 shapelet 的方式,结合 MoE 驱动的 intra-shape 和 shared expert 的 inter-shape 双模式时序模式学习,在 128 个 UCR 数据集上取得 SOTA 分类精度。

查看全部21篇「时间序列」论文 →


🏥 医学图像 (21)

Bayesian Inference for Correlated Human Experts and Classifiers

提出通用贝叶斯框架来建模相关人类专家和分类器之间的联合标注行为,通过潜在表示捕捉专家间相关性,用模拟推断评估额外查询的效用,在医学分类和图像标注中大幅减少专家查询次数同时保持预测准确率。

Boosting Masked ECG-Text Auto-Encoders as Discriminative Learners (D-BETA)

D-BETA 提出了一种融合生成式掩码自编码器与增强判别能力的对比学习框架,通过 ECG-Text Sigmoid (ETS) 损失和最近邻负采样策略 (N3S),在 ECG-文本跨模态表征学习中显著超越现有方法,在仅用 1% 训练数据的线性探测中平均 AUC 提升 15%,零样本性能提升 2%。

Certification for Differentially Private Prediction in Gradient-Based Training

提出 Abstract Gradient Training (AGT) 框架,通过凸松弛与界传播技术计算训练过程中模型参数的可达集上界,从而利用平滑敏感度机制大幅收紧隐私预测的隐私分析,在医学影像和 NLP 任务上实现比全局敏感度紧数个数量级的隐私界。

Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images

提出 Querent 框架——通过 query-aware 的动态区域重要性评估实现千亿像素全切片图像(WSI)中的高效长程上下文建模,在理论上有界逼近完整自注意力,在 10+ 个 WSI 数据集的生物标志物预测/基因突变预测/癌症分型/生存分析中超越 SOTA。

Do Multiple Instance Learning Models Transfer?

首次系统评估计算病理学中 MIL 模型的迁移学习能力,发现在 pancancer 数据集上预训练的 MIL 模型能够跨器官、跨任务泛化,以不到 10% 的预训练数据超越自监督 slide foundation model(CHIEF、GigaPath)。

EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping

本文首创 EEG-语言模型(ELM),在15000份EEG记录和临床报告上训练,结合时间序列裁剪、文本分割和多实例学习策略,首次实现了EEG的零样本分类和跨模态检索,在低标注场景下病理检测性能显著优于纯EEG自监督方法。

Efficient Noise Calculation in Deep Learning-based MRI Reconstructions

提出基于 Jacobian Sketching 的高效方法,通过随机相向量探测 DL 重建网络的 Jacobian 对角元,以无偏估计加速 MRI 重建中的体素级噪声方差,计算和内存需求降低一个数量级以上,与 Monte Carlo 参考相关系数达 99.8%。

Enhancing Statistical Validity and Power in Hybrid Controlled Trials: A Randomization Inference Approach with Conformal Selective Borrowing

提出基于 Fisher 随机化检验(FRT)+ 保形选择性借用(CSB)的混合对照试验推断框架,实现有限样本精确的 I 类错误率控制和模型无关的统计推断,通过自适应阈值最小化 MSE,在保持严格 I 类错误控制的同时提升检验功效。

From Token to Rhythm: A Multi-Scale Approach for ECG-Language Pretraining

MELP 提出了一种多尺度 ECG-语言预训练模型,通过 Token/Beat/Rhythm 三个层次的跨模态监督信号,结合心脏学专业语言模型预训练,在零样本分类、线性探测和迁移学习中全面超越现有 ECG 自监督和多模态方法。

I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts

I2MoE 提出了一种可解释的多模态交互感知混合专家框架,通过四种交互专家(唯一性×2 + 协同 + 冗余)结合弱监督交互损失显式建模模态间的异质交互,并通过重加权模型提供样本级和数据集级的可解释性,在 ADNI 数据集上提升准确率 5.5%。

查看全部21篇「医学图像」论文 →


🩺 医疗 LLM (4)

Agent WARPP: Workflow Adherence via Runtime Parallel Personalization

提出 WARPP,一个无需训练的多智能体框架,在运行时根据用户属性动态剪枝条件分支工作流,并通过并行化的 Personalizer 智能体与模块化域特定智能体协同执行,在提升工具调用精度和参数保真度的同时减少 token 消耗。

Autoformulation of Mathematical Optimization Models Using LLMs

本文提出一种利用大语言模型结合蒙特卡洛树搜索(MCTS)自动将自然语言描述的优化问题转化为可求解器求解的数学规划模型的方法,通过符号剪枝和 LLM 价值评估显著提升了搜索效率。

EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration

提出 BanditBench 基准和三种增强策略(推理时算法引导、Few-shot 示范、Oracle 行为微调),系统评估并改善 LLM 在 bandit 环境中的上下文探索能力,使小模型通过算法蒸馏超越大模型。

On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains

本文系统揭示了 RAG 检索系统在知识密集型领域(医疗、法律)中面临的通用投毒攻击漏洞,提出"正交增强"性质解释攻击成因,并设计基于分布感知距离的检测防御方法,在几乎所有场景中达到近乎完美的检测率。


🧬 计算生物 (48)

ADIOS: Antibody Development via Opponent Shaping

将多智能体强化学习中的对手塑形(Opponent Shaping)引入抗体设计,提出 ADIOS 元学习框架:外层循环优化抗体,内层循环模拟病毒适应性逃逸,使设计出的"塑形抗体"(shapers)不仅能对抗当前病毒变种,还能主动引导病毒向更弱、更易被靶向的方向进化。

Aligning Protein Conformation Ensemble Generation with Physical Feedback

提出 Energy-based Alignment (EBA),将物理力场的能量反馈融入扩散生成模型的微调过程,通过 Boltzmann 因子加权的分类目标函数对齐生成分布与物理能量景观,在 ATLAS MD 基准上实现蛋白质构象集合生成的 SOTA 性能。

CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models

提出 CFP-Gen——一种大规模扩散语言模型,通过注释引导特征调制(AGFM)和残基级控制编码(RCFE)实现多模态功能约束(功能注释 + 序列基序 + 3D 结构)的组合蛋白质生成,F1 分数比 ESM3 提升 30%。

Compositional Flows for 3D Molecule and Synthesis Pathway Co-design

提出 CGFlow(Compositional Generative Flows)——将 flow matching 扩展到组合对象的逐步生成,交织组合结构采样(合成路径)和连续状态传输(3D 构象),作为 3DSynthFlow 应用于可合成药物设计,在 LIT-PCBA 15个靶标上首次同时达到结合亲和力和可合成性的 SOTA。

ComRecGC: Global Graph Counterfactual Explainer through Common Recourse

本文首次形式化了图神经网络的公共补救 (Common Recourse) 全局反事实解释问题,证明该问题是 NP-hard 的,并提出了 ComRecGC 算法——通过多头顶点增强随机游走 (Multi-head VRRW) 寻找反事实图,再用 DBScan 聚类提取公共补救,在 NCI1、Mutagenicity、AIDS、Proteins 四个真实数据集上,覆盖率全面超越现有基线 10%–30%。

DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models

提出 DeepSeq 流水线,利用大语言模型(尤其是具备实时网络搜索能力的 Agentic GPT-4o)对单细胞RNA测序数据进行自动化细胞类型标注,最高准确率达 82.5%,解决了大规模组学数据标注的吞吐量瓶颈。

Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling

提出 CpSDE 框架,通过谐波 SDE 生成模型 (AtomSDE) 和残基类型预测器 (ResRouter) 的交替采样,首次实现基于 3D 受体结构的全类型环肽设计,在稳定性和亲和力上超越现有线性肽设计方法。

eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis

eccDNAMamba 是首个面向环状DNA的双向状态空间编码器,结合BPE分词、环状数据增强和SpanBERT式预训练,在保持线性时间复杂度的同时支持高达200Kbp的超长eccDNA序列建模,在癌症分类和真实eccDNA识别任务上显著超越DNABERT-2、HyenaDNA和Caduceus。

Efficient Molecular Conformer Generation with SO(3)-Averaged Flow Matching and Reflow

提出 SO(3)-Averaged Flow 训练目标,通过解析地对旋转群 SO(3) 上所有旋转取平均来消除先验-数据分布间的旋转对齐需求,结合 Reflow+蒸馏实现高质量的少步乃至单步分子构象生成。

Elucidating the Design Space of Multimodal Protein Language Models

系统性地探索了基于token的多模态蛋白质语言模型(PLM)的设计空间,通过比特级离散建模、几何感知架构、表征对齐和多聚体数据扩展四个维度的创新,将650M参数模型的折叠RMSD从5.52降至2.36,超越3B基线模型,接近专用折叠模型水平。

查看全部48篇「计算生物」论文 →


⚛️ 物理/科学计算 (20)

Causal-PIK: Causality-based Physical Reasoning with a Physics-Informed Kernel

提出 Causal-PIK,通过将物理因果相似性编码为贝叶斯优化的核函数(Physics-Informed Kernel),使智能体在物理推理任务中仅需极少次尝试即可找到最优动作,在 Virtual Tools 和 PHYRE 基准上超越 SOTA。

Causal Discovery of Latent Variables in Galactic Archaeology

利用基于秩的潜变量因果发现算法(RLCD),仅从五个可观测恒星属性中,以纯数据驱动的方式自动恢复出两个物理上有意义的潜变量——出生半径和引导半径,验证了因果发现方法在天体物理学中发现隐藏物理量的潜力。

Closed-form Symbolic Solutions: A New Perspective on Solving Partial Differential Equations

本文提出 SymPDE 框架,利用深度强化学习直接搜索 PDE 的闭式符号解,绕过了 PINNs 数值解精度不足和可解释性差的问题,在 Poisson 方程和热方程上达到 90% 的恢复率。

Compact Matrix Quantum Group Equivariant Neural Networks

本文将群等变神经网络扩展到紧致矩阵量子群的设定下,利用 Woronowicz 形式的 Tannaka-Krein 对偶理论刻画了该类网络的权重矩阵,为非交换几何上的数据学习提供了理论基础。

Differentiable Stellar Atmospheres with Physics-Informed Neural Networks

提出 Kurucz-a1,一个物理约束神经网络(PINN),用于模拟一维恒星大气模型(LTE 假设),解决了可微恒星光谱学中大气结构求解器不可微的关键瓶颈,在流体静力平衡和太阳光谱一致性上甚至优于经典 ATLAS-12 代码。

Erwin: A Tree-based Hierarchical Transformer for Large-scale Physical Systems

提出 Erwin,一种基于 ball tree 分层结构的 Transformer 架构,通过将注意力计算限制在固定大小的局部球区域内,实现线性时间复杂度,同时通过渐进式粗化/细化和跨球交互机制捕获多尺度特征,在宇宙学、分子动力学、PDE 求解和粒子流体动力学多个领域达到 SOTA。

Finetuning Stellar Spectra Foundation Models with LoRA

首次将 LoRA 应用于恒星光谱基础模型 SpecCLIP,实现以约 100-200 个标注样本将预训练在 LAMOST/Gaia XP 上的模型高效适配到 DESI 巡天数据,证明 LoRA 是跨光谱巡天迁移的轻量而有效策略。

Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents

提出 Gravity-Bench-v1,一个基于引力动力学模拟的环境交互式基准测试,评估 AI Agent 在受限观测预算下进行科学发现(包括 OOD 物理场景)的能力,发现当前模型在观测规划和预算利用方面存在显著不足。

Improving Memory Efficiency for Training KANs via Meta Learning

提出 MetaKANs,用一个小型元学习器(meta-learner)生成 KAN 中所有可学习激活函数的参数,将可训练参数量从 KAN 的 \((G+k+1)\) 倍压缩到接近 MLP 水平(约 1/3 到 1/9),同时保持甚至提升性能。

L2D: Large Language Models to Diffusion Finetuning

提出L2D微调方法,将预训练LLM视为单步扩散模型,引入并行扩散路径实现多步推理缩放,不修改原始权重即可随推理步数增加获得单调递增的准确率,在4个LLM上的数学/编码/推理任务上取得一致提升。

查看全部20篇「物理/科学计算」论文 →


📡 信号/通信 (3)

Deep Electromagnetic Structure Design Under Limited Evaluation Budgets

提出 Progressive Quadtree-based Search (PQS) 方法,通过四叉树层次化表示压缩电磁结构的高维设计空间,并利用基于一致性的样本选择机制在有限仿真预算下高效搜索优质设计,相比生成式方法节省 75~85% 的评估成本。

Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

通过将 RoPE 中每个维度从单一频率扩展为傅里叶级数表示,并裁剪欠训练的低频分量,实现注意力机制的可靠周期性扩展,从而大幅提升 LLM 的长度泛化能力。

Large Language Model (LLM)-enabled In-context Learning for Wireless Network Optimization

提出基于 LLM 上下文学习(In-context Learning)的基站功率控制算法,通过自然语言任务描述和经验池驱动的示例选择,在不更新模型参数的条件下达到接近传统深度强化学习的性能。


👥 社会计算 (6)

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

提出 DEFAME,一个模块化零样本多模态 LLM 流水线,通过六阶段动态流程(规划→执行→摘要→推理→判决→解释)结合外部多模态工具检索证据,实现端到端的文本-图像联合事实核查,在 AVeriTeC、MOCHEG、VERITE 三个基准上均达到新 SOTA。

Dynamical Phases of Short-Term Memory Mechanisms in RNNs

本文发现了支持RNN短时记忆的两种不同潜在动力学机制——慢点流形(slow-point manifolds)和极限环(limit cycles),通过解析 toy 模型推导出各自最大可学习率的幂律缩放定律(SP: beta 约4-5 vs LC: beta 约2-3),并通过训练约80,000个RNN进行了大规模实证验证。

Learning Survival Distributions with the Asymmetric Laplace Distribution

提出基于非对称拉普拉斯分布 (ALD) 的参数化生存分析方法,通过神经网络学习 ALD 的三个参数(位置、尺度、不对称性),实现连续、闭式的生存分布估计,在判别性和校准性上全面优于现有参数化与非参数化方法。

OR-Bench: An Over-Refusal Benchmark for Large Language Models

提出首个大规模 LLM 过度拒绝(over-refusal)基准 OR-Bench,包含 80K 安全但易被拒绝的 prompt,揭示安全性与过度拒绝之间存在 Spearman 相关系数高达 0.89 的强权衡关系。

Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

提出 GETA 框架,将心理测量学中的计算机自适应测试(CAT)与自动出题(AIG)结合,通过变分 IRT 和 LLM 驱动的题目生成器动态探测 LLM 的价值边界,解决静态基准因数据泄漏和难度饱和导致的"评估时效性效应"(evaluation chronoeffect)问题。

When Bad Data Leads to Good Models

本文提出"预训练-后训练协同设计"视角,通过受控实验证明在预训练数据中加入适量有毒数据(~10%)反而能降低毒性特征的纠缠度,使模型在后训练阶段(如 ITI 激活引导)更容易去毒,最终在 Toxigen 上将毒性从 41.40 降至 2.63,同时保持语言能力。


🛡️ AI 安全 (37)

A Certified Unlearning Approach without Access to Source Data

提出首个无需访问原始训练数据的认证遗忘框架,利用代理数据集(surrogate dataset)近似原始数据统计特性,通过基于源分布与代理分布之间统计距离的噪声缩放机制,实现可证明的数据删除保证。

Accelerating Spectral Clustering under Fairness Constraints

将公平谱聚类(Fair SC)问题转化为凸差分(DC)优化框架,通过变量增广策略和 ADMM 类型算法,避免了昂贵的特征分解计算,在大规模问题上实现显著加速。

Adaptive Multi-prompt Contrastive Network for Few-shot Out-of-distribution Detection

提出 AMCN(Adaptive Multi-prompt Contrastive Network),通过生成三类自适应文本 prompt(可学习 ID prompt、标签固定 OOD prompt、标签自适应 OOD prompt)并结合类别自适应阈值,在仅有少量 ID 标注样本的条件下实现高质量 OOD 检测,显著超越现有 few-shot OOD 检测方法。

Adversarial Inception Backdoor Attacks against Reinforcement Learning

提出"inception"后门攻击框架——通过在 RL 智能体的训练轨迹中插入触发器并将高回报动作替换为目标对抗动作,首次在严格奖励约束下实现 100% 攻击成功率,同时保持智能体在正常任务上的表现。

An Efficient Private GPT Never Autoregressively Decodes

提出 POST(Public decOding and Secure verificaTion)方法,利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证,借助安全解码对输入长度不敏感的特性,实现 2.1×~6.0× 的隐私推理加速,同时保持与标准安全解码相同的隐私和生成质量。

Avoiding Leakage Poisoning: Concept Interventions Under Distribution Shifts

揭示概念模型(CBM)中的"泄漏中毒"现象——绕过概念瓶颈的信息泄漏在分布偏移下反而损害预测准确率,使概念干预失效,提出 MixCEM 通过置信度门控动态决定何时使用/丢弃泄漏信息,在分布内外均保持高准确率和有效干预。

Breaking the n^{1.5} Additive Error Barrier for Private and Efficient Graph Sparsification

本文突破了差分隐私图割稀疏化的 \(n^{1.5}\) 加性误差壁垒,提出了一种多项式时间的 \((\varepsilon,\delta)\)-DP 算法,将加性误差降至 \(n^{1.25+o(1)}\),核心技术是首个隐私保护的 expander decomposition 算法。

Can One Safety Loop Guard Them All? Agentic Guard Rails for Federated Computing

提出 Guardian-FC——首个后端无关的联邦计算统一安全框架,通过 Agentic-AI 控制平面的有限状态安全循环(Sense→Predict→Act→Prove)统一监管 FHE、DP、MPC 等异构隐私机制,实现一套 guard-rail 逻辑跨所有隐私后端的一致性安全执行。

Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off

提出 FedCEO 框架,通过在服务器端对堆叠的客户端模型参数进行张量低秩近端优化,利用不同客户端间的语义互补性恢复 DP 噪声破坏的语义信息,将效用-隐私权衡界改进了 \(O(\sqrt{d})\) 量级。

Collaborative Mean Estimation Among Heterogeneous Strategic Agents: Individual Rationality, Fairness, and Truthful Contribution

针对异构成本的多智能体协作均值估计问题,设计了同时满足个体理性(IR)、激励相容(IC)和公平性的无货币机制,在最坏情况下实现 \(\mathcal{O}(\sqrt{m})\) 近似比,并证明了三条不可能性结果。

查看全部37篇「AI 安全」论文 →


📂 其他 (90)

Access Controls Will Solve the Dual-Use Dilemma

提出基于访问控制的概念框架来解决AI安全中的双用途困境(dual-use dilemma),通过用户身份验证获取真实世界上下文,结合内容分类实现细粒度的权限管理,同时缓解过度拒绝(over-refusal)和不足拒绝(under-refusal)问题。

Addressing Imbalanced Domain-Incremental Learning through Dual-Balance Collaborative Experts (DCE)

DCE 提出频率感知专家组 + 动态专家选择器的双阶段训练框架,同时解决域增量学习中域内类别不平衡和跨域类别分布偏移两个难题,在四个 benchmark 上达到 SOTA。

Adversarial Combinatorial Semi-bandits with Graph Feedback

本文将图反馈(graph feedback)引入对抗组合半臂赌博机(combinatorial semi-bandits)框架,提出 OSMD-G 算法,建立了最优遗憾(regret)界 \(\widetilde{\Theta}(S\sqrt{T} + \sqrt{\alpha S T})\),其中 \(S\) 是组合决策大小,\(\alpha\) 是反馈图的独立数,关键技术在于利用随机化轮换舍入(randomized swap rounding)实现负相关采样。

AutoAL: Automated Active Learning with Differentiable Query Strategy Search

提出首个可微的主动学习策略搜索框架 AutoAL,通过 SearchNet 和 FitNet 两个网络在双层优化框架下协同训练,自动从多个候选 AL 策略中为给定任务选出最优策略,在自然图像和医学图像数据集上一致超越所有候选策略及其他 SOTA 方法。

Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation

揭示熵最小化在野外测试时适应(WTTA)中的根本局限——局部区域内语义相似样本的预测不一致导致冲突优化动态,提出 ReCAP 框架用概率区域建模和有限到无穷渐近近似将不可处理的区域置信度转化为高效可优化的代理目标,在 ImageNet-C 上一致超越 SOTA。

Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation

本文从理论上分析了多标签二部排序(bipartite ranking)中两种聚合策略——损失聚合(loss aggregation)与标签聚合(label aggregation)——的Bayes最优解,揭示了损失聚合会产生"标签独裁"(label dictatorship)现象(某一标签因边际偏斜度而主导排序),而标签聚合能更均衡地对待所有标签。

Constrained Hamiltonian Systems on Observation-Induced Fiber Bundles: Theory of Symmetry and Integrability

提出"观测诱导纤维丛"几何框架,将部分可观测系统中的观测不确定性从外部扰动内化为纤维坐标的内禀变化,在此结构上统一处理状态约束与观测约束,建立了完整的辛几何、可积性、对称性与守恒律理论。

Continuous-Time Analysis of Heavy Ball Momentum in Min-Max Games

通过连续时间ODE建模,系统揭示了Heavy Ball动量在min-max博弈中与极小化问题截然不同的行为:更小的动量(包括负动量)能扩大收敛步长范围并引导轨迹走向更浅梯度区域,而交替更新比同步更新收敛更快且放大了这一正则化效应。

Cross-regularization: Adaptive Model Complexity through Validation Gradients

提出 Cross-regularization(交叉正则化),通过验证集梯度直接优化正则化参数(权重范数、噪声尺度、增强强度),在单次训练中收敛到交叉验证最优解,消除手动调参需求。

Curvature Enhanced Data Augmentation for Regression

提出 CEMS(Curvature-Enhanced Manifold Sampling),利用数据流形的二阶近似(曲率信息)生成合成样本,用于回归任务的数据增强,在分布内和分布外场景均取得 SOTA 或接近 SOTA 的性能。

查看全部90篇「其他」论文 →