跳转至

🔬 ICLR2026 论文汇总

5307篇ICLR2026论文解读,涵盖强化学习(400篇)、图像生成(352篇)、学习理论(294篇)、LLM Reasoning(241篇)、模型压缩(239篇)、优化/理论(220篇)、多模态 VLM(211篇)、可解释性(195篇)等 53个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (241)

A Balanced Neuro-Symbolic Approach for Commonsense Abductive Logic

ARGOS 让 LLM 和 SAT 求解器互相喂信息:求解器先吐出"已确定为真的文字"(骨架),LLM 据此猜出缺失的常识子句并打分过滤,再丢回求解器,如此迭代补全那些"光看题面推不出答案、缺常识假设"的逻辑题,在多个数据集上比纯神经/纯符号方法最多高 13%。

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

MeRF 把可验证奖励函数用自然语言写进 prompt,作为"游戏规则说明书"在 RL 训练时直接告诉模型优化目标,让大推理模型不再盲目试错,在逻辑/数学推理任务上显著超越 RLVR baseline。

A State-Transition Framework for Efficient LLM Reasoning

提出将 LLM 推理过程建模为状态转移过程的高效推理框架,用 Linear Attention 将历史推理步骤的信息压缩为状态矩阵,使注意力复杂度从 \(O(C^2)\) 降为 \(O(C)\)、KV cache 从 \(O(C)\) 降为 \(O(1)\),同时不缩短 CoT 序列,保持推理能力。额外的动量 momentum 策略缓解了噪声推理步导致的 overthinking 问题。

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

PASR 用强化学习(GRPO)训练 LLM 在生成过程中主动决定"是否/何时/如何"精炼自己的推理轨迹(而非生成完再返工),并设计了一套"对比式精炼奖励"鼓励有价值的修正;在 Qwen3-8B 上相比标准生成把平均 token 消耗降低 41.6% 的同时准确率提升 8.2%。

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

NVIDIA 系统性拆解了"监督微调(SFT)+ 大规模强化学习(RL)"在打造推理模型时的协同关系——通过扩 SFT 数据、按"熵≈0.3"调 RL 采样温度、分阶段延长回答长度,把一个 7B 模型(AceReason-Nemotron-1.1)刷到了 Qwen2.5-7B 同规模数学/代码推理的新 SOTA(AIME25 64.8、LiveCodeBench v6 52.1)。

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

提出 ActivationReasoning (AR) 框架,在 LLM 的潜在激活空间(通过 SAE 提取的特征)上嵌入显式逻辑推理,通过三阶段流程(发现概念表征→检测激活命题→逻辑规则推理)实现多跳推理、概念组合和安全控制,在 PrOntoQA 上 8B 模型达到 95%+ 准确率超越 GPT-4o。

Adaptive Social Learning via Mode Policy Optimization for Language Agents

提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。

Adaptive Thinking: Large Language Models Know When to Think in Latent Space

本文提出 Sonata:用一个轻量 MLP 适配器,在 prefilling 阶段从查询的最后一层隐状态直接预测"自一致性",据此在解码前决定一道题该不该思考、思考多少,从而在维持精度的同时把思考 token 砍掉 20%–60%。

Agentic Reinforcement Learning with Implicit Step Rewards

本文提出 iStar,一种面向 LLM 智能体多轮强化学习的通用信用分配策略:用一个隐式过程奖励模型(PRM)和策略模型交替优化,通过多轮 DPO 目标在线学出每一步动作的稠密奖励,再把步骤级优势和 episode 级优势相加去更新策略,在 WebShop、VisualSokoban 和开放式社交 SOTOPIA 上都拿到 SOTA,且样本效率与训练稳定性都更好。

AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent

AgentMath提出一个工具增强的Agent框架,通过自动化数据合成、多轮交互式强化学习和高效异步训练系统,将LLM推理能力与代码解释器的计算精度无缝结合,在AIME24/25和HMMT25上以30B-A3B规模达到SOTA水平(90.6%/86.4%/73.8%),超越o3-mini和Claude-Opus-4.0-Thinking。

查看全部241篇「LLM Reasoning」论文 →


🦾 LLM Agent (162)

A\(^2\)FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

A2FM 在同一个 backbone 里塞进 instant / reasoning / agentic 三种执行模式,先学"该走哪条路"再对齐各模式轨迹,并用一套带成本正则的强化学习(APO)让模型在简单题上少花钱、难题上不掉准,32B 规模上把单次正确答案的成本砍掉约 45%。

A Benchmark for Deep Information Synthesis (DeepSynth)

提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。

A Framework for Studying AI Agent Behavior: Evidence from Consumer Choice Experiments

作者提出 ABXLAB——一个实时拦截并改写网页内容的"中间人"框架,把任意购物网站变成可控的行为实验场,系统性地测量 17 个主流 LLM 智能体在价格、评分、展示顺序、心理 nudge 等线索下的选择偏差,发现智能体比人类更容易被操纵,偏差幅度可达人类的 3–10 倍。

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

提出一种轻量的「智能体数据中间语言」ADP,把 13 个格式各异的智能体训练集统一成同一套 Trajectory/Action/Observation 模式,再分发到不同 agent 框架做 SFT,平均比 base 模型涨约 20%,在编码/浏览/工具使用等任务上达到 SOTA 或接近 SOTA。

AgentFold: Long-Horizon Web Agents with Proactive Context Folding

AgentFold 把 web agent 的上下文当作可主动雕刻的"认知工作区",每一步在推理时额外输出一个"折叠指令",对历史轨迹做细粒度凝练或多步深度合并,使 100 轮交互后上下文仅约 7k token;仅 30B 激活 3B 的模型就在 BrowseComp 上拿到 36.2%,超过 671B 的 DeepSeek-V3.1 和 OpenAI o4-mini。

AgentGym-RL: An Open-Source Framework to Train LLM Agents for Long-Horizon Decision Making via Multi-Turn RL

本文开源了一个解耦的多轮强化学习框架 AgentGym-RL,能在 Web 导航、深度搜索、数字游戏、具身控制、科学任务五大真实场景里从零训练 LLM agent,并提出 ScalingInter-RL——一种"先短程后长程"逐步放大交互轮数的分阶段训练法,让 7B 模型在 27 个任务上追平甚至超过 OpenAI o3、Gemini-2.5-Pro。

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

提出 ACE(Agentic Context Engineering)框架,将 context 视为不断演化的"策略手册"(playbook),通过 Generator-Reflector-Curator 三角色分工和增量式 delta 更新来持续积累和精炼策略,解决了现有 prompt 优化中的简洁偏差和上下文坍塌问题,在 agent 任务上平均提升 10.6%、金融任务提升 8.6%,且自适应延迟降低 86.9%。

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

AgenTracer 用"反事实回放 + 程序化故障注入"自动标注多智能体失败轨迹、造出 TracerTraj-2.5K 数据集,再用多粒度强化学习训出一个 8B 的轻量"失败追踪器",在 Who&When 基准上把决定性错误定位到具体智能体和步骤,agent 级准确率反超 Gemini-2.5-Pro、Claude-4-Sonnet 等巨型模型最多 18.18%,并能给 MetaGPT、MaAS 等现成系统反馈、带来 4.8~14.2% 的性能提升。

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。

AlphaAgentEvo: Evolution-Oriented Alpha Mining via Self-Evolving Agentic Reinforcement Learning

把量化"挖因子"从脆弱的"搜索—回测—重启"循环,重写成一条连续进化轨迹:用一个 4B 的 LLM 智能体,在多轮工具调用中由分层奖励引导自我探索,学会长程规划和反思,最终用 4B 参数就超过用 GPT-5-mini / DeepSeek-R1 驱动的因子进化方法。

查看全部162篇「LLM Agent」论文 →


👥 Multi-Agent (47)

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

提出 HILA 框架,让多智能体 LLM 学会一套"元认知策略"——自己判断什么时候能独立解题、什么时候该把问题交给人类专家;再用 Dual-Loop Policy Optimization 把"何时求助"(内环强化学习)和"如何从求助中长本事"(外环持续学习)分开优化,在数学推理等基准上稳定超过现有自主多智能体系统。

Aegis: Automated Error Generation and Attribution for Multi-Agent Systems

Aegis 用一个 LLM 操纵器把成功的多智能体轨迹"主动注入"成带标签的失败轨迹,自动造出 9,533 条标注了"出错智能体 + 错误模式"的数据,从而把昂贵的人工标注瓶颈变成可规模化的工程问题,并支持 SFT / RL / 对比学习三种范式训练错误归因模型。

AgentPO: Enhancing Multi-Agent Collaboration via Reinforcement Learning

AgentPO 不去搜索多智能体拓扑结构,而是在一个固定拓扑里冻结强大的 Actor、只用强化学习(GRPO)训练一个轻量级 Collaborator 学会"怎么辅助队友",仅用 500 条训练样本和 EvoAgent 7.8% 的推理开销,就在多个数学推理基准上稳定超越 Role Assignment、EvoAgent 等强基线。

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

把"出题—解题—评分"三个 agent 组成对抗循环,并用一个非 LLM 的贝叶斯更新规则同时进化代码、测试用例和提示词,让 32B 开源模型在科学代码生成基准上打过 235B 模型,把系统可靠性从"赌单个 LLM 够强"转成"靠贝叶斯收敛降不确定性"。

Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems

这篇论文用一个强制三选一的开放式偏见基准 Discrim-Eval-Open,把多智能体系统(MAS)建模成有向无环图、用基尼系数追踪偏见在层间的"放大率",系统性地证明了一个反直觉结论:人们以为多智能体协作会"稀释"偏见,实际上各种角色分工、复杂拓扑、加深迭代反而把单体模型里微小的随机偏好放大成系统性的人群歧视,甚至一句客观中性的外部信息就能触发剧烈极化。

ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

ATLAS 把"带搜索的真实旅行规划"形式化成一个动态约束满足问题(CSP),用 5 个分工明确的 LLM 智能体(搜索、约束管理、规划、检查、搜索顾问)协同补全约束、迭代纠错、并在卡死时反过来指导搜索,把 TravelPlanner 最终通过率从 23.3% 提到 44.4%,并首次在带实时网络搜索的真实多轮场景里做到 84% 通过率。

Benefits and Limitations of Communication in Multi-Agent Reasoning

本文给"把长上下文切块、多个 LLM agent 分头处理再汇总"这类多智能体推理系统建了一套基于 Transformer 表达力的理论框架,在关联召回、状态追踪、k-hop 推理三类任务上证明了需要多少个 agent、多少通信、能换来多少并行加速的紧界,划出三种 depth–通信权衡区间,并用 Llama 在合成基准上验证理论预测的拐点确实出现。

Breaking and Fixing Defenses Against Control Flow Hijacking in Multi-Agent Systems

这篇论文先证明了现有"对齐检查"类防御(如 LlamaFirewall)能被精心改写的控制流劫持攻击绕过,再提出 CONTROLVALVE——一个借鉴程序控制流完整性思想的协同层防御:在任务规划期生成"允许的智能体调用图 + 每条边的上下文规则",运行期对每次智能体跳转只做"是否在图里、是否满足边规则"的窄判定,从而在不掉基准任务性能的前提下把所有评测攻击的成功率压到 0%。

BRIDGE: Bi-level Reinforcement Learning for Dynamic Group Structure in Coalition Formation Games

把"把一群智能体最优地划分成若干联盟"(NP 完全的联盟结构生成问题)建模成一个紧凑、可被强化学习吃下的 MDP,再用双层 RL(上层学合并联盟、下层学每个智能体的最优策略)联合求解,使得在 3 个智能体上训练的模型能泛化到 100 个智能体,并在推理速度和混合动机马尔可夫博弈上超过传统启发式方法。

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

让多个大语言模型不再靠"互相说话"协作,而是用一个轻量神经网络把 Sharer 模型的 KV-Cache 直接投影、融合进 Receiver 模型的 KV-Cache,绕开 token-by-token 的文本生成,既保住了文本会丢失的深层语义,又把延迟平均压低 2.5×,准确率比纯文本协作高约 3–5%。

查看全部47篇「Multi-Agent」论文 →


⚖️ 对齐 / RLHF (102)

A2D: Any-Order, Any-Step Safety Alignment for Diffusion Language Models

提出 A2D,一种针对扩散语言模型(dLLM)的 token 级安全对齐方法,通过训练模型在遇到有害内容的 mask 位置输出 [EOS] token 来实现任意解码顺序、任意解码步的安全防御,将 DIJA 模板攻击成功率从 80%+ 降到近零(1.3%/0.0%),并支持早期拒绝实现 19.3x 加速。

ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment

ActiveDPO 用「被对齐的 LLM 自身」当奖励模型,基于其隐式奖励的梯度推导出一套有理论保证的不确定性准则,主动挑选最值得标注的偏好三元组,从而在固定标注预算下用更少的人工偏好标签把 LLM 对齐到更高水平。

Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment

提出 Multi-Lingual Consistency (MLC) 辅助损失,通过 SVD 操控多语言表示矩阵的奇异值使其趋向秩-1(即多语言表示共线),仅需多语言 prompt 翻译(无需目标语言的 response),即可将一种语言的安全对齐效果一致性地迁移到所有语言。

Aligner, Diagnose Thyself: A Meta-Learning Paradigm for Fusing Intrinsic Feedback in Preference Alignment

针对偏好数据集里"标错的偏好对"会毁掉 DPO 对齐的问题,本文不再依赖困惑度差这类单一启发式,而是让模型"自我诊断"——从一致性、学习难度、生成置信度三个内在信号拼出一个诊断向量,再用元学习训一个小网络学会融合这些信号给每个样本自适应加权,在多种噪声比例下显著超过现有鲁棒对齐方法。

Aligning Deep Implicit Preferences by Learning to Reason Defensively

针对 LLM 个性化对齐里"只会照搬用户说出口的偏好、推不出深层意图、也不会主动规避风险"的问题,本文把对齐从标量奖励匹配重构成结构化推理过程——先用"多角色认知委员会"造出带逐步批判标注的推理链数据集 DeepPref,再训练一个会"先写批判再打分"的生成式过程奖励模型 Pers-GenPRM,最后用融合数值与自然语言反馈的 token 级在线 RL(CDPA)对齐策略模型,在深度偏好理解和防御性推理上都拿到 SOTA。

Alignment-Weighted DPO: A Principled Reasoning Approach to Improve Safety Alignment

作者先用因果干预证明"当前的安全对齐是浅层的、和深度推理无关",再用一份开源的 CoT 安全微调数据让模型学会"讲道理地拒绝",最后提出 Alignment-Weighted DPO:把回答拆成"推理段"和"答案段"分别赋权,对越狱失败中更有害的那一段做更重的偏好更新,从而在保住效用的同时显著提升对各类越狱攻击的鲁棒性。

AlphaAlign: Incentivizing Safety Alignment with Extremely Simplified Reinforcement Learning

AlphaAlign 用一套极简的纯强化学习框架——只需"是否有害"的二元标签 + 不到 200 步 RL——把大模型预训练时就潜藏的"安全自我意识"激发出来,让它先写一段安全推理再作答,靠"可验证安全奖励 + 归一化帮助性奖励"双奖励同时打破"越安全越没用"的权衡。

AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

提出 AlphaSteer,通过学习一个受零空间约束的变换矩阵来动态构造 steering 向量,对良性输入产生近零向量(保持效用),对恶意输入重建拒绝方向向量(增强安全),在理论上保证了安全与效用的解耦。

Anchored Supervised Fine-Tuning

本文用 reward-weighted regression (RWR) 框架严格解释了 DFT「更紧但会漂移」的本质,并提出在 DFT 重加权目标上叠加轻量级 KL 锚定项的 ASFT,以 SFT 级算力同时拿下推理与知识两类任务的稳定增益。

Annotation-Efficient Honesty Alignment via Confidence Elicitation and Calibration

这篇论文把"诚实对齐"(让 LLM 在回答前就准确说出自己有多大把握)拆成"引出-再-校准"两阶段:先用免标注的自一致性信号教模型把内在置信"说出来",再用极少量(~1k 条,约 0.18% 全量)正确性标注把这个置信校准到真实准确率上,配套发布了 56 万训练样本的 HonestyBench,使得只用 1k 标注就能达到全量监督 98% 的对齐效果。

查看全部102篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (184)

A2ASecBench: A Protocol-Aware Security Benchmark for Agent-to-Agent Multi-Agent Systems

这篇论文首次系统地评估了 Agent-to-Agent(A2A)协议驱动的多智能体系统的安全性:作者提出一套覆盖"供应链操纵"和"协议逻辑弱点"两大类、共 6 种协议感知攻击的威胁分类法,并据此构建首个 A2A 专用安全 benchmark——A2ASecBench,用动态适配器把攻击迁移到不同 agent 栈与下游任务、用"安全-效用联合评测"同时量化危害性与有用性,在官方 A2A demo 的旅行/医疗/金融三个高风险场景里发现多数攻击的攻击成功率(ASR)高达 100%,且能迁移到 LangGraph、ANP 等其他生态。

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

GuardSpace 用「协方差预条件 SVD 把安全相关权重剥离冻结 + 零空间投影约束适配器更新」两道关卡,让 LLM 在下游微调时几乎不掉安全对齐,同时下游精度还略涨。

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

这篇论文指出,当前几乎所有 AI 控制(AI control)协议都把一个较弱的可信 LLM 监视器当成核心安全闸门,而一个知道协议细节的强力不可信模型只需在自己的输出里嵌入一段针对该监视器的 prompt injection,就能让监视器给恶意代码打出极低的可疑分,从而把 Trusted Monitoring、Defer-to-Trusted、Trusted Editing、Defer-to-Resample 等协议的安全性全部打回到"无监视器的前置审计(Upfront Auditing)"水平——其中 Defer-to-Resample 因为重采样反而把攻击放大成 best-of-n,安全性不升反降。

AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

AdPO 第一次把大视觉语言模型(LVLM)的对抗训练改写成偏好优化问题:让模型"偏好"在干净图上的正确输出、"拒绝"对抗图上的误导输出,且只微调 CLIP 图像编码器,在小模型上训练后迁移到大模型,既显著提升对抗鲁棒性又几乎不掉干净性能。

AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models

针对大推理模型在思维链上"小偏差被逐步放大"的雪球效应(既会从安全分析滑向有害顺从,也会从乐于助人滑向过度拒答),本文提出 AdvChain:构造"诱惑-纠正 / 犹豫-纠正"两类故意带错再改回来的对抗 CoT 样本来微调模型,让它学会动态自我纠错;仅用 1k 数据就把越狱攻击和 CoT 劫持的成功率压到接近用 15× 数据训练的 RealSafe-R1,同时显著降低过度拒答、不损伤数学/代码推理能力。

Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

作者提出"对抗 Déjà Vu"假设——新越狱并非全新发明,而是旧攻击中对抗技能的重新组合;他们用稀疏字典学习把 32 篇攻击论文里抽出的 1.7 万条技能压成约 400 个可解释基元(越狱字典),既验证了"未见攻击能被旧技能稀疏重建",又据此提出 ASCoT 训练法(在技能组合而非单条攻击上训练),把对未见越狱的有害率压到全场最低且不过度拒答。

Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges

AMIS 把"自动越狱"从"只优化攻击提示"升级为"同时进化攻击提示和评分模板"的双层元优化框架——内层用细粒度连续评分指导提示迭代,外层用一个新提出的"ASR 对齐分数"反过来优化评分模板,让评分越来越贴近真实攻击成败,最终在 Claude-4-Sonnet 上打到 100% ASR,平均超出基线 70 多个百分点。

All Code, No Thought: Language Models Struggle to Reason in Ciphered Language

作者系统测试了 10 个模型在 28 种密码(cipher)下的数学推理能力,发现一个关键的"不对称性":模型能流畅地把密文翻译回英文(看得懂),但用密文推理时准确率却大幅下降(想不通),说明现阶段 LLM 想靠密文化思维链来逃避监控并不可行。

An Ensemble Framework for Unbiased Language Model Watermarking

本文提出 ENS,一个把多个独立密钥的无偏 logits 水印串联复合起来的集成框架——每层只注入一点点不可察觉的弱信号,叠 \(n\) 层后检测端把 \(n\) 把密钥的分数聚合,信噪比约提升 \(\sqrt{n}\),从而在严格保持输出分布不变(无偏)的前提下大幅提升检测力与抗改写鲁棒性。

Analyzing and Evaluating Unbiased Language Model Watermark

本文提出 UWBENCH——首个专门评测「无偏(distortion-free)语言模型水印」的开源基准:在理论上证明了「任何可检测的无偏水印在同一 prompt 反复查询下都无法保持原分布」的不可能性定理、给出量化多次生成分布漂移的 SPMG 指标和针对 token 级编辑攻击的认证鲁棒性边界,在实证上确立「无偏性 / 可检测性 / 鲁棒性」三轴评测协议,并指出 token 替换攻击比改写攻击更能给出稳定可复现的鲁棒性结论。

查看全部184篇「LLM 安全」论文 →


👻 幻觉检测 (40)

AFTER: 用自适应事实引导的激活编辑缓解 LVLM 的物体幻觉

AFTER 把图像的真值标注「文本化」成类别/属性/关系三类事实,用事实描述与原始图像的激活差构造正向的视觉-文本编辑方向,再训练一个轻量估计器为每个 query 估计偏移量,从而自适应地把 LVLM 的幻觉激活推向事实语义,在 AMBER 上最多降低 16.3% 的幻觉。

BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

针对大推理模型(LRM)在事实问答上"宁可编也不说不知道"的毛病,本文先定位出两种由"事实性过度思考"引发的病态推理模式,再用"知识边界标注 → 边界感知 SFT → 基于可靠性奖励的 GRPO"三段式训练框架 BARREL,把 DeepSeek-R1-Distill-Llama-8B 的可靠性从 39.33% 拉到 61.48%,且准确率不降反升。

Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection

作者发现「由幻觉答案引出的多轮自对话,其不确定性分数会出现远比真实答案剧烈的尖峰抖动」,于是把这种抖动量化成 SpikeScore(分数序列的最大二阶差分),用一个阈值就能做到只在单个领域训练、却能跨多个领域稳定检测幻觉,在四个 LLM、六个 benchmark 上的跨域 AUROC 全面超过 PRISM、ICR Probe 等专门的跨域方法。

Cat-PO: Cross-modal Adaptive Token-rewards for Preference Optimization in Truthful Multimodal LLMs

针对多模态大模型的幻觉问题,本文提出 Cat-PO:在 DPO 偏好优化中,仅靠模型自身的跨模态注意力与相似度,为每个回答 token 计算全局/局部/语义三层视觉相关性,融合成一个平滑的 token 奖励来重新加权 DPO 损失并加上 token 级 KL 正则,从而对幻觉 token 做细粒度纠偏,在 AMBER-Generation、MM-Hal 等基准上比现有 SOTA 高 7%–15%。

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

ChainMPQ 是一个无需训练的推理框架:把"主体—关系—客体"这一关系问题拆成 5 个互补子问题,按顺序喂给视觉语言模型,并把每一步的文本答案与视觉注意力记忆传递给后续步骤,形成交错的图文推理链,从而在多个 LVLM 和关系幻觉基准上稳定降低关系幻觉。

CoFact: Conformal Factuality Guarantees for Language Models under Covariate Shift

把 LLM 事实性控制中固定不变的"共形阈值"换成随测试分布在线漂移而自适应调整的阈值,用在线密度比估计动态对校准集重加权,从而在 prompt 流持续协变量漂移、且拿不到测试标签的现实场景下,依然保证幻觉率不超过用户设定的 α。

Copy-Paste to Mitigate Large Language Model Hallucinations

提出 Copy-Paste 生成范式,通过训练 LLM 优先直接复制检索上下文中的片段来生成回答,而非自由改写,配合高复制偏好的 DPO 训练,在反事实 RAG 基准上将忠实度从 80.2% 提升到 92.8%。

Critical Confabulation: Can LLMs Hallucinate for Social Good?

本文把"幻觉"重新框定为一种可用资源:提出 critical confabulation(批判性虚构),让 LLM 在证据约束下"填补"历史档案中被结构性抹除的空白,并用一个基于未出版黑人历史语料的"叙事完形填空"任务系统评估了 19 个模型,证明受控、良定义的幻觉可以服务于知识生产而不坍缩成虚假。

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

提出动态多模态激活引导(DMAS),通过构建基于语义的真实性引导向量数据库和视觉感知引导向量,在推理时动态选择最相关的引导向量对关键注意力头进行干预,无需训练即可显著缓解LVLM幻觉,在MME上提升94.66分,在CHAIR上降低20.2%幻觉率。

EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models

EmotionHallucer 是一个面向 MLLM 情绪理解的幻觉评测基准,它把情绪幻觉拆成“情绪心理学知识”和“真实多模态情绪感知”两大维度,用成对的 basic / hallucinated 二元问答检测模型是否既能做基本情绪判断、又能拒绝看似合理但错误的情绪描述,并进一步提出 PEP-MEK 推理框架让模型在多模态情绪感知子集上平均提升 9.90%。

查看全部40篇「幻觉检测」论文 →


📊 LLM 评测 (131)

ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems

AcadReason 用 5 个高推理学科(计算机、经济、法律、数学、哲学)的 50 道顶刊论文研究问题,专门考 LLM 和 Agent 能不能"像研究者一样"获取并推理学术知识——结果是绝大多数 LLM 不到 20 分、连 GPT-5 也只有 16 分,最强 Agent OAgents 也只拿到 34 分,揭示了模型在"超智能学术研究"上的巨大差距。

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

通过统计分析扩散语言模型(dLLM)去噪过程中 token 置信度的动态变化,发现"波动带"(Volatility Band)区域编码了文本的局部语义结构,进而提出 AdaBlock-dLLM——一个无训练、即插即用的自适应块大小调度器,让半自回归解码的块边界与语义步骤自然对齐,在相同吞吐量下最高提升 5.3% 准确率。

Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation

本文指出自然语言生成不确定性估计的主流 QA 选择性预测评测会被近似正确性函数严重左右,并提出用 SP-MoJI、结构化任务、OOD/扰动检测和 Elo 聚合来让评测结论更稳健。

Agentic Reinforced Policy Optimization

ARPO 是一种为多轮工具调用智能体量身定制的强化学习算法:它发现 LLM 在每次工具返回结果后 token 熵会骤升,于是在这些高熵步上自适应地"分叉"采样、再用优势归因把分叉路径的好坏差异传回去学习,结果在 13 个推理/深搜基准上全面超过轨迹级 RL,且只用一半的工具调用预算。

AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation

AirQA 是一个人工标注的 AI 科研问答数据集(13,956 篇论文、1,246 道题),覆盖单文/多文/检索/综合四类问题与文本/表格/图像/公式/元数据五类元素,并首次用 19 个「逐题定制」的 Python 函数做实例级客观评测;同时提出三智能体框架 EXTRACTOR 自动合成问答对与交互轨迹,让 7B 小模型微调后达到 14B 模型的工具调用水平。

AlphaBench: Benchmarking Large Language Models in Formulaic Alpha Factor Mining

AlphaBench 是第一个系统评测大语言模型在「公式化 Alpha 因子挖掘」(FAFM)能力的基准,把量化研究员的真实工作流拆成因子生成、因子评估、因子搜索三大任务,在 Qlib + CSI300 真实回测环境下横评十余个开源/闭源模型,发现 LLM 能可靠地生成合法因子、却在判断因子好坏(评估任务)上接近随机猜测。

An Open-Ended Benchmark and Formal Framework for Adjuvant Research with MLLM

针对长期被 AI 忽视的"疫苗佐剂(adjuvant)"领域,构建了首个由领域专家标注的开放式问答 benchmark(1294 条 QA + 1364 条形式化描述),系统评测 11 个闭源 + 19 个开源 MLLM,并提出一套把佐剂设计原理和免疫机制编码成结构化变量/函数的形式化框架。

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning

构建首个面向麻醉学推理的综合数据集套件AnesSuite,包含评测基准AnesBench(7972道三级认知难度双语选择题)和三组训练数据集(AnesCorpus/AnesQA/AnesR1),基于此训练的Morpheus模型通过SFT+GRPO让7B模型追平14B基线,同时揭示了当前最强LLM在复杂临床推理(System 2)上的显著瓶颈。

Are LLMs Really Not Knowledgeable? Mining the Submerged Knowledge in LLMs' Memory

这篇论文指出 LLM 在问答任务上答错或回答"不确定",往往不是因为参数里没存相关知识,而是知识"沉在水面下没被表达出来"——它提出 Hits@k 指标证明:正确答案常常就排在 top-k logits 里只是没被选中(LLaMA3-8B 在 DBpedia 上 Hits@1 仅 17.2%,Hits@5 却到 57.9%),并进一步揭示主流"允许回答 unsure"的提示范式会主动压制低置信度的正确答案。

ASIDE: Architectural Separation of Instructions and Data in Language Models

提出 ASIDE,一种在 token embedding 层面通过正交旋转区分指令和数据的架构级改造,仅需修改前向传播并在标准指令微调数据上训练,即可显著提升指令-数据分离度和 prompt injection 鲁棒性,无需任何安全专项训练。

查看全部131篇「LLM 评测」论文 →


⚡ LLM 效率 (169)

A Two-Phase Deep Learning Framework for Adaptive Time-Stepping in High-Speed Flow Modeling

ShockCast 把"高速流动的自适应时间步进"拆成两个学习问题——先用一个 Neural CFL 模型根据当前流场预测下一步该走多大的时间步 \(\Delta t\),再用一个被 \(\Delta t\) 条件化的 Neural Solver 把流场往前推进 \(\Delta t\),两者在推理时自回归交替,从而让神经求解器能在含激波的超声速流场上像经典求解器一样"该细的地方细、该粗的地方粗"。

Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles

针对扩散语言模型(dLLM)现有采样策略"速度恒定、不会随生成状态调整"的问题,本文先总结出三条经验规律(确定性、收敛性、位置性),据此设计了在"慢相探索"与"快相加速"之间动态切换的 SlowFast Sampling,并可与 dLLM-Cache 正交叠加——在 GPQA 上对 LLaDA 实现最高 15.63× 加速、叠加缓存后达 34.22×,精度几乎无损。

Attention Is All You Need for KV Cache in Diffusion LLMs

针对扩散语言模型(DLM)每步都重算全部 token、全部层 KV 的冗余问题,本文提出训练无关、架构无关的 Elastic-Cache:用「最受关注 token 的注意力漂移」判断何时刷新缓存、用「深层先变」的规律决定从哪层往上刷新,并对滑动窗口外的远端 MASK token 做块级缓存,在 LLaDA / Dream-7B 等模型上实现最高 45.1× 解码加速且几乎不掉点。

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

SAC 不再像 ICAE 那样追加随机初始化的"压缩 token"并靠自编码预训练去重建上下文,而是直接从原文里挑出若干"锚点 token"、给它们加一个可学习的锚点嵌入、再用双向注意力让锚点聚合全局信息,把上下文压进锚点的 KV 里——彻底丢掉自编码任务后,在问答和长文摘要上反而稳定超过现有压缩方法。

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

AutoSP 把序列并行(SP)从手写、与框架强耦合的算子,抬升成 PyTorch-2.0 编译栈里的两个编译 pass——在 Torch-IR 上自动插通信、resize 激活 buffer 的 SP-Pass,以及在 Aten-IR 联合图上松开 min-cut 约束、重算计算密集算子的序列感知激活检查点 SAC-Pass——让用户几行代码就能把单卡模型编译成分布式长上下文训练管线,在 NVIDIA / AMD 上把可训练序列长度拉长最高 2.7× / 2.5×,而吞吐几乎无损。

BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models

BA-LoRA 在 PiSSA 谱初始化的 LoRA 框架上叠加「一致性 + 多样性 + SVD」三个输出空间正则,分别对治微调放大预训练偏置时的知识漂移、表征坍缩与噪声过拟合,在 NLG/NLU 多任务上稳定超过一众 LoRA 变体,且在噪声更重的预训练模型上增益更大。

Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models

DAEDAL 利用扩散大语言模型(DLLM)在去噪时对 EOS token 的预测置信度这一内部信号,免训练地在去噪前先把序列长度从一个短的统一初值粗调到任务合适的长度、再在去噪过程中对低置信度区域局部插入 mask 扩容,从而摆脱"必须手工预设生成长度"的桎梏,在四个数学/代码基准上达到甚至超过精调定长基线的精度,同时大幅提升有效 token 占比。

Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes

DID 把扩散语言模型的「掩码-去掩码」彻底换成「删除-插入」两条连续时间马尔可夫链:前向把 token 逐个删到空序列、后向从空序列逐个插回去,再配一套基于「插入分数」的 DISE 训练目标和并行动态规划,既扔掉了占一半算力的 <MASK>/<PAD> token,又天然支持变长和生成中自纠错,定长/变长两种设定下训练加速最高 3.42×、推理加速最高 3.79×。

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

RoPE++ 重新拿回标准 RoPE 复数注意力中被丢弃的负虚部,把它作为与真实部并行的 imaginary attention head,在不增加 KV cache 或直接减半 cache 的配置下提升长上下文建模能力。

BoRA: Towards More Expressive Low-Rank Adaptation with Block Diversity

BoRA 把 LoRA 的 \(BA\) 看成块矩阵乘法,给每个块积 \(B_iA_j\) 插入一个独立的对角矩阵 \(\Sigma_{i,j}\) 来打破块之间的相关性,只用 \(b^2r\) 个额外参数就把 LoRA 权重的秩提升到原来的 \(b\) 倍,在 GLUE、数学和常识推理上以与 LoRA 相近的参数量取得 2-4% 的准确率提升。

查看全部169篇「LLM 效率」论文 →


📚 预训练 (79)

A Law of Data Reconstruction for Random Features (and Beyond)

从信息论和代数角度证明随机特征模型中存在数据重构定律:当参数量 \(p \gg dn\)\(d\) 为数据维度,\(n\) 为样本数)时,训练数据可被完整重构,并通过投影损失优化方法在 RF、两层网络和 ResNet 上验证了该阈值的普适性。

Accessible, Realistic, and Fair Evaluation of Positive-Unlabeled Learning Algorithms

提出首个 PU 学习统一基准,系统解决两个关键问题:(1) 用代理准确率和代理 AUC 实现无负样本的模型选择;(2) 发现并通过将正样本并入无标签集的简单校准方法解决单样本设置下的内部标签偏移问题,使双样本算法在单样本评估中得到公平比较。

ADEPT: Continual Pretraining via Adaptive Expansion and Dynamic Decoupled Tuning

ADEPT 发现 LLM 各层、各参数单元对"通用能力"的贡献是高度不均的,于是只复制那些对通用域最不重要的层来腾出新容量,并在这些扩展层内部按单元重要性分配不对称学习率,从而在数学/医学领域持续预训练中既注入新知识又几乎不损伤通用能力——只调 15% 参数、不到 50% 训练时间,却比全参 CPT 在通用基准上高 5.76%、领域基准上高 5.58%。

Autoregressive Models Rival Diffusion Models at Any-Order Generation

本文提出 A3(Any-order Any-subset Autoregressive modeling),把扩散语言模型的"任意顺序、任意子集"灵活性重新装回自回归框架——通过分组式因子分解保留 AR 的多层依赖建模能力,再用双流注意力 + 渐进式课程把预训练 AR 模型平滑改造成任意顺序生成器,在用更少训练数据的前提下全面超过同规模扩散语言模型。

Avey-B:把无注意力架构改造成双向编码器

Avey-B 把原本自回归的无注意力架构 Avey 改造成 BERT 式双向编码器:去掉因果掩码、把静态权重和动态相似度解耦成交替层、给动态层加行归一化、再在 ranker 里塞一个神经压缩器,结果在 token 分类和信息检索上稳超 BERT/RoBERTa/ModernBERT/NeoBERT,且预训练 token 量比 ModernBERT 少约 11×、在 96K 长度上吞吐快 ModernBERT 3.38×。

Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data

针对"长文本 ≠ 长依赖"这个被忽视的事实,提出 LongFilter——用同一个语言模型在长/短上下文下对每个 token 的预测分布做对比,量化"扩展上下文带来的信息增益",据此筛掉那些虽然很长但其实只靠局部就能预测的样本;用筛后的数据继续预训练 LLaMA-3-8B(8K→64K),在 HELMET、LongBench、RULER 上平均提升 2 分以上,且约一半数据量即可达到等效效果。

Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries

这篇论文提出 未来摘要预测(Future Summary Prediction, FSP):在标准的下一 token 预测之外挂一个辅助头,让模型预测对长程未来序列的紧凑摘要(而不是逐个预测未来若干 token),并给出两种摘要构造方式——手工的词袋摘要(FSP-BoW)和用反向语言模型蒸馏出来的学习式摘要(FSP-RevLM);3B/8B 大规模预训练实验显示它在数学、推理、代码任务上稳定超过 NTP 与多 token 预测(MTP),数学任务上最高提升约 4–5 个百分点。

Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining

这篇论文系统地拓宽了"元数据条件化加速 LLM 预训练"的设计空间:除了已知有效的 URL 前置,作者发现细粒度的质量分数与领域信息同样能加速训练,并提出"后置元数据作为辅助预测任务"和"可学习元 token"两种新机制,再用逐层探针揭示这些信号如何重塑潜在表征。

Block-Sample MAC-Bayes Generalization Bounds

提出块样本MAC-Bayes泛化界(mean approximately correct),将训练数据划分为J个块后用各块条件下的KL散度之和替代整体KL散度,在确定性学习算法(如均值估计)等原始PAC-Bayes界为空(vacuous)的场景下仍能给出有限、有意义的泛化误差界,并证明了该界的高概率版本在一般情况下不可行。

Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

这篇论文指出前沿团队普遍依赖的"用小代理模型、固定超参比较数据配方"的做法存在致命缺陷——数据集排名会被学习率的微小变化翻转,作者提出用极小学习率(\(10^{-5}\sim10^{-6}\))训练代理模型作为简单补丁,并在 23 个数据配方上把代理(GPT2-125M)到目标模型(Pythia-1B)的排名 Spearman 相关性从 \(<0.75\) 提升到 \(>0.95\)

查看全部79篇「预训练」论文 →


✏️ 知识编辑 (15)

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

ACE 通过神经元级归因发现「隐式主语在多跳推理里扮演 query 神经元、逐层激活 value 神经元」这一被忽视的机制,并据此把编辑从「层级启发式」精细到「query-value 通路」,在多跳事实召回上比 SOTA 的 PMET 在 GPT-J 上高 9.44%、在 Qwen3-8B 上高 37.46%。

Bilinear Representation Mitigates Reversal Curse and Enables Consistent Model Editing

通过在合成关系知识图谱上从头训练 Transformer,发现适当正则化会使模型隐层涌现出双线性关系结构(bilinear relational structure),该结构不仅能克服逆向诅咒(reversal curse),还能实现编辑单个事实后逻辑一致地传播到相关事实。

Disentangling Knowledge Representations for Large Language Model Editing

针对知识编辑会误伤"同主体但不同关系/客体"的细粒度无关知识这一被忽视的问题,本文提出 DiKE:先用一个可复用的解耦模块把主体表示拆成"与目标知识相关"和"无关"两部分,再只对相关部分做编辑、显式约束无关部分不变,并推导出一个闭式的秩一参数更新公式,在保住细粒度无关知识的同时维持了主流编辑性能。

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

揭示大规模模型编辑失败的根本原因是 key embedding 与 residual embedding 之间的结构不一致(embedding misalignment),提出 EAMET 通过渐进式保存已优化的残差 embedding 并用 KL 散度 + MSE 双损失将其邻域结构对齐到 key embedding 空间,在 6 个 LLM、3 个数据集上同时编辑 10k 事实时平均超越 MEMIT 14%(CounterFact)和 8%(ZsRE),且在长前缀和同主语多事实两大鲁棒性场景下表现稳健。

Energy-Regularized Sequential Model Editing on Hyperspheres

从超球面均匀性(Hyperspherical Energy)视角理解序列模型编辑中的性能退化,提出 SPHERE 方法:通过将编辑扰动投影到预训练权重主超球方向的正交补空间,实现稳定的大规模序列编辑,在 LLaMA3-8B 上平均超越最强基线 16.41%。

Fine-tuning Done Right in Model Editing

揭示模型编辑中 fine-tuning 被低估的根因是错误的训练 pipeline(深度优先逐样本优化),修正为标准的广度优先 mini-batch 训练后,配合局部化参数调优形成 LocFT-BF,首次支持 10 万次连续编辑和 72B 模型规模。

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

通过零空间约束的在线模型编辑,将 VGGT 提供的 3D 几何信息融入 2D 通用目标跟踪器中,在保持语义判别力的同时增强几何感知能力,在遮挡和背景杂乱场景中显著提升跟踪性能。

KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning

本文提出 KnowledgeSmith,把"知识编辑"和"机器遗忘"统一为同一个约束优化问题,并用知识图谱自动生成跨层级(根/中间/叶)、跨数据规模的大规模评测基准,系统揭示了 LLM 知识更新中的传播不对称、一致性-容量权衡、学科依赖等一系列反直觉现象。

MobiEdit: Resource-efficient Knowledge Editing for Personalized On-device LLMs

MobiEdit 把经典 locate-and-edit 知识编辑(ROME)里资源沉重的反向传播换成「量化 + 前向零阶梯度估计」,再配早停和前缀激活复用两个系统优化,第一次让 3B LLM 的实时知识编辑能跑在普通商用手机的 NPU 上,内存省 7.1×、能耗省 15.8×、延迟省 3.4×。

MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs

MoEEdit 是首个面向 MoE 大模型的「路由稳定」参数修改式知识编辑框架,用「逐专家零空间投影」保证编辑不扰动下游路由器输入,再用随机块坐标下降(BCD)求解器把代价从专家总数解耦到专家隐藏维度,从而在稀疏架构上同时拿下高编辑成功率、强泛化与路由稳定性。

查看全部15篇「知识编辑」论文 →


💬 LLM 其他 (55)

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

本文提出 InternGeometry——首个达到奖牌选手水平的几何 LLM agent:它把符号引擎当工具,用「思考—构造/命题—验证—反思」的超长程交互(单题 200+ 步)攻克辅助线构造缺乏启发式的难题,再配合 Complexity-Boosting RL(CBRL)逐级提升合成题难度,仅用 13K 训练样本(AlphaGeometry 2 的 0.004%)就在 IMO 2000–2024 的 50 道几何题上解出 44 道,超过金牌选手平均分。

Attend to the Active: Structure-Aware Dynamic Attention in LLMs for Compositional Instruction Following

ATA 在一次前向传播内、不更新任何参数,先识别组合指令的结构类型(链式/分支/并行)并拆出互斥子任务,再在生成的每一步动态找出当前"激活"的子任务、用注意力偏置屏蔽掉其余"休眠"子任务,从而消除子任务之间的干扰、显著提升 LLM 对复杂组合指令的遵循忠实度。

Best-of-∞: Asymptotic Performance of Test-Time LLM Ensembling

这篇论文把多数投票(majority voting)看作从模型答案分布里反复采样,研究采样数 \(N\to\infty\) 时的极限准确率(称为 best-of-∞),并用贝叶斯因子做自适应停止来在有限预算下逼近这个极限;进一步把"多个 LLM 加权集成的最优权重"形式化成一个混合整数线性规划(MILP),证明集成能稳定超过任何单一模型。

Beyond Magic Words: Sharpness-Aware Prompt Evolving for Robust Large Language Models with TARE

把图像/权重空间里的"锐度感知最小化(SAM)"搬到离散的文本提示空间,提出 TARE/ATARE:用"内层找最坏 paraphrase、外层选邻域最稳"的无梯度进化框架,让优化出来的 prompt 在同义改写下不掉点,在 4 个推理基准、5 种被测模型上稳定超过 TextGrad / Revolve。

Beyond the Known: An Unknown-Aware Large Language Model for Open-Set Text Classification

本文提出 UnLLM,把开放集文本分类从「闭集训练 + 事后 OOD 检测」改写成「给 LLM 喂部分标签子集、把候选外的样本显式标成 unknown」的子集条件分类任务,再用「表示—概率—推理」三级优化把对未知类的建模做实,在 6 个基准上 K-F1 / N-F1 双双稳定超过 SOTA。

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

提出 BOTS——一个基于贝叶斯推断的在线任务选择统一框架,在 LLM 强化微调中通过融合显式证据(直接评估的历史通过率)和隐式证据(利用参考模型插值推断的未评估任务难度),配合 Thompson 采样实现探索-利用平衡,在数学/代码/逻辑任务上以仅 0.2% 的额外开销带来最高 50% 的训练加速。

Breaking the Correlation Plateau: On the Optimization and Capacity Limits of Attention-Based Regressors

本文首次从理论上分析了注意力回归模型在联合 MSE+PCC 训练时出现的"PCC平台期"现象——发现其根源在于 MSE 优化与 PCC 梯度之间的冲突以及 softmax 凸聚合的表达力上界——并提出 ECA(Extrapolative Correlation Attention)框架,通过缩放残差聚合、色散感知温度 softmax 和色散归一化 PCC 损失三个组件突破该限制。

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models

通过在持续预训练阶段用"主动索引(Active Indexing)"把事实双向绑定到文档标识符,让 LLM 无需任何外部检索就能在闭卷状态下边回答边给出可验证的引用,引用精度最高提升 30.2%。

Compositional-ARC: Assessing Systematic Generalization in Abstract Spatial Reasoning

提出 Compositional-ARC 数据集评估模型在抽象空间推理中的系统性泛化能力——从已知基础几何变换(如平移、旋转)泛化到未见过的变换组合。一个仅 5.7M 参数的 MLC 训练的 encoder-decoder 模型在系统性任务上达到 78.26%,与 ARC Prize 2024 冠军的 8B 模型+TTT 持平,远超 GPT-4o、o3-mini 等(<3%)。

Constrained Decoding of Diffusion LLMs with Context-Free Grammars

本文提出第一个能在扩散语言模型(DLM)上强制满足上下文无关文法(CFG)的约束解码方法:把"任意顺序生成的带洞文本能否补全成合法串"抽象为一个加性填充判定问题,再把它归约为"目标 CFG 与所有可能补全构成的正则语言之交集是否为空",并用一套高度优化的空性判定算法把理论上立方级的开销压到实用范围,在 C++ 代码、JSON、SMILES 上把语法正确率提到近 100%,同时还小幅提升了功能正确率。

查看全部55篇「LLM 其他」论文 →


📖 NLP 理解 (2)

LANE: Label-Aware Noise Elimination for Fine-Grained Text Classification

LANE 把"识别错标样本"的经典 margin 指标升级为标签感知边距 (Label-aware Margin)——同样是负边距,若被错标的类别与模型预测类别语义相近(如把"愤怒"标成"恐惧")就少惩罚,语义相远(把"信任"标成"恐惧")才重罚,并据此对每个样本动态加权而非硬删除,在 10 个文本分类数据集上稳定超过 AUM/HMW 等强基线。

What's the Plan? Metrics for Implicit Planning in LLMs and Their Application to Rhyme Generation and Question Answering

提出 mean activation difference steering 方法和配套定量指标,在韵律诗生成和问答两个案例上跨 23 个开放模型(1B-32B)系统性证明:目标 token(韵脚/答案)的表示在序列早期位置已形成(前向规划),且因果性地影响中间 token 生成(后向规划)——隐式规划从 1B 模型即出现,是普遍机制而非大模型专属。


✍️ 文本生成 (12)

Antislop: A Comprehensive Framework for Identifying and Eliminating Repetitive Patterns in Language Models

Antislop 把"LLM 生成里那些一眼能认出是 AI 的重复套话(slop)"当成可量化、可定位、可消除的对象:先用频率比统计画出模型专属的"slop 指纹",再用一个推理期的回溯采样器精准压制这些模式,最后把采样器的拦截记录自动转成偏好数据,用新提出的 FTPO 微调把抑制能力永久焊进权重——在 GSM8K/MMLU/创意写作上几乎不掉点的前提下做到 90% 的 slop 削减。

Causal-Steer: Disentangled Continuous Style Control without Parallel Corpora

本文提出 Causal-Steer:把 LoRA 当成一次"因果干预",在同一条输入上对比加/不加 LoRA 扰动的激活差,从而摆脱平行语料、抽出一条干净的风格向量,再经 PCA 去噪 + 几何中位数鲁棒聚合,最终在推理时用一个标量 \(\alpha\) 实现连续、双向、可线性插值的 LLM 风格控制。

Diverse Text Decoding via Iterative Reweighting

本文提出 OverRIDE(Reweighting-based Iterative DEcoding),在多轮采样时用历史生成结果在推理阶段增量微调一个"引导模型",再用它去压低会导致历史模式重现的 token 概率,从而在几乎不损失质量的前提下显著提升多个回答之间的多样性,并能以 6.4%(72B)的吞吐损失嵌入 vLLM 这类服务系统。

FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Model

提出 FS-DFM(Few-Step Discrete Flow-Matching),通过步数感知训练和累积标量更新规则,将离散 flow-matching 语言模型的采样步数从 1024 步降低到 8 步,实现 128 倍加速,同时保持相当的困惑度和生成质量。

Improving Attributed Long-form Question Answering with Intent Awareness

针对深度研究系统生成的长文报告"引用质量差、可读性低"的问题,本文提出一套基于标签的双层意图(段落意图 + 引用意图)写作框架,既能在推理时通过 prompt 直接提升大模型,又能用带意图的合成数据蒸馏小模型——在三个科学报告生成基准上,大模型平均涨 +2.9 分、小模型涨 +12.3 分,引用指标提升尤为显著。

Logit-KL Flow Matching:用采样-混合推理做非自回归文本生成

本文用"logit 空间的线性插值"(等价于 simplex 上的 KL 测地线)作为离散流匹配的路径,证明了最大化条件似然恰好恢复出流匹配的速度场,并配上一套"去噪-再加噪"的迭代采样器和混合推理方案,在非自回归文本/代码生成上显著刷低困惑度、刷高 BLEU。

p-less Sampling: A Robust Hyperparameter-Free Approach for LLM Decoding

本文提出 p-less 采样:一种完全没有超参数的截断式解码方法,每一步用整个 token 分布的"碰撞概率" \(\sum_v P_\theta(v)^2\) 当作动态截断阈值,在数学、逻辑推理和创意写作上都优于 top-p / min-p 等方法,并且在高温下几乎不退化、推理还更快。

Planner Aware Path Learning in Diffusion Language Models Training

这篇论文指出掩码扩散语言模型训练时默认的“随机解掩码路径”和推理时实际使用的 planner 路径不一致,并提出 Planner-Aware Path Learning(PAPL),用 planner 置信度重加权 masked diffusion loss,让训练更贴近推理路径,在蛋白序列、文本生成和代码生成上稳定提升质量。

Rainbow Padding: Mitigating Early Termination in Instruction-Tuned Diffusion LLMs

本文发现 instruction-tuned 扩散语言模型存在「<eos> overflow」早停顽疾——分配的生成长度越长、回答反而越短甚至塌缩成一串 <eos>;根因是 <eos> 同时被当作终止符和填充符,于是作者提出 Rainbow Padding:只保留一个 <eos> 标记真正结束、其余填充位用 K 个不同 padding token 循环铺满,仅靠 7 个 token + 单 epoch LoRA 就能恢复长度鲁棒性,把 LLaDA 在 MATH 上的准确率从 0.6% 拉到 32.6%。

Rethinking Uncertainty Estimation in LLMs: A Principled Single-Sequence Measure

从 proper scoring rules 框架出发,证明最高概率输出序列的负对数似然(MSP)是理论上合理的不确定性度量,并提出 G-NLL——仅用一次贪心解码就能逼近该度量,在多个场景下匹配或超越需要多次采样的 SOTA 方法。

查看全部12篇「文本生成」论文 →


🗣️ 对话系统 (10)

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

提出 AQuA,首个按模糊度细粒度分级(4 级)的视觉问答数据集(7.2K 样本),为每级定义最优回应策略(直接回答/推断/列举/请求澄清),发现 GPT-5 和 Gemini 在模糊 VQA 上都过度自信地直接回答,通过 SFT+GRPO 训练的 3B 模型反而能超越闭源大模型的策略适应能力。

ClarifyVC: Clarifying Ambiguous Commands in Vehicle Control with a Hybrid Data Augmentation Pipeline

ClarifyVC 用一个 Agent 编排的四阶段数据增强流水线,从 2 万条真实车载指令里"种"出大量歧义丰富、协议合规的单轮/多轮对话,配上三层评测协议与数据质量分 DQS,在这套数据上微调后让车载语音指令的解析准确率提升约 15%、歧义消解提升约 20%、协议合规度达 98%。

Codified Finite-state Machines for Role-playing

针对 LLM 角色扮演时只会模仿表层动作、记不住人物"内在状态"的问题,本文让 LLM 把人物档案自动编译成可执行的有限状态机(CFSM),用代码显式记录角色状态及其转移规则,并进一步扩展成用概率分布建模状态的 CPFSM;在合成验证和 Fandom 真实剧情基准上都比纯 prompt 的状态建模基线更连贯、更可解释。

DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

DRIFT 把真实部署里大量但隐式的"用户不满"(DSAT)当作高质量负样本锚点,正样本则从当前策略动态采样,用标准 DPO 迭代训练,无需人工标注/奖励模型/更强模型生成的正例,就让 14B 模型在 WildBench 上超过 GPT-4o-mini。

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

本文提出一个计算极快的稳健性检验:在 Chatbot Arena 这类基于 Bradley–Terry 模型的 LLM 排行榜上,只要丢掉最坏情况下极小一撮(最少 0.003%、两条)人类偏好评测,就能让排名第一的模型换人——并且方法还能精确指出是哪几条偏好导致了翻盘。

Flipping the Dialogue: Training and Evaluating User Language Models

把对话"翻转"过来——不再训练 LLM 当好助手,而是专门后训练一个用户语言模型(User LM)去模拟真实人类用户,用它在多轮对话里逼出助手 LM 在真实场景下的短板(GPT-4o 任务成功率从 74.6% 掉到 57.4%)。

Non-Collaborative User Simulators for Tool Agents

基于marketing研究定义四类非协作用户行为(不可用服务/跑题闲聊/不耐烦/不完整表述),构建了可保持goal-alignment的模拟框架,在MultiWOZ和τ-bench上系统暴露了SOTA工具Agent的行为特异性失败机制——跑题闲聊导致平均SR下降29.1%,且不同模型呈现截然不同的崩溃路径(GPT系列陷入helper API重复调用,Qwen系列倾向于幻觉编造API结果)。

ReIn: Conversational Error Recovery with Reasoning Inception

提出 Reasoning Inception(ReIn),一种无需修改模型参数或系统提示的测试时干预方法,通过外部 inception 模块检测对话错误并将恢复计划注入任务 agent 的推理链中,在多种错误场景下显著提升对话任务完成率,且可泛化至未见错误类型。

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

FlyThinker 提出了一种高效的 "think-while-generating" 框架,使用独立的推理模型(Reasoner)在 token 级别并行生成潜在推理信号,动态融入生成模型(Generator)以指导个性化长文本生成,同时保持训练和推理效率。

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

通过对比有/无视觉输入的逐层隐藏表征(chain-of-embedding),发现LVLM中存在一个"视觉整合点"(VIP)层,并据此提出Total Visual Integration (TVI)指标来量化语言先验的强度。


🌐 多语言/翻译 (8)

ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity

提出 ASSESS 框架,其核心是 TransTED Similarity 指标——通过将形式化数学命题解析为算子树 (Operator Tree),并在标准树编辑距离 (TED) 基础上融入 Lean 证明策略驱动的语义变换,实现了在 EPLA 基准上 70.16% 准确率和 0.35 Kappa 分数的 SOTA 性能,同时仅需 CPU 资源即可复现。

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

提出 Adaptive Transfer Scaling Law (ATLAS),通过将有效数据量分解为目标语言、迁移语言和其他语言三项并引入数据重复饱和函数,在774个多语言训练实验(10M–8B参数、400+语言)上显著优于现有scaling law(多语言 \(R^2\) 从0.67提升至0.98),并系统量化了跨语言迁移矩阵、多语言诅咒的容量约束以及预训练vs微调的计算交叉点。

DiscoX: Benchmarking Discourse-Level Translation in Expert Domains

DiscoX 构建了首个面向篇章级 + 专家级中英互译的评测基准(200 篇、平均 1712 token、7 大领域、1330 人时人工打磨),并配套提出多智能体无参考评测系统 Metric-S,揭示出即便最强 LLM(GPT-5-high 76.66)仍落后人类专家(80.16)的真实差距。

From Utterance to Vividity: Training Expressive Subtitle Translation LLM via Adaptive Local Preference Optimization

提出ALPO(自适应局部偏好优化)用于训练表达力强的字幕翻译LLM:通过实证发现字幕翻译偏好意译且推理型LLM意译能力优于对话型LLM -> 验证LLM作为翻译评估器与人类高度一致 -> 提出逐句段的细粒度过程监督偏好对齐方法(自适应权重+动态beta+前缀混合) -> 14B模型在多方向字幕翻译的鲜活度上超越GPT-4o/DeepSeek-R1等SOTA。

Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation

本文提出 Language Confusion Gate (LCG):一个不改动基座 LLM、只在解码时按需屏蔽错误语言族 token 的轻量两层 MLP,用「范数校准的自蒸馏」训练,把多模型的语言混淆率压低约一个数量级且不损任务性能。

LinguaMap: Which Layers of LLMs Speak Your Language and How to Tune Them?

通过 logit lens 与隐状态相似度分析定位出 mLLM 中「负责语言控制」的最后几层,只微调这 3–5% 的参数就能把六种语言的语言一致性从 <20% 拉到 98%+,效果几乎等同全量微调。

Multilingual Routing in Mixture-of-Experts

系统分析了MoE大语言模型中多语言路由模式,发现中间层存在跨语言共享专家且语言性能与英语路由对齐度强相关,进而提出推理时路由干预方法,通过在中间层激活英语任务专家,在3个模型×2个任务×15+语言上一致性地提升多语言性能1-2%。

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

利用稀疏自编码器(SAE)发现 LLM 中意外语言切换与目标语言特征异常高预激活值相关,提出 SASFT 方法在 SFT 训练中约束语言特征预激活值,将意外代码切换降低 50% 以上。


🔍 信息检索/RAG (81)

A Dense Subset Index for Collective Query Coverage

DISCO 把"多个文档协作覆盖一个复杂查询"建模成一个单调子模的覆盖目标,再通过向量增广 + 随机投影把贪心算法每轮的边际增益改写成可索引的内积形式,从而用一个改造过的多向量 IVF 索引在亚线性时间里逼近贪心解,在覆盖度与延迟的权衡上比贪心快 100 倍以上、比传统 IR 索引覆盖度更高。

AdaCache: Adaptive Caching and Context Augmentation for Efficient LLM Serving

AdaCache 针对 RAG 推理的两类浪费——同一文本块被反复重算、以及不分难度地塞满 top-k 上下文——提出"分层缓存 + 注意力感知的选择性重算"与"置信度驱动的自适应上下文扩展"两套机制,在六个数据集、三个模型上把首 token 延迟(TTFT)相比最强 RAG 缓存系统降低 1.4×∼5.0×,且生成质量基本不掉。

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations

提出AMemGym——首个支持on-policy交互式评估的长程对话记忆基准环境,通过结构化数据采样(用户画像→状态演化→个性化问答)驱动LLM模拟用户进行角色扮演,揭示了off-policy评估的排名偏差问题,并系统诊断了RAG/长上下文/Agent记忆系统的write/read/utilization三阶段失败模式。

AssoMem: Scalable Memory QA with Multi-Signal Associative Retrieval

AssoMem 为大规模个人记忆问答构建了一张"线索—话语"联想记忆图,并把相关性、重要性、时间对齐三路信号用互信息自适应融合做排序,在多个 benchmark 上检索与生成都显著超过只靠语义相似度的 SOTA。

Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation

提出ARC-JSD方法,通过计算完整上下文与逐句消融上下文下的响应分布的Jensen-Shannon散度,在无需微调、梯度计算或代理模型的情况下实现高效精准的RAG上下文归因,并结合Logit Lens进行机制分析,定位负责上下文归因的注意力头和MLP层,通过门控操作降低约39%的幻觉率。

Attribution-Guided Decoding

提出AGD解码策略,在每步生成时从高概率候选token中选择对用户指定"兴趣区域"(ROI)归因得分最高的token,将归因方法从被动分析工具转变为主动生成引导工具,在指令遵循和事实性任务上均取得显著提升。

Automated Formalization via Conceptual Retrieval-Augmented LLMs

CRAMF 把 Mathlib4 自动构建成"概念—定义"知识库,再用查询增强 + 双通道混合检索 + 重排,给 LLM 自动形式化器喂进精准的形式化定义,作为即插即用插件把翻译准确率平均相对提升 29.9%、最高 62.1%。

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

将位置编码重新表述为贝叶斯注意力机制中的先验分布,统一了 NoPE(均匀先验)和 ALiBi(拉普拉斯先验),并提出广义高斯先验(GGD-BAM),仅增加 384 个参数即可在 500 倍训练长度上实现完美的 passkey 检索。

Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding

提出 LDAR(Learning Distraction-Aware Retrieval),一个轻量级自适应检索器,通过学习基于查询-段落相似度分布选择段落的连续区间(band),在平衡信息覆盖与干扰段落影响的同时,以约一半的 token 用量超越长上下文方法的性能。

Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive Retrieval

本文把"检索-重排"管线里那条死板的"top-k 顺序扫描"换成在文档相似度近邻图上的贪心搜索(Reranker-Guided-Search, RGS),让 reranker 优先去看那些"邻居已被判高分"的有潜力文档,从而在每个 query 只允许调用 reranker 100 次的预算下,在 BRIGHT/FollowIR/M-BEIR 三个推理密集型检索基准上分别比顺序重排提升 3.5/2.9/5.1 个 NDCG@10。

查看全部81篇「信息检索/RAG」论文 →


💻 代码智能 (58)

A Problem-Oriented Perspective and Anchor Verification for Code Optimization

提出以问题为导向(而非用户为导向)的优化对构建方法来整合多程序员的策略多样性,并设计锚点验证框架利用"慢但正确的代码"生成测试用例来缓解"优化税"(正确性损失),将优化比从 31.24% 提升到 71.06%,加速比从 2.95x 提升到 6.08x。

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

AetherCode 是首个系统性从 IOI、ICPC 等顶级编程竞赛收集 456 道高难度题目、并用「自动生成 + 67 位专家人工标注」混合方法把每道题的测试用例做到 100% TPR / 100% TNR 的代码推理 benchmark,结果显示即便最强的 o4-mini-high 也只有 35.5% 的 Pass@1,揭穿了「LLM 已征服竞赛编程」的错觉。

Agnostics: Learning to Synthesize Code in Any Programming Language with a Universal Reinforcement Learning Environment

用"只看程序的标准输入/输出行为对不对"作为统一判分标准,做一个语言无关的代码执行沙箱 + GRPO 训练框架,让任意低资源编程语言的 RL 后训练只需写 4-5 行 YAML 配置,把 Qwen-3 4B 在 Lua/Julia/R/OCaml/Fortran 上的能力拉到媲美 16B–70B 模型。

Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering

构建 Ambig-SWE(基于 SWE-Bench Verified 的欠指定变体),系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%,但模型默认非交互行为且难以区分指定充分/不足的指令。

An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems

AFL 把"用 LLM 解复杂车辆路径问题(VRP)"拆成问题描述、代码生成、求解三个子任务,并用生成、判断、修订、错误分析四个专职 agent 互相把关,从一份原始 VRPLIB 实例全自动产出一个不依赖外部求解器的 Python 求解器;在 60 个 VRP 变体上把 LLM 方法的运行报错率压到 0%、可行解率拉到 100%,且与人工精心设计的算法相比差距大多落在 3% 以内。

ATGen: Adversarial Reinforcement Learning for Test Case Generation

ATGen 把一个"测试用例生成器"和一个"对抗代码生成器"放进一个互相博弈的强化学习循环里——生成器越强,对手就被逼着造出越隐蔽的 bug,这种自动加难的动态课程打破了静态数据集的"固定难度天花板",让 7B 模型的攻击成功率比 SFT 方法 UTGen 翻倍(36.99% vs 16.24%)。

Behavioral Embeddings of Programs: A Quasi-Dynamic Approach for Optimization Prediction

针对编译优化里"静态表示太死、动态画像太贵"的两难,本文提出准动态程序表示:用一组优化序列去"探针"程序的 LLVM IR,把优化前后静态特征的变化量化成 Program Behavior Spectrum,再用乘积量化(PQ)把连续反应向量离散成结构化"子词"、用多任务 Transformer(PQ-BERT)预训练学习其语法,在 Best Pass Prediction 和 -Oz Benefit Prediction 两项任务上大幅超过 inst2vec / IR2Vec 等静态嵌入。

BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization

BOAD 把"为软件工程任务设计一套分层多智能体系统"这件事重新表述成多臂老虎机问题——每个候选子智能体是一根臂、奖励是它在团队协作中的"有用度"(helpfulness),再用 UCB 做探索-利用、用中餐馆过程动态扩档案、用 hindsight 信用分配避免"搭便车",从而在有限评测预算下自动发现"一个 orchestrator + 两个专精子智能体"的结构;在 SWE-bench-Verified 上 36B 模型拿到 53.2%,在更偏分布外的 SWE-bench-Live 上以 20.0% 一度位列排行榜第二,超过 GPT-4o、Claude 3.7 等更大的模型。

CARD: Towards Conditional Design of Multi-agent Topological Structures

CARD提出了一种条件图生成框架(Conditional Agentic Graph Designer),通过条件变分图编码器和环境感知优化,根据模型能力、工具可用性和知识源变化等动态环境信号自适应地设计多Agent通信拓扑结构,在HumanEval、MATH和MMLU上一致超越静态和基于提示的基线方法。

Code2Bench: Scaling Source and Rigor for Dynamic Benchmark Construction

针对代码生成评测中「题源静态易污染 + 测试浮于表面」两大顽疾,本文提出 Dual Scaling(双重扩展) 哲学——一边从真实代码仓库按模型知识截止日期动态取题(扩展题源),一边用属性测试 PBT 配合 100% 分支覆盖的「Great Filter」自动生成高严谨度测试(扩展严谨度)——并实例化为端到端框架 Code2Bench,产出含 Python/Java 原生实例的 Code2Bench-2509 基准,对 10 个主流 LLM 给出细粒度诊断。

查看全部58篇「代码智能」论文 →


🎨 图像生成 (352)

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

对扩散 Transformer 的条件嵌入进行首次系统分析,发现极端的角度相似性(类间余弦相似度>99%)和维度稀疏性(仅 1-2% 的维度携带语义信息),裁剪掉 2/3 的低幅维度后生成质量基本不变,揭示了条件嵌入中隐藏的语义瓶颈。

A Noise is Worth Diffusion Guidance

这篇论文提出 NoiseRefine:不去改扩散模型本身,而是训一个轻量网络把随机高斯噪声"精炼"成一份结构化噪声,使得不开任何采样引导、只跑一遍前向就能生成接近 CFG 引导质量的图像,从而把每步两次前向的引导开销直接省掉。

A Physics-Inspired Optimizer: Velocity Regularized Adam

本文提出 VRAdam(Velocity-Regularized Adam),把"四次方动能项"这一物理稳定机制翻译成一个随速度自动收缩的全局动态学习率 \(\eta_t=\alpha_0/(1+\min(\beta_3\|v_t\|^2,\alpha_1))\) 嵌进 AdamW,在权重更新过大时自动减速、抑制稳定边缘附近的震荡,并配上严格的 Lyapunov 稳定性与 \(O(\ln N/\sqrt N)\) 收敛证明,在图像分类、语言建模、GFlowNets、GPT-2 预训练与 LLM 微调上普遍优于 AdamW。

A Probabilistic Hard Concept Bottleneck for Steerable Generative Models

这篇论文把生成模型中的概念瓶颈改成一个概率化的硬二值概念层 VHCB,让用户既能从指定概念直接采样生成图像,也能对已有生成结果做概念干预,并在 StyleGAN2 与 DDPM 上系统验证其比软概念瓶颈更可控、更少概念泄漏。

AC-Sampler: Accelerate and Correct Diffusion Sampling with Metropolis-Hastings Algorithm

AC-Sampler 把扩散模型的生成过程截到中间时间步,用基于 score 的 Langevin proposal 产生候选,再用 Metropolis-Hastings 接受率校正到真实边缘分布,从而在不微调基础模型的前提下同时降低 NFE 并改善 FID。

ACCORD: Alleviating Concept Coupling through Dependence Regularization for Text-to-Image Diffusion Personalization

ACCORD 首次把文生图个性化里的"概念耦合"(主体与上下文被绑死)形式化成一个统计依赖问题,把总依赖偏差拆成"去噪依赖偏差"和"先验依赖偏差"两个可计算的来源,再用两个即插即用的正则化损失(DDLoss + PDLoss)分别消除它们,在主体/风格/人脸个性化上同时提升文本可控性与个性化保真度。

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

RepTok 把预训练自监督 ViT 的 [cls] token 微调成「单个连续 token」的潜空间,配一个流匹配解码器就能高保真重建图像,再用一个无注意力的 MLP-Mixer 在这个一维潜空间里做生成,从而在 ImageNet/MS-COCO 上以不到对手 10% 的训练算力拿到有竞争力的 FID。

AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models

AEGIS 把概念擦除的"擦除目标"从手挑的固定安全词换成迭代优化、逼近被擦概念语义中心的对抗目标 (AET),再用一个无需保留数据、只在梯度冲突时才投影的梯度校正 (GRP),同时把对抗提示攻击的成功率压到最低、又几乎不损失生成质量。

AlignFlow: Improving Flow-based Generative Models with Semi-Discrete Optimal Transport

AlignFlow 用半离散最优传输(SDOT)在训练前一次性算出"噪声分布 → 全体数据点"的确定性对齐映射,把它当作即插即用的耦合喂给各种流生成模型,以不到 1% 的额外开销让轨迹更直、收敛更快、FID 全面下降。

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

本文提出 AlignTok——不再从零训练 VAE、也不靠语义正则化"逼"编码器学语义,而是把一个已经富含语义的预训练视觉基础编码器(DINOv2)通过三阶段渐进对齐改造成连续 tokenizer,得到既语义结构良好、又能精确重建的潜空间;在 ImageNet 256×256 上让扩散模型仅 64 epoch 就达到 gFID 1.90,收敛速度约为 VA-VAE 的 5 倍。

查看全部352篇「图像生成」论文 →


🎬 视频生成 (97)

3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation

本文提出 3DScenePrompt,用「时序相邻帧 + 静态 3D 点云投影视图」的双重时空条件,从任意长度输入视频续生下一段视频,在精确相机控制的同时保持与整段历史的场景一致性。

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

把预训练文本到视频(T2V)扩散模型当成"虚拟摄影师",通过两阶段范式——先让它根据 4D 人体动作生成隐含专业运镜的视频、再用一个相机外参扩散分支把视角显式抽出来——实现了在 4D 场景中自动规划相机轨迹,开放域泛化和文本可控性大幅超过专用模型。

Anchor Frame Bridging for Coherent First-Last Frame Video Generation

针对首尾帧视频生成(FLF2V)中间帧语义衰减、画面崩坏的问题,本文提出训练无关的 Anchor Frame Bridging(AFB):在视频时序断裂最严重的位置自适应插入一帧"锚帧",把首尾帧的语义"接力"到中段,在 Wan2.1-I2V 上 FVD 提升 16.58%、PSNR 提升 10.21%。

Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model

Any-to-Bokeh 把"视频重对焦/散景渲染"建模成一个由焦平面自适应 MPI 几何先验引导的单步视频扩散过程,让用户对任意输入视频自由指定焦平面和虚化强度,并通过三阶段渐进训练 + 加权重叠推理解决时序闪烁问题,在合成与真实数据上全面超越此前的图像/MPI 散景方法。

Arbitrary Generative Video Interpolation

ArbInterp 提出了一种支持任意时间戳、任意长度的生成式视频帧插值框架,通过时间戳感知旋转位置编码(TaRoPE)实现精准时间控制,并通过外观-运动解耦的条件注入策略实现长序列的无缝拼接。

Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers

Astraea 面向视频扩散 Transformer 的推理瓶颈,提出一种 token 级选择、GPU 友好的稀疏注意力和演化式 token 预算搜索框架,在尽量保持生成质量的同时把单卡推理最高加速到约 2.4 倍、多卡场景最高扩展到 13.2 倍。

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

AUHead 把"音频→情感视频"这个直接生成问题拆成两阶段:先用音频语言模型从语音里"听懂情感"并推理出离散的面部动作单元(AU)序列,再用一个 AU 驱动的可控扩散模型把 AU 渲染成既同步又有细腻表情的说话人头视频,在 MEAD/CREMA 上情感真实度与口型精度同时超过现有方法。

Beyond Skeletons: Learning Animation Directly from Driving Videos with Same2X Training Strategy

本文提出 DirectAnimator,抛弃骨架/姿态估计这一中间表示,直接用驱动视频的原始像素把参考人物"动起来":先把原始视频抽成 Pose/Face/Location 三元"驱动线索(Driving Cue)",再用 CueFusion DiT Block 把线索注入去噪过程,并配一套 Same2X 训练策略把跨身份(cross-ID)阶段的特征对齐到同身份(same-ID)模型,最终在 TikTok / Unseen 两套测试集上达到 SOTA,且收敛快 6.7×、算力更省。

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

BindWeave 用多模态大语言模型(MLLM)替代传统的浅层融合机制来解析多主体复杂文本指令,生成主体感知的隐状态作为 DiT 的条件信号,结合 CLIP 语义特征和 VAE 细粒度外观特征,实现高保真、主体一致的视频生成。

BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

BLADE 把"动态块稀疏注意力"和"少步蒸馏"放进同一个 data-free 联合训练框架里协同优化,在 Wan2.1-1.3B 上做到 14.10× 端到端加速、CogVideoX-5B 上 8.89×,且 VBench-2.0 质量反而比 50 步原始模型还高。

查看全部97篇「视频生成」论文 →


🧩 多模态 VLM (211)

SR-3D: 3D-Aware Region Prompted Vision Language Model

SR-3D 通过把深度估计得到的 3D 位置编码直接注入 2D 基础 VLM 的视觉 token,并配一个动态切片区域抽取器,让同一个模型既能处理单视图图像又能处理多视图视频,支持在任意一帧上画框/涂 mask 就能跨帧做精确的 3D 空间推理,在 2D/3D 多个 benchmark 上都拿到 SOTA。

A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models

提出 A-TPT 框架,通过最大化归一化文本特征在单位超球面上的最小成对角距离来促进角度多样性,解决测试时提示调优 (TPT) 中 VLM 预测过度自信导致的校准不良问题,在自然分布偏移和医学数据集上均优于现有 TPT 校准方法。

A High Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

针对统一多模态大模型(LMM)"图文交错生成"训练数据稀缺、评测不可靠两大痛点,本文造了一个 180 万样本、3500 主题、带自动质检(SEIR 迭代精修)的大规模数据集 InterSyn,并训练了一个与人类打分高度一致(A@1 达 95.4%)、输出四维可解释分数的评判模型 SynJudge,实验证明用 InterSyn 微调只需 25K–50K 样本就能显著提升交错生成能力。

ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art

本文以人类艺术家手绘的 ASCII art 为载体,构建了一个内容在文本与图像两种模态下完全等价的识别基准 ASCIIEval,系统性地揭示了 LLM 能从纯字符串"看出"视觉语义、开源 MLLM 在 OCR 与整体视觉感知之间存在权衡、且当前模型无法从"文本+图像"双模态输入中获益等多项诊断性发现。

Asynchronous Matching with Dynamic Sampling for Multimodal Dataset Distillation

针对图文数据集蒸馏中"图像和文本网络优化节奏不同步"的问题,本文提出 AMD 框架:解耦图、文专家轨迹的采样起点做异步轨迹匹配,用 MMD 衡量收敛速度差异来动态确定两模态各自的采样范围,并用语义原型挖掘替代随机初始化,在 Flickr30k / COCO 上以几乎零额外开销显著刷新蒸馏检索性能(Flickr30k 200 对设置下 IR@1/@5/@10 提升 4.5%/9.6%/10.9%)。

AttTok: Marrying Attribute Tokens with Generative Pre-trained Vision-Language Models towards Medical Image Understanding

针对医学多模态大模型把"轻度/重度 DR"等临床属性编码成几乎相同文本 token 而失去判别力的痛点,本文提出属性 token(AttTok)——给每个临床概念分配一个专属特殊 token,并配套构建多模态嵌入书、跨注意力适配器(ACC)与属性匹配损失(ACM),在生成式范式中显式注入判别式医学知识,在 5 个分类基准和 3 个 VQA 基准上稳定涨点。

BaseReward: A Strong Baseline for Multimodal Reward Model

这篇论文不发明新结构,而是把"怎么造一个 SOTA 多模态奖励模型(MRM)"拆成范式、奖励头、正则化、数据、骨干/规模、集成六个维度逐一做消融,得出一份明确的"食谱",并据此搭出 BaseReward——基于 Qwen2.5-VL-7B + 两层 SiLU MLP 奖励头 + 精挑混合偏好数据的简洁强基线,在 MM-RLHF-Reward Bench、VL-Reward Bench 等主流榜上刷新 SOTA,且推理远快于生成式奖励模型。

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

针对全开源多模态大模型卡在「SFT 数据质量差、缺复杂推理数据」的痛点,本文用一条自动化数据策展管线(HoneyPipe)把约 2400 万原始图文对清洗、富化成 1500 万条带双层 CoT 的高质量数据集 Honey-Data-15M,并在其上训出 8B 模型 Bee-8B,刷新全开源 MLLM 的 SOTA,多项推理基准上追平甚至反超半开源的 InternVL3.5-8B。

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation

本文构建了首个面向细粒度图像任务的大规模评测基准 FG-BMK(101 万问题、28 万图像),从"人本对话"和"机器特征"两个视角系统拷问 12 个主流 LVLM/VLM,揭示出对比式训练范式、模态对齐、扰动鲁棒性与层级类别推理如何影响细粒度表现,并发现 LVLM 在细粒度任务上仍明显落后于专用模型。

Bilateral Information-aware Test-time Adaptation for Vision-Language Models

针对 CLIP 这类视觉语言模型在测试时适应(TTA)时只用"固定比例低熵样本"导致过拟合非典型特征的问题,本文提出 BITTA:同时用动态比例的低熵样本"学习"核心表征、用高熵样本"反学习"非典型特征,在 CIFAR-10/100-C、ImageNet-C 等损坏数据集上把多种 TTA 方法的平均准确率稳定提升约 1–2 个点。

查看全部211篇「多模态 VLM」论文 →


🧠 VLM Reasoning (112)

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

AdaReasoner 教多模态大模型(MLLM)在多轮视觉推理中动态编排一组视觉工具——通过"工具冷启动 + 多轮 Tool GRPO"两阶段训练,让 7B 小模型学会自主选用、丢弃和调节工具使用频率,平均涨点 +38.7%,在 VSP 上做到 97.6% 的近满分,反超 GPT-5 与 Claude Sonnet 4。

Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks

Agent-X 是一个面向「视觉中心 agent」的大规模评测基准,用 828 个真实多模态任务(图像/多图/视频/指令文本)覆盖 6 类场景,配上一套细粒度的「步级 + 推理链 + 结果」三模评测指标,结果显示连 GPT/Gemini/Qwen 系列最强模型的全链路成功率都不到 50%,暴露出当前大模型在多步视觉推理和工具调用上的硬伤。

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

AGILE 把"解拼图"重新定义成一个让模型一步步写代码、观察环境反馈的交互过程,再配上可任意扩展的程序化合成数据 + 冷启动 SFT + GRPO 强化学习,把 Qwen2.5-VL-7B 在 2×2 拼图上的准确率从 9.5% 拉到 82.8%,并迁移到 9 个通用视觉基准上平均涨 3.1%。

ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

ARES 用"窗口熵"作为探索触发器、用难度感知的层级熵奖励控制探索深度,让多模态大推理模型在简单题上少想、难题上多想,从而在数学/逻辑/多模态基准上同时提升准确率和推理效率。

AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning

AutoGPS 用一个"多模态形式化器(MPF)+ 演绎符号推理器(DSR)"的神经符号协同框架,把平面几何题先翻译成形式语言、再以超图扩展的方式做严格演绎,最终给出既正确又可逐步追溯的解题过程,在 Geometry3K / PGPS9K 上达到 SOTA,并把人评的逐步逻辑正确率从 MLLM 的 ~71% 提到 99%。

Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks

本文指出现有医学 VLM 基准只考分类精度、制造了"评测幻觉",提出"广度—深度"双轴评测框架,并构建神经科深度推理基准 Neural-MedBench(120 个多模态病例、200 个推理任务),实测发现 GPT-5、Claude-4、MedGemma 等顶尖模型在深度推理上集体崩盘,且失败主要源于推理而非感知。

Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

受儿童韦氏智力量表启发,把"通用智能"拆成执行、感知推理、学习、记忆、规划五项可测能力,构建了一个含 12 个 2D 网格交互任务、三档难度、可自定义扩展的动态基准 KidGym,系统揭示了当前顶尖 MLLM 在非语义抽象视觉、数量感知、复合能力任务上的明显短板。

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

CircuitSense 构建了首个"按工程抽象层级组织、强调从电路图推导符号方程"的多模态大模型基准,用 8,006 道题(人工 curated + 合成生成)系统评测 8 个 MLLM,揭示出闭源模型在感知任务上能超过 85%、但在符号推导上骤降到 19% 以下的根本断层。

CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

CompoDistill 发现现有多模态大模型(MLLM)知识蒸馏只学会了"视觉识别"却学不会"视觉感知",根因是师生在视觉理解层上的注意力分布错位;它用一个把学生视觉注意力对齐到教师的 VAT 模块、加一个让学生复用教师 adapter 的 TAF 模块,配合三阶段训练,在组合推理任务上把 2B 学生从 61.5 拉到 66.7(CR 平均),逼近 4B 教师,同时不掉 VQA。

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

这篇论文用一套基于命题逻辑、把事实跨模态拆分的"六种交互模式"评测框架,系统证明了多模态大模型(MLLM)推理的真正瓶颈不在感知而在"整合"——并通过注意力探针和因果干预定位出两个根因:任务组合瓶颈(识别与推理无法在一次前向里联合完成)和融合瓶颈(早期层的模态融合引入偏置),还给出了"两步提示"和"早层注意力升温"两个轻量补救。

查看全部112篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (18)

Enhancing Visual Token Representations for Video Large Language Models via Training-free Spatial-Temporal Pooling and Gridding

针对视频大语言模型把成千上万视觉 token 压缩进有限上下文时丢失时空信息的问题,提出训练无关的 ST-GridPool:用「金字塔时序网格化」在不同时间尺度上聚合帧 token 注入多粒度运动信息,再用「基于范数的空间池化」依据 token 的 L2 范数加权保留高信息量区域,在 LLaVA-Video / LLaVA-OneVision 上即插即用、不需重训就稳定涨点。

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

提出 HiDrop 框架,通过对 MLLM 不同层的功能进行深入分析(浅层=传播器、中层=融合中心、深层=语言推理),设计了 Late Injection(跳过浅层)+ Concave Pyramid Pruning(凹金字塔中层剪枝)+ Early Exit(深层退出)三阶段策略,压缩约 90% 视觉 token 且几乎不损失性能,训练加速 1.72×。

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

iLLaVA 跳出"只在 LLM 阶段压缩 token"的惯性,把 token 合并同时插进图像编码器LLM 两个阶段,并用"信息 token + 回收 token"的合并策略把被丢弃 token 的有用信息收回来,训练-free 实现端到端 2× 吞吐、4× prefilling 加速且保持 >95% 性能。

IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning

揭示了LVLM中RoPE位置编码隐式建立的视觉坐标系统(IVC tokens),提出一种训练免的、提示感知的视觉token剪枝策略,在保留IVC tokens和语义前景token的同时,削减约50%视觉token并维持≥99%原始性能。

LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models

LearnPruner 通过实证拆穿了"attention 分数 = token 重要性"这一通行假设,指出视觉编码器的 [CLS] attention 被 attention sink 污染、而 LLM 中只有"文本→视觉"的中层注意力才可靠,进而用一个可学习剪枝模块替代 [CLS] attention、再叠加 LLM 中层的文本引导剪枝,仅保留约 5.5% 视觉 token 即可维持 95% 性能并取得 3.2× 加速。

Lightweight Spatio-Temporal Modeling via Temporally Shifted Distillation for Real-Time Accident Anticipation

用一个冻结的纯图像 CLIP 教师 + 时间偏移蒸馏,让轻量 RepMixer+RWKV 学生在不做大规模视频预训练的前提下学到"预测未来帧"的时序能力,在 DAD/CCD 事故预测基准上达到 SOTA,且模型比对手小 3–7×、能在 Jetson Orin Nano 上 80 FPS 实时跑。

Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models

发现LVLM中KV Cache存在模态特异和注意力头特异的语义冗余,仅靠重要性选择会丢失语义覆盖,提出MixKV按头自适应混合重要性与多样性分数进行KV Cache压缩,在极端压缩下平均提升5.1%。

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning

本文发现现有视觉 token 剪枝方法之所以在视觉定位(visual grounding, VG)任务上崩盘,是因为它们破坏了由位置编码构建的"全局空间参考系",于是提出 Nüwa——一个受群体智能(Boids)启发的两阶段剪枝框架,先在视觉编码器侧用"分区-对齐-聚合"保住空间锚点、再在 LLM 中段做文本引导的精筛,把 VG 任务的性能保持率从 ~7% 拉到 47%,同时 VQA 维持在 95%。

Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models

Photon 是一个直接吃整段 3D 医学体数据(CT/MRI)的多模态大模型,用「指令条件 Token 调度(ITS)」按每个问题自适应地决定保留多少视觉 token,再用「代理梯度传播(SGP)」让离散丢 token 这件事在训练时仍然可微,从而在医学视觉问答上同时拿到 SOTA 精度、约 5 倍训练加速和约三分之二的显存节省。

PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models

提出PPE(Positional Preservation Embedding),利用RoPE各维度旋转独立性,将合并token内多个原始位置ID分块编码到不同维度段中,实现单个压缩token携带多个空间/时序位置信息。PPE是零参数、即插即用的通用算子,在55%压缩率下图像任务平均仅降3.6%、在90%压缩率下通过级联压缩仍保持可比性能。

查看全部18篇「VLM Efficiency」论文 →


🎵 音频/语音 (79)

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

提出 AC-Foley,一种参考音频引导的视频到音频合成框架,通过两阶段训练(声学特征学习+时序适应)和多模态条件流匹配实现了细粒度音色控制、音色迁移和零样本音效生成,在音频质量和声学保真度上显著优于现有方法。

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

AlignSep 把"视频查询声音分离(VQSS)"从主流的时频掩码判别范式换成基于 flow matching 的生成范式,靠一个用"时间拼接 + 无交叉注意力 Transformer"实现的时间对齐向量场估计器,强制音频与视频帧逐帧同步,从而在同类干扰、声轨重叠的难场景里干净地抠出在屏目标声音,并在自建的 VGGSound-Hard 基准上把时间对齐分数 \(T_{A\text{-}V}\) 做到了 95.76%。

AudioX: A Unified Framework for Anything-to-Audio Generation

AudioX 用一个基于扩散 Transformer(DiT)的统一模型,配上一个轻量的「多模态自适应融合(MAF)」模块和 700 万条自建多模态数据 IF-caps,让单一权重就能从文本、视频、音频的任意组合生成高保真音效与音乐,并在细粒度指令跟随上大幅领先各路专才模型。

Aurelius: Relation Aware Text-to-Audio Generation At Scale

Aurelius 构建了两个大规模解耦语料库(110 类音频事件的 AudioEventSet + 100 种关系的 AudioRelSet)和一套文本-音频配对生成策略,把"关系感知的文本到音频生成"从小规模探索推到可规模化研究的程度,并系统基准了 9 个主流 TTA 模型,揭示它们在多事件关系建模上几乎全线失效(关系准确率普遍 <10%)。

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

这篇论文把"自动舞台灯光控制(ASLC)"从沿用多年的"音乐分类 → 查表配灯"范式重新定义为一个生成任务,提出端到端模型 Skip-BART:以音乐音频为输入、逐帧自回归生成灯光的色相(Hue)与亮度(Value),靠一个新颖的跳跃连接显式对齐音乐帧与灯光帧,并配套自建数据集、预训练与迁移学习,最终在量化指标和 38 人主观评测上全面超过规则方法,且与真人灯光师无显著差异(p=0.72)。

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

针对多模态大语言模型在情感推理中的虚假关联和幻觉问题,提出 EmoReAlM 评测基准和 AVEm-DPO 偏好优化方法,通过构建针对性偏好对和文本先验正则化,在 DFEW/RAVDESS/EMER 上实现 6-19% 的零样本相对性能提升。

AVEX: What Matters for Animal Vocalization Encoding

这是一篇大规模实证研究:作者系统性地拆解了"训练一个能泛化的生物声学编码器到底什么最重要",结论是在「多样化生物声学+通用音频」混合数据上先自监督预训练、再监督后训练这一两阶段配方在分布内外都最强,并在 26 个数据集、四类任务上刷新了 SOTA。

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

DART 在传统"实例级"音频-文本对齐之外,再加一层"特征级"对齐——把每个嵌入通道当成一个分布,用不平衡 Wasserstein 距离去配对音频通道和文本通道,并用基于方差/峰度/跨模态相关性的"可靠性边际"引导传输只往稳定语义通道倾斜,从而在小批量、稀缺标签、噪声标签下都拿到 SOTA 检索效果。

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

本文把"乐谱→表演"的表情渲染(EPR)与"表演→乐谱"的钢琴转录(APT)这对互逆任务统一进一个 Transformer Seq2Seq 框架,通过解耦"音符级乐谱内容"和"全局表演风格"实现双向建模,并额外训练一个扩散模型从乐谱直接推荐合适风格,让渲染既可控又能自动化。

Can Speech LLMs Think while Listening?

本文在多流语音 LLM(Moshi)的文本独白流里塞入文本思维链,让推理在文本空间进行使准确率平均提升 2.4 倍;又提出基于 KL 散度的「问题完整度」指标,让模型在用户还没说完时就「边听边想」提前开始推理,再配合 DPO 偏好微调,把额外推理延迟降低约 70% 而不损准确率。

查看全部79篇「音频/语音」论文 →


🔎 AIGC 检测 (30)

A Rich Knowledge Space for Scalable Deepfake Detection

这篇论文把 11 个深度伪造与真实人脸数据源整合成 360 万图像规模的 MMI-DD 数据集,并提出 SD2 用 CLIP 的层级视觉特征、细粒度伪造类型文本标签和 VLM 生成描述联合训练,使 deepfake 检测器在大规模异构数据上不再越训越退化,而是获得更强的跨域与 AIGC 泛化能力。

All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning

本文提出"所有 patch 都重要、用得越多越好(All Patches Matter, More Patches Better)"的检测原则,发现现有 AI 生成图像(AIGI)检测器存在"少数 patch 偏置(Few-Patch Bias)"——只盯着极少数 patch 做判断;据此设计 Panoptic Patch Learning(PPL)框架,用随机 patch 重建 + patch 级对比学习把判别能力摊平到全图所有 patch,在 GenImage、DRCT-2M、AIGCDetectBenchmark 和真实场景 Chameleon 上都把跨生成器泛化性和鲁棒性显著刷高(CLIP backbone 在 GenImage 上 mAcc 97.2%、std 仅 1.7)。

Attack-Resistant Watermarking for AIGC Image Forensics via Diffusion-based Semantic Deflection

本文提出 PAI——一个免训练、即插即用的扩散模型固有水印框架,通过"初始化嵌入 + 密钥引导的去噪轨迹偏转"把用户身份和图像内容深度语义纠缠,再用 DDIM 逆向得到的"初始化偏差"作为统一取证信号,一举支撑版权验证、攻击检测与语义级篡改定位三件事,在 12 种攻击下平均验证准确率达 98.43%,比 SOTA 高 37.25%。

Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection

这篇论文指出主流"度量法"机器生成文本(MGT)检测器的 token 级分数会被 LLM 采样随机性污染,于是用马尔可夫随机场(MRF)刻画"相邻 token 分数相似、句首 token 分数不稳定"这两条规律,再通过平均场近似把它实现成一个只有 2×2 参数、可直接叠在任意现有检测器上的轻量迭代组件,在几乎不增加开销的前提下把各类基线检测器的 AUROC 大幅拉高(如 DetectGPT 在 Essay 上从 44% 提到 92%)。

Calibrating Verbalized Confidence with Self-Generated Distractors

提出 DiNCo 方法,通过让 LLM 独立评估自动生成的干扰选项(合理但错误的替代答案)来暴露其"暗示性偏差",用干扰项上的总置信度进行归一化,并融合生成一致性与验证一致性两个互补维度,在短文本 QA 和长文本生成任务上显著改善置信度校准。

CLARC: C/C++ Benchmark for Robust Code Search

构建首个可编译的 C/C++ 代码检索基准 CLARC(6717 查询-代码对),自动化 pipeline 从 GitHub 提取代码并用 LLM+假设检验生成/验证查询;覆盖标准/匿名化/汇编/WebAssembly 四种检索场景,揭示现有代码嵌入模型过度依赖词汇特征(匿名化后 NDCG@10 从 0.89 降至 0.67)且在二进制级别检索上严重不足。

Data Provenance for Image Auto-Regressive Generation

不改动生成过程、也不需要水印,仅凭"图像自回归模型(IAR)生成的图像在码本量化空间留下的特征",本文用训练好的逆解码器 + QuantLoss/EncLoss 两个互补信号,对 VAR、RAR、LlamaGen、Infinity 等主流 IAR 实现近 100% TPR@1%FPR 的后验溯源检测。

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

通过 26 位专业作家对 8618 条表达的 close reading 标注,揭示 n-gram 新颖度不足以衡量文本创造力——约 91% 的高 n-gram 新颖表达并不被认为具有创造性,且开源 LLM 中高 n-gram 新颖度与低语用合理性负相关。

DMAP: A Distribution Map for Text

提出 DMAP(Distribution Map),一种将文本经由语言模型的 next-token 概率排序映射为 \([0,1]\) 区间上 i.i.d. 样本的数学框架,理论证明纯采样文本产生均匀分布,由此可用 \(\chi^2\) 检验验证生成参数、揭示概率曲率类检测器在纯采样下彻底失效的根本原因,并可视化后训练(SFT/RLHF)在下游模型中留下的统计指纹。

D&R: Recovery-based AI-Generated Text Detection via a Single Black-box LLM Call

D&R 把待测文本在标点切分的局部块内随机打乱(Within-Chunk Shuffling),只调用一次黑盒大模型去复原,然后测复原文本和原文的语义+结构相似度——AI 生成的文本更容易被"恢复"得几乎一模一样,人写的则更分散——用这个相似度差喂给轻量分类器即可判别,长文 AUROC 0.96、短文 0.87,且不需要概率访问、只花一次调用。

查看全部30篇「AIGC 检测」论文 →


🧊 3D 视觉 (194)

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

提出 3DGEER 框架,通过推导沿光线积分高斯密度的闭式解、设计粒子包围截锥体 (PBF) 进行精确高效的光线-粒子关联、以及引入双极等角投影 (BEAP) 统一宽视场相机表示,在任意相机模型下实现了几何精确且实时高效的 3D 高斯渲染,在鱼眼和针孔数据集上全面超越现有方法。

3DSMT: A Hybrid Spiking Mamba-Transformer for Point Cloud Analysis

3DSMT 把脉冲神经网络(SNN)的事件驱动低功耗特性,与 Transformer 的局部建模、Mamba 的线性复杂度全局建模拧成一个混合架构,用「脉冲局部偏移注意力 + 脉冲 Mamba 块」在分类、少样本、分割任务上拿下 SNN 方法的 SOTA,能耗只有 ANN 同行的几十分之一,还反超了不少 ANN 模型。

A²TG: Adaptive Anisotropic Textured Gaussians for Efficient 3D Scene Representation

A²TG 给每个 2D 高斯配一张分辨率和长宽比都自适应的「各向异性纹理」,用梯度驱动的选择 + 升采样规则把纹理参数只花在真正需要高频细节的高斯上,从而在相同显存预算下比固定方形纹理的高斯泼溅画质更高、显存更省。

A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features

FastForward 把"建图"压缩成一次特征提取:用一组从带位姿建图图像中随机采样、并锚定在 3D 空间的特征当作场景地图,再用一个 DUSt3R 风格的前馈网络一次性预测查询图像的 3D 坐标并解算位姿,做到几秒建图 + 0.5 秒定位的同时,精度追平甚至超越需要几分钟到几小时建图的 SCR / 结构化方法。

A Step to Decouple Optimization in 3DGS

深入分析 3DGS 优化中被忽视的更新步耦合(不可见视点下的隐式更新和动量重缩放)和梯度耦合(正则化与光度损失在 Adam 动量中的耦合),通过解耦和重组提出 AdamW-GS 优化器,在不引入额外剪枝操作的情况下同时提升重建质量和减少冗余原语。

Active Learning of 3D Gaussian Splatting with Consistent Region Partition and Robust Pose Estimation

本文给 3D Gaussian Splatting 设计了一套在线主动学习算法:边训练边告诉用户"下一张该从哪个角度拍",通过可见性特征聚类把模型切成一致区域、用语义特征方差找出最欠重建的区域、再用 von Mises-Fisher 分布直接生成下一最佳位姿,并配一套鲁棒位姿优化来吃掉手持拍摄带来的位姿噪声,在 NeRF-Synthetic 上以 10/20 张图的少视角设定超过 FisherRF 等 SOTA。

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

把多视角新视角合成重新表述为"图像 + 几何"的双分支扩散修复任务,并用 MoAI(cross-Modal Attention Instillation) 把图像分支的注意力图注入几何分支,从无位姿参考图直接生成对齐的新视角图像与点云,在外推视角下达到 SOTA。

All That Glitters Is Not Gold: Key-Secured 3D Secrets within 3D Gaussian Splatting

KeySS 把"在一个 3DGS 封面场景里藏多个 3DGS 秘密场景"做成端到端可训练框架:用 CLIP 编码的密钥控制一个解码器把封面高斯直接变换成秘密高斯,错误密钥只会还原封面;同时发现高斯的不同属性对藏秘贡献并不相等(不透明度有用、球谐几乎无用),并提出 3D-Sinkhorn 距离在高斯参数空间里度量隐写隐蔽性,最终在重建保真度与抗检测安全性上都超过 GS-Hider。

Anime-Ready: Controllable 3D Anime Character Generation with Body-Aligned Component-Wise Garment Modeling

Anime-Ready 把文本或单图先规范到 A-pose 动漫角色图,再用 Anime-SMPL、身体对齐的部件式服饰 DiT 和分组件纹理生成,把 3D 动漫角色从“看起来像”推进到带骨骼、可换装、可表情控制的动画可用资产。

ARTDECO:用分层高斯结构 + 前馈先验做高保真在线 3D 重建

ARTDECO 把前馈 3D 基础模型(MASt3R / π³)当作模块化的位姿与点云先验,接上一个能从多尺度特征解码出结构化高斯的 Gaussian decoder,再配上带 LoD 的分层半隐式高斯表示,从单目视频流里同时拿到 SLAM 级速度、前馈级鲁棒性和接近逐场景优化的渲染质量。

查看全部194篇「3D 视觉」论文 →


🎯 目标检测 (30)

APT: Towards Universal Scene Graph Generation via Plug-in Adaptive Prompt Tuning

APT 把场景图生成长期沿用的「冻结词向量语义先验」换成一组轻量可学习提示,将静态语义特征动态调制成依赖视觉上下文的表征,作为即插即用模块塞进任意一阶段 / 两阶段 / 开放词表 SGG 框架,用 <0.5M 参数和更短训练时间换来全面涨点。

Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting

WS-COC 是首个用多模态大模型(MLLM)做弱监督类无关目标计数的框架,只用图像级总数作监督,靠"二分对话调优 + 比较排序优化 + 全局局部融合"三个简单策略把 MLLM 的计数能力激活出来,在 FSC-147 等四个数据集上逼近甚至超过部分点级监督的全监督方法。

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

首次将 Object-Centric Learning(Slot Attention)引入无源域自适应目标检测(SF-DAOD),通过分层 Slot 感知模块提取域不变的目标级结构先验,并用类引导对比学习驱动域不变表征,在多个跨域基准上大幅超越现有方法。

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

通过线性探测实验证明 CLIP 的 BoW(词袋)行为并非源于编码器缺乏绑定信息,而是跨模态对齐的失败;提出 LABCLIP,仅训练一个轻量线性变换即可显著恢复属性-对象绑定能力。

Complexity- and Statistics-Guided Anomaly Detection in Time Series Foundation Models

把时序基础模型(TFM,如 MOMENT)搬到重建式异常检测上时,会因「过泛化」(连异常也重建得很好)和「过平稳化」(实例归一化抹掉了均值方差)而失灵;本文用一个从重建/插补误差差导出的复杂度指标 \(\alpha\) 自适应地把 TFM 与轻量统计模型混合(CAE),再把均值方差重新注入解码端(MOMENT-Stat),在 23 个单变量 + 17 个多变量基准上把 VUS-PR 从此前 SOTA 的 0.4233 提到 0.4679。

Contextual and Seasonal LSTMs for Time Series Anomaly Detection

针对单变量时间序列中现有方法难以检测的"小幅点异常"和"缓慢上升异常",提出 CS-LSTMs 双分支架构——S-LSTM 在频域建模周期性演化、C-LSTM 在时域捕捉局部趋势,结合小波噪声分解策略,在四个基准上全面超越 SOTA 且推理速度提升 40%。

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection

DeCo-DETR 把开放词汇检测里"在线调用文本编码器"和"定位与对齐互相打架"这两件事解耦——用 LVLM 离线蒸馏出一个可复用的分层语义原型池替代推理时的文本编码器,再用双流梯度隔离把定位和语义对齐分开训练,在 OV-COCO novel 类上提升 3.1~5.8 个点的同时把单图推理压到 135ms。

DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts

DETR-ViP 把"视觉提示为什么打不过文本提示"归因于视觉提示缺乏全局判别性,通过全局提示整合扩充负样本、用文本提示关系蒸馏重塑视觉提示空间拓扑、再加选择性融合稳住推理,在 COCO / LVIS / ODinW / Roboflow100 上把视觉提示检测显著推到新 SOTA(COCO 比 T-Rex2-T 高 +4.4 AP)。

DiffuDETR: Rethinking Detection Transformers with Denoising Diffusion Process

DiffuDETR 把目标检测重新表述为「以图像和一组带噪参考点为条件的物体查询生成任务」,用去噪扩散训练让 DETR 解码器学会从高斯噪声里把查询的参考点逐步去噪成精确目标位置,在 COCO / LVIS / V3Det 上一致超过 Deformable DETR、DINO 等基线,且推理只需多跑几次解码器、几乎不增加计算量。

Dual Distillation for Few-Shot Anomaly Detection

提出双蒸馏框架 D24FAD,结合 query 图像上的教师-学生蒸馏(TSD)和 support 图像上的学生自蒸馏(SSD),辅以学习权重机制(L2W)自适应评估 support 重要性,在 APTOS 眼底数据集上仅用 2-shot 达到 100% AUROC。

查看全部30篇「目标检测」论文 →


✂️ 语义分割 (31)

Advancing Complex Video Object Segmentation via Progressive Concept Construction

这篇论文提出 Segment Concept(SeC),把大视觉语言模型抽取到的目标级“概念表示”按需注入 SAM 2.1 风格的视频目标分割流程,在复杂多镜头场景下显著减少外观相似干扰与目标重现失败,并构建了专门考察语义级 VOS 能力的 SeCVOS benchmark。

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

提出对齐感知遮蔽学习(AML)策略,通过量化视觉-语言 patch 级对齐度并过滤低对齐像素,让 RIS 模型在训练时聚焦可靠区域,无需架构改动即在 RefCOCO 全部 8 个 split 上达到 SOTA。

Benchmarking Open-ended Segmentation

针对"开放式分割"里模型生成自由文本描述、却被嵌入相似度强行映射回固定词表的评测漏洞,本文用基于词法关系(精确/同义/下义/部分)的映射函数 + 曲线下面积式的 LAC 协议把评测准确率从偏离人类 37.7% 拉到与人类判断对齐 90%+,并顺手训出第一个带对比损失的开放式分割 MLLM(OPAL),在开放式全景分割上刷到新 SOTA。

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

提出 ByteFlow Net,一种无需分词器的分层字节级语言模型,利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元,在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。

Decomposed Attention Fusion in MLLMs for Training-free Video Reasoning Segmentation

把视频推理分割重构成视频问答任务,直接从 MLLM 的注意力 rollout 中抽取定位线索,再用"对比式去背景 + 视频帧互补"两种融合把噪声注意力图提纯成干净的物体掩码,最后用注意力引导 SAM2 出精细掩码——全程不训练,效果逼近训练型方法。

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

把指代视频目标分割(RVOS)重新定义为「在文本引导下、把视频隐空间表征连续形变成掩码」的 ODE 流问题,直接微调预训练文生视频(T2V)模型 Wan2.1,用三个聚焦轨迹起点的策略稳住训练,在 MeViS、Ref-YouTube-VOS、Ref-DAVIS17 上全面刷到 SOTA。

Detective SAM: Adaptive AI-Image Forgery Localization

在 SAM2 之上挂一组轻量 adapter,把"扰动后特征分布漂移"这个取证线索自动转成热力图 prompt 去分割扩散编辑的篡改区域,再配一条 AutoEditForge 自动造数据流水线,让定位器能持续追上不断更新的图像编辑模型。

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

发现 SAM2 存在类似生物视觉的稀疏感知模式(解码器聚焦前景但编码器广泛计算、记忆帧中仅少量 token 有效且显著性时间一致),据此提出 Efficient-SAM2,通过对象感知的稀疏窗口路由(SWR)和稀疏记忆检索(SMR)消除冗余计算,在 SAM2.1-L 上实现 1.68× 端到端加速且仅损失 1% 精度。

Enabling True Global Perception in State Space Models for Visual Tasks

首次用梯度下界公理化定义"图像全局建模",并基于 2D-DFT 频域调制设计 GSSM 模块,在理论上证明并实验上验证 SSM 可实现真全局感知,同时保持线性对数复杂度。

Enhancing Image-Conditional Coverage in Segmentation: Adaptive Thresholding via Differentiable Miscoverage Loss

提出 COAT 框架,通过可微的 sigmoid soft TPR 近似作为损失函数,端到端训练图像自适应阈值预测器,在图像分割的 Conformal Risk Control 中大幅缩小逐图像覆盖率偏差(Coverage Gap)。

查看全部31篇「语义分割」论文 →


🖼️ 图像恢复 (61)

A Statistical Benchmark for Diffusion-Posterior-Sampling Algorithms

这篇论文为扩散后验采样(DPS)算法造了一把"标准尺":用可以精确 Gibbs 采样的 Lévy 过程信号作为测试分布,拿到分布级别的"金标准"后验样本,再用 MMSE 最优性差距和后验覆盖率两项指标,把主流 DPS 算法(C-DPS / DiffPIR / DPnP)放在去噪、去卷积、缺失填补、部分傅里叶重建四类反问题上系统评测,结论是这些算法普遍没有校准

Adaptive Moments are Surprisingly Effective for Plug-and-Play Diffusion Sampling

把优化器里的 Adam 自适应矩估计直接搬到扩散采样的引导梯度上——对跨采样步的似然分数估计维护一阶/二阶矩的指数滑动平均,几乎零额外成本就把 DPS、CG 这类即插即用引导方法的噪声梯度稳住,在图像恢复(超分/去模糊/补全)和类别条件生成上反超一众更复杂、更慢的方法。

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

作者追踪图像恢复(IR)Transformer 的训练过程,发现标准 LayerNorm 会让特征幅值发散到百万量级、通道熵急剧坍缩,根因是 LN 的"逐 token 归一化"和"输入无关缩放"与 IR 任务相冲突;据此提出 i-LN——把归一化改成跨整个空间-通道维度做、并在每个 Attention/FFN 后按输入自适应地把缩放因子加回去,作为 LN 的即插即用替换件,在 SR/去噪/去雨/去 JPEG 伪影上稳定训练并普遍涨点。

Are Deep Speech Denoising Models Robust to Adversarial Noise?

首次系统性评估 4 款 SOTA 深度语音去噪(DNS)模型在对抗噪声下的鲁棒性:通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声,可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish,实验覆盖多种声学条件和人类评估,同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

LSP 调度器通过在每个去噪步骤中原子性地提交最长连续稳定前缀(而非分散接受离散 token),将 DLM 推理加速 3.4 倍,同时保持或略微提升输出质量。

Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training

定义了"Scale Anchoring"新问题(低分辨率训练导致高分辨率推理误差锚定),并提出架构无关的频率表征学习(FRL),通过 Nyquist 归一化频率编码使误差随分辨率提升而下降,在 8 种主流架构上验证有效。

CL-DPS: A Contrastive Learning Approach to Blind Nonlinear Inverse Problem Solving via Diffusion Posterior Sampling

CL-DPS 用一个离线训练的对比学习编码器去近似扩散后验采样里那个棘手的似然项 \(p(y\mid x_t)\),从而在不知道、也不估计测量算子参数的前提下,第一次让扩散模型能解盲非线性逆问题(如旋转模糊、缩放模糊),在这些任务上现有方法全部崩溃而它能干净复原,同时在线性盲去模糊上也保持竞争力。

Content-Aware Mamba for Learned Image Compression

针对 Mamba 在学习式图像压缩里"固定光栅扫描 + 严格因果"两大硬伤,本文提出内容感知 Mamba(CAM):用基于码本聚类的 token 重排把内容相似的 token 排到一起扫描,再用冗余感知的 prompt 字典把全局先验注入 SSM 输出投影来打破因果性;最终 CMIC 模型在 Kodak/Tecnick/CLIC 上以 BD-rate −15.91%/−21.34%/−17.58% 全面超越 VTM-21.0,且显存比同类 Mamba 方法低近 80%。

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

这篇论文提出 V3,用一个统一的 3D Fourier 场(Video Fourier Field, VFF)把视频直接表示成 \((x,y,t)\) 空间里一组正弦波的和,抛弃了"空间 INR + 光流 warp"那套割裂又脆弱的做法,让任意空间/时间倍率的超分变成一次连续采样,还能闭式地塞进 Gaussian 点扩散函数做抗混叠,在多个基准上把 PSNR 拉高约 1.5–2 dB 的同时跑得更快、更省显存。

DeAltHDR: Learning HDR Video Reconstruction from Degraded Alternating Exposure Sequences

DeAltHDR 首次正面处理「交替曝光 LDR 帧本身就带噪声和运动模糊」这一被忽视的现实问题,用一个光流引导的掩码注意力(FGMA)只在光流不可靠的遮挡区域才做跨帧注意力对齐、其余区域沿用廉价的光流 warp,从而在效率和质量间取得可调权衡;再配一套面向视频大运动改进的自监督适配方法,在合成与真实数据集上都超过了现有 SOTA。

查看全部61篇「图像恢复」论文 →


🛰️ 遥感 (11)

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

Earth-Agent是首个基于MCP工具生态的地球观测Agent框架,统一了RGB和光谱遥感数据,通过动态调用104个专家工具实现跨模态、多步骤、定量时空推理,配套提出的Earth-Bench基准包含248个专家任务和13,729张图像,实验证明Earth-Agent远超通用Agent和遥感MLLM。

MARS - A Foundational Map Auto-Regressor

把矢量地图(点 / 折线 / 多边形)当作一种"语言",用一个统一的视觉编码器 + 自回归解码器端到端生成道路网络与建筑轮廓,无需任何分割后处理,配套发布了迄今最大的多类地图数据集 MAP-3M(约 3M 张图)。

Measuring the Intrinsic Dimension of Earth Representations

首次系统度量地理隐式神经表示(Geographic INR)的内在维度(ID),发现256-512维嵌入的真实ID仅2-10维;冻结嵌入空间的高ID与好的下游性能正相关,而监督任务头激活空间的低ID与高性能正相关,揭示了「代表性 vs 任务对齐」的双重机制。

MoRA: Mobility as the Backbone for Geospatial Representation Learning at Scale

MoRA 把人类移动(mobility)图当作多模态融合的"骨架锚点",用 CLIP 式非对称对比学习把 POI、卫星影像、人口统计三种辅助模态对齐到十亿边级移动图上,在 9 个社会经济下游任务上以 128 维表征平均超越 SOTA 12.9%,并首次给出地理空间表示学习的标度律证据。

Object Fidelity Diffusion for Remote Sensing Image Generation

OF-Diff 用类别标签直接提取遥感目标的"形状掩码先验"来约束扩散生成,再用一个"在线蒸馏"框架把含真实图像信息的混合特征蒸馏进只依赖形状的解码器,使得推理时不再需要真实图像参考也能生成高保真、布局一致的遥感图,最后用 DDPO 强化微调进一步对齐真实分布,下游检测中飞机/船/车等类别 mAP 提升 4–8%。

SatDreamer360: Multiview-Consistent Generation of Ground-Level Scenes from Satellite Imagery

SatDreamer360 从单张卫星图像和预设地面相机轨迹出发,用三平面场景表示、逐像素射线注意力和全景极线约束时序注意力,在扩散模型中生成几何对齐且跨帧一致的 360° 地面全景序列,并在新构建的 VIGOR++ 基准上优于 Sat2Density、ControlS2S 和 EscherNet。

SelvaBox: A high-resolution dataset for tropical tree crown detection

SelvaBox 构建了目前最大规模的开放热带森林高分辨率无人机 RGB 树冠检测数据集,并用统一的多分辨率检测基准证明:高分辨率输入、DINO-Swin 检测器和跨数据集训练能显著提升热带树冠检测的域内与零样本泛化表现。

TAMMs: Change Understanding and Forecasting in Satellite Image Time Series with Temporal-Aware Multimodal Models

提出 TAMMs——首个统一框架,在单一 MLLM-扩散架构中联合执行卫星图像时间序列的时序变化描述(TCD)和未来图像预测(FSIF),通过时序适配模块(TAM)唤醒冻结 MLLM 的时序推理能力,并通过语义融合控制注入(SFCI)机制将变化理解转化为生成控制信号。

Task-free Adaptive Meta Black-box Optimization

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器,通过将进化算子(选择、交叉、变异)参数化为可微注意力模块,在优化过程中利用自生成数据在线更新参数,在合成基准和无人机路径规划上实现零样本竞争性能。

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

TerraFM 面向多传感器地球观测数据,把 Sentinel-1 SAR 与 Sentinel-2 光学影像当作同一地点的天然增强视图,通过模态专属 patch embedding、逐位置 cross-attention 融合和面向长尾地表覆盖的 dual-centering DINO 训练,在 GEO-Bench 与 Copernicus-Bench 的分类和分割任务上取得了强泛化表现。

查看全部11篇「遥感」论文 →


🔍 异常检测 (10)

Adaptive Conformal Anomaly Detection with Time Series Foundation Models for Signal Monitoring

提出 W1-ACAS:一种 post-hoc、免微调的自适应共形异常检测框架,把预训练时序基础模型(TSFM)的预测误差转成可直接解释为误报率(p-value)的异常分数,并通过最小化 Wasserstein 距离在线学习权重,在非平稳数据下稳定控制误报。

Foundation Visual Encoders Are Secretly Few-Shot Anomaly Detectors

作者发现冻结的基础视觉编码器其实"悄悄"已经能区分异常——图像中异常区域的面积与其特征到自然图像流形的距离成正相关,于是只在编码器之上训练一个轻量非线性投影算子(FOUNDAD),把异常特征拉回正常流形、再用投影前后差异打分,就在少样本、多类别工业异常检测上达到 SOTA。

Healthcare Insurance Fraud Detection via Continual Fiedler Vector Graph Model

ConFVG 用图拉普拉斯的第二小特征向量(Fiedler 向量)指导图自编码器的掩码策略来在标签稀缺时学结构感知表征,再用子图注意力融合 + Mean Teacher 在无标签的在线流里持续适应不断变化的欺诈模式,实现医保欺诈的实时检测。

Let OOD Feature Exploring Vast Predefined Classifiers

这篇论文提出 VPC,用一组固定的等角原型把 ID 类别和 OOD 样本分别拉到两个预定义子空间,再用两个子空间上的 L2 激活强度差做 OOD 分数,在 CIFAR 和 ImageNet-1k 的 OE 训练场景中稳定降低 FPR95。

LLM as an Algorithmist: Enhancing Anomaly Detectors via Programmatic Synthesis

把 LLM 从"数据处理器"重新定位为"算法策略师"——它只看检测器的算法描述、不碰任何真实数据,就推理出该检测器的逻辑盲点并生成一段可跨数据集复用的 Python 合成代码,用来造出专门骗过这个检测器的"困难异常",从而把原本只有正常样本的单类问题升级成更可分的两类问题,在 36 个表格异常检测基准上稳定提升五种主流检测器。

Low Rank Transformer for Multivariate Time Series Anomaly Detection and Localization

本文从理论上把 Transformer 编码器在多变量时间序列上的学习过程映射到经典 STAR 统计模型,进而提出对自注意力施加低秩正则的 ALoRa-T,用注意力矩阵的"秩"作为异常信号做检测,并借助可解释的贡献权重把异常回溯到具体变量做定位。

MRAD: Zero-Shot Anomaly Detection with Memory-Driven Retrieval

MRAD 用「特征-标签记忆库的相似度检索」直接替代主流 ZSAD 的参数化拟合 \(p(y|x)\),免训练版本就能打过 WinCLIP,再叠两层线性微调与区域先验注入的动态提示,便在 16 个工业/医疗数据集上刷到 SOTA。

PIRN: Prototypical-based Intra-modal Reconstruction with Normality Communication for Multi-modal Anomaly Detection.

PIRN 面向 RGB 图像与 3D surface normal 的少样本多模态工业异常检测,用自适应原型码本重建每个模态的正常特征,再通过跨模态正常性通信互补纹理和几何线索,在 MVTec 3D-AD、Eyecandies 和 Real-IAD D3 上取得更强的检测与定位表现。

ReTabAD: A Benchmark for Restoring Semantic Context in Tabular Anomaly Detection

ReTabAD 是首个"上下文感知"的表格异常检测 benchmark:它把传统基准里被丢弃的文本语义(特征描述、领域知识、类别原文)重新还原回 20 个精选数据集,配齐 20 个跨经典/深度/LLM 的算法实现,并提出一个无需训练的零样本 LLM 框架,实验证明语义上下文能把检测 AUROC 平均提升 7.6 个百分点,让零样本 LLM 逼近 SOTA 训练方法。

UniOD: A Universal Model for Outlier Detection across Diverse Domains

UniOD 用一批历史带标签数据集训练一个通用离群检测模型:先把任意维度/语义的表格数据集统一成"多尺度相似度图 + SVD 特征",再用 GIN+GT 双路图网络把离群检测转成节点二分类,训练完成后对任何未见过的新数据集免训练、免调参直接打异常分数,在 30 个基准上平均 AUROC/AUPRC 超过 17 个基线且耗时更低。


🧑 人体理解 (45)

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behaviour Analysis

提出首个面向视频中矛盾/犹豫(A/H)识别的多模态数据集 BAH,包含来自加拿大9省224名参与者的1,118段视频共8.26小时,由行为科学专家标注,并提供了帧级和视频级的基线实验结果。

BANZ-FS: BANZSL Fingerspelling Dataset

本文构建了首个面向 BANZSL(英国/澳大利亚/新西兰手语)双手指拼的大规模数据集 BANZ-FS,汇集新闻直播、实验室录制、网络 vlog 三类来源、35K+ 条多级对齐的指拼实例,并在检测、孤立识别、上下文识别三大任务上系统地 benchmark 了 SOTA 模型。

CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

CLUTCH 用「VLM 自动标注的 3.2 万条野外手部动作数据(3D-HIW)+ 把轨迹/姿态、左/右手分别离散化的 SHIFT 分解式 VQ-VAE + 在动作空间上加几何重建损失微调 LLM」三件套,第一次把文本↔手部动作建模做到了"野外"场景(弹琴、揉面、写字等),在文生动作与动作生文两项任务上都刷到 SOTA。

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

提出 Q Avatar 框架,通过跨域 Bellman 一致性量化源域模型可迁移性,利用自适应无超参权重函数混合源域和目标域 Q 函数,实现在状态-动作空间不同的跨域 RL 中的可靠知识迁移,无论源域模型质量或域相似性如何都能保证不产生负迁移。

Curvature-Guided Task Synergy for Skeleton based Temporal Action Segmentation

CurvSeg 针对骨架时序动作分割中"分类要时序不变、边界定位要时序敏感"的内在冲突,提出用分类特征轨迹的几何曲率当边界先验——动作段内曲率高、转换处曲率低,由此在分类与定位之间建立双向闭环协同,并配一套双专家 MoE 给两个子任务各自蒸馏特征,作为即插即用模块提升 DeST/LaSA 等基线在四个数据集上的分割精度。

DenseMarks:通过点轨迹学习人头图像的规范嵌入

DenseMarks 用一个 ViT 嵌入器把人头图像的每个像素映射到一个 3D 规范单位立方体里的坐标,并用现成点跟踪器在野外说话人视频上自动产生的配对作监督、配合对比损失训练,得到一个跨身份、跨姿态一致且可解释的稠密对应表示,在几何感知点匹配和单目人头跟踪上达到 SOTA。

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

DHVAE 把双人交互运动显式拆成「A 个人动作 / B 个人动作 / 全局交互上下文」三个解耦隐变量,并在全局隐变量上加对比学习约束接触合理性,再用 DDIM 在层级隐空间做扩散去噪,以更小更快的模型在 InterHuman / InterX 上刷新 SOTA。

EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation

EasyTune 把扩散模型「跑完整条去噪轨迹再算一次奖励梯度」的微调方式,改成每一步去噪都独立优化一次,从而打断了梯度在去噪步之间的递归依赖,让显存从 \(O(T)\) 降到 \(O(1)\)、优化更密集;再配一个无需人工标注的自精炼偏好学习(SPL)把检索模型改造成动作奖励模型,最终在 HumanML3D 上比 DRaFT-50 的对齐指标(MM-Dist)好 7.7%,显存只占其额外开销的 31.16%,训练提速 7.3×。

EdgeCAPE:边权预测用于类别无关姿态估计

EdgeCAPE 首次在类别无关姿态估计中引入可学习的加权姿态图预测机制,通过预测骨骼图的边权和新边,并结合 Markov 注意力偏差来增强空间依赖建模,在 MP-100 基准上达到 SOTA,1-shot 场景下相比前作 GraphCape 提升 1.99%。

EMBridge: Enhancing Gesture Generalization from EMG Signals Through Cross-modal Representation Learning

EMBridge 提出以手部姿态作为高质量锚点,通过 Q-Former + 掩码姿态重建损失 + 社区感知软对比学习三重机制,将噪声 sEMG 信号的表示空间向语义结构化的姿态空间对齐,首次在可穿戴设备上实现 EMG 零样本手势分类。

查看全部45篇「人体理解」论文 →


📹 视频理解 (48)

A Training-Free Framework for Long Video Understanding via Video-Query-Options Similarity

针对小时级长视频塞不进多模态大模型上下文的问题,本文提出一套无需训练的输入侧框架:用视频-文本检索模型给每个视频片段打相关性分,再据此自适应加密采样(AFS)、动态分配分辨率(DRA),并让 MLLM 自己生成候选答案融进检索 query(VQOS)来精修相关性估计,在 5 个长视频基准上把 LLaVA-Video 和 Qwen2.5-VL 平均提了 3~5 个点。

A.I.R.: Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

提出 A.I.R.,一种无需训练的自适应-迭代-推理驱动帧选择框架,通过两阶段策略(GMM 自适应初始采样 + 迭代式 VLM 精细分析)解决 VideoQA 中轻量模型(CLIP)相似度不准确和 VLM 分析成本爆炸的双重困境,在最坏情况下也仅需分析 72 帧(vs 基线 128 帧),同时显著提升多个长视频 benchmark 性能。

ARFlow: Auto-regressive Optical Flow Estimation for Arbitrary-Length Videos via Progressive Next-Frame Forecasting

ARFlow 把多帧光流从“固定长度 clip 内一次性估计”改成“逐帧自回归预测下一帧光流”,用历史光流初始化当前估计、再用多步长时序预测融合短期与长期运动线索,在几乎恒定显存下提升了 Sintel、KITTI 和 Spring 等基准的光流精度。

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

AVoCaDO 基于 Qwen2.5-Omni,通过 107K 高质量时序对齐音视频字幕数据做 SFT,再用面向关键事件、对话和长度的 GRPO 奖励微调,让 7B 音视频字幕模型在多个 audiovisual captioning benchmark 上超过现有开源模型,部分指标还追上或超过 Gemini-2.5 系列。

Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models

这篇论文先用 Next Frame Selection(下一帧选择)和 Temporal Coherence Verification(时序一致性判别)两个"低层"诊断任务,揭示当前 MLLM 连流体这类连续介质的直觉物理动态都看不懂;再提出 Scene Dynamic Field(SDF)——把物理模拟器算出的粒子速度映射成蓝色梯度图当视觉提示,配合多任务微调,让 Qwen2-VL / GLM-4.1V 在流体任务上最高涨 20.7%,并能迁移到布料、沙、烟雾等未见物理域。

Cambrian-S: Towards Spatial Supersensing in Video

本文提出"空间超感知(spatial supersensing)"这一从被动任务驱动转向主动世界建模的范式:先用 VSI-SUPER 基准证明暴力扩长上下文(包括 Gemini-2.5 和自训的 Cambrian-S)在任意长视频上的空间回忆与计数任务上彻底失效,再用一个自监督的"潜帧预测"头把预测误差("惊讶")当作控制信号去驱动记忆管理与事件分割,从而在长视频空间任务上大幅超过强商业基线。

CaReBench: A Fine-grained Benchmark for Video Captioning and Retrieval

CaReBench 用 1000 个人工标注、字幕长达 200+ 词且显式拆成空间/时间两份的视频,搭起一个能同时考视频细粒度字幕(captioning)和检索(retrieval)的 benchmark,配套两个新指标 ReBias 与 CapST 专门量化 VLM 的时空偏置,并顺手给出一个把字幕和检索统一进单个 MLLM 的两阶段 SFT 基线 CARE。

Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding

Divid 在 Video LLM 的 decoder 内部显式拆开时间分支与空间分支,用时间注意力为查询选择高分辨率关键帧,再通过 token 级 soft-router 融合两路信息,并配合 559K 时间戳监督数据 TempGCap,在时间定位和带证据 VideoQA 上同时提升精度与计算效率。

EAST: Early Action Prediction Sampling Strategy with Token Masking

EAST 用一个随机采样观测比例 \(\rho\) 的训练策略,让单个模型就能在所有观测比例下做早期动作预测,再配上「present + future 双重分类的复合损失」和「按时序冗余度删一半 token 的差异掩码」,在 NTU60 / SSv2 / UCF101 上分别比此前最好方法高 10.1、7.7、3.9 个百分点,同时训练显存和时间砍半。

EgoBrain: Synergizing Minds and Eyes For Human Action Understanding

EgoBrain 构建了首个大规模同步第一视角视频与 32 通道 EEG 的日常动作数据集,并提出 Brain-TIM 用时间感知 Transformer 融合视觉和脑信号,在跨主体跨场景 29 类动作识别上把视觉基线从 63.40% 提升到 66.70%。

查看全部48篇「视频理解」论文 →


🚗 自动驾驶 (50)

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

提出 A3Point(Adaptive Augmentation-Aware Latent Learning)框架,通过语义混淆先验(SCP)隐式学习和语义偏移区域(SSR)定位两大核心组件,解耦模型固有的语义混淆与数据增强引入的语义偏移,对不同干扰程度自适应优化,在多个恶劣天气 LiDAR 分割泛化基准上取得 SOTA。

SMART-R1: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

SMART-R1 首次将 R1 风格的强化微调(RFT)引入多智能体交通仿真,提出 Metric-oriented Policy Optimization (MPO) 算法和"SFT-RFT-SFT"迭代训练策略,在 WOSAC 2025 排行榜上以 0.7858 的 Realism Meta 分数取得第一名。

ARINBEV: Bird's-Eye View Layout Estimation with Conditional Autoregressive Model

ARINBEV 把自动驾驶中的 BEV 语义地图看成已经离散化的结构化 token 序列,用类别编码替代 VQ-VAE tokenization,并用熵引导的掩码自回归解码在 nuScenes 和 Argoverse2 上取得更高 mIoU、更少参数和更快训练。

Astra: General Interactive World Model with Autoregressive Denoising

提出 Astra,一个通用交互式世界模型,通过自回归去噪框架在预训练视频扩散模型上实现动作条件化的长程视频预测,引入 ACT-Adapter(动作注入)、噪声增强历史记忆(缓解视觉惯性)和 Mixture of Action Experts(统一多异构动作模态),在自动驾驶、机器人操控和场景探索等多场景上实现 SOTA 的保真度和动作跟随能力。

AsyncBEV: Cross-modal Flow Alignment in Asynchronous 3D Object Detection

针对车载多传感器无法完美同步的现实问题,AsyncBEV 提出一个轻量、通用的即插即用模块——通过新任务 ∆-BEVFlow 直接从异步多模态 BEV 特征预测稠密 2D 流场,把延迟传感器的特征 warp 对齐到参考时刻,在 0.5s 极端异步下把动态目标的 NDS 相比 EMC 基线提升 16.6%(CMT)。

AutoDrive-R²: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

AutoDrive-R² 用四步 CoT + 自反思数据给自动驾驶 VLA 做冷启动,再用带空间、动力学和时序平滑约束的 GRPO 后训练,让模型既能解释自己的驾驶决策,也能输出更符合车辆物理约束的未来轨迹。

\(AutoDrive\text{-}P^3\): Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning

AutoDrive-P3 把自动驾驶 VLM 的感知、预测、规划组织成统一的 \(P^3\) 链式推理,并用覆盖三阶段的 GRPO 奖励做强化微调,在 nuScenes 与 NAVSIM 上同时提升轨迹精度、碰撞率和闭环规划分数。

Beyond Visual Reconstruction Quality: Object Perception-aware 3D Gaussian Splatting for Autonomous Driving

这篇论文指出"重建得越像就越能复现自动驾驶系统行为"是一个未经验证的强假设,提出用感知稳定性(同一感知模型在重建图与真值图上输出是否一致)取代纯视觉相似度作为优化目标,并给出两个即插即用的损失——感知对齐损失与对象区域质量损失——在不损失视觉质量的前提下显著提升了重建场景的感知一致性。

Bird's-eye-view Informed Reasoning Driver (BIRDriver)

BIRDriver 把整个驾驶场景压缩成一张单帧 BEV 俯视图喂给 VLM,让 VLM 只输出不超过 3 个相对坐标关键点来表达驾驶意图,再由运动规划器据此生成轨迹,从而把 VLM 的常识推理能力低成本地嫁接到长尾驾驶场景上。

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive 提出用扩散桥(diffusion bridge)替代截断扩散来实现锚点引导的自动驾驶轨迹规划,保证前向/反向过程的理论对称性,在 Bench2Drive 闭环评估中成功率达到 74.99%(PDM-Lite)和 89.25%(LEAD),分别超越前 SOTA 7.72% 和 2.45%。

查看全部50篇「自动驾驶」论文 →


🤖 机器人/具身智能 (162)

A Primer on SO(3) Action Representations in Deep Reinforcement Learning

本文系统评估了 SO(3) 旋转动作在深度强化学习里的各种参数化方式(欧拉角 / 四元数 / 旋转矩阵 / 李代数切向量),通过对 PPO、SAC、TD3 在稠密与稀疏奖励下的大规模实验,证明"局部坐标系下的切空间增量动作(delta tangent vector)"几乎在所有算法和任务上最稳健,并给出一套可直接落地的旋转动作选型指南。

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies

SMP(Skill Mixture-of-Experts Policy)把扩散策略的动作生成拆解到一组状态自适应的正交技能基上,用缓变的「黏性」门控只激活少数与当前阶段相关的专家,从而在中等模型规模下实现可复用、可迁移的多任务双臂操作,并把推理时的激活参数压到约自身的 30%(约为 RDT 的 7%),成功率反而高于大扩散基线。

Accelerated co-design of robots through morphological pretraining

本文提出"形态预训练":先用可微仿真把一个与形态无关的通用控制器在上千万个机器人身体上一次性训练好,再用这个冻结的控制器零样本(或少量微调)评估任意身体改动的好坏,从而把机器人"身体+大脑"协同设计的速度提升一个数量级,同时首次让进化里的"杂交重组"真正产出比父代更优的后代。

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

针对 VLA(视觉-语言-动作)模型推理时视觉 token 太多、算力被注意力吃光的问题,本文提出 ADP(Action-aware Dynamic Pruning):用文本相关性挑出任务相关的视觉 token 做前瞻式剪枝,再用机器人末端执行器的近期运动幅度当门控信号——粗动作阶段(位移大)激进剪枝省算力、精细操作阶段(位移小)恢复全视觉保精度,在 LIBERO 上把 OpenVLA-OFT 加速到 1.35× 而成功率几乎不掉,真机延迟降到 1.49×。

Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control

本文用控制理论中的"增量稳定性"为模仿学习两大经验技巧——动作分块(action chunking)与专家噪声注入式数据增强——给出了首个理论保证,证明它们能在不同情形下把连续控制行为克隆中随时间指数级累积的复合误差压成"水平无关(horizon-free)"。

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

把机器人末端执行器的低层动作直接写成自然语言文本喂给 VLM,让微调数据落回预训练分布,从而只用 LoRA 就能把 Gemma-3-12B 变成机器人策略(VLA),在 800+ 次真机实验中保留 85%+ 的 VQA 能力并实现多语言指令、开放世界语义的零样本泛化。

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

ATE 先把预训练机器人动作和目标机器人动作对齐到同一个结构化潜空间,再用潜空间距离产生的梯度指导扩散式或流匹配式 VLA 微调,从而在有限演示数据下更快适配新具身和新任务。

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

提出Tucker Adaptation (TuKA),将多场景多环境的多层级导航知识表示为高阶张量,用Tucker分解解耦为共享子空间(核心张量+编解码器)和场景/环境专家向量,配合解耦知识增量学习策略实现全天候多场景终身VLN,在24个导航场景上的SR和遗忘率均优于LoRA变体。

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

AnyTouch 2提出触觉动态金字塔框架,构建包含242.6万接触样本的ToucHD层级数据集(涵盖原子动作、真实操控和触力配对数据),并设计统一像素级、语义级和物理级三层次动态感知的触觉表征学习框架,在静态属性识别、动态物理预测和真实世界操控四项任务上全面超越现有方法。

APPLE: Toward General Active Perception via Reinforcement Learning

提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。

查看全部162篇「机器人/具身智能」论文 →


🎮 强化学习 (400)

3D-aware Disentangled Representation for Compositional Reinforcement Learning

把"物体属性 → 离散 block"的结构化分解从 2D 搬到 3D 多视角空间,再用 block 级 cross-attention 的策略网络做目标条件强化学习,让机器人在没见过的属性组合、未见视角下仍能稳定地把物体推到目标位置。

A\(^2\)Search: Ambiguity-Aware Question Answering with Reinforcement Learning

A\(^2\)Search 提出一条无需人工标注的自动流水线,从已有 QA 数据里挖掘"歧义问题"的多个合法答案,再用一个天然支持多答案的 AnsF1 奖励做 GRPO 强化学习,让 7B 模型单次 rollout 就在多跳 QA 上超过 32B 的强基线。

A Hierarchical Circuit Symbolic Discovery Framework for Efficient Logic Optimization

HIS 用一棵「分层符号树」把 GNN 的逐层消息传递蒸馏成一个轻量、可解释的符号打分函数,并用结构感知 Transformer + 组优势 PPO 端到端地把这棵树「生成」出来,从而在芯片设计的逻辑优化(LO)里又快又准地识别无效变换——相比 SOTA 的 GNN 推理快约 296×,接入 Mfs2 启发式后平均运行时间降 27.22%、电路规模再减 6.95%。

A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning

本文首次把无奖励强化学习(RFRL)的 Forward-Backward 框架搬到多目标强化学习(MORL)上,提出 MORL-FB:用偏好引导的探索构造与 MORL 任务真正相关的潜向量 \(z\),再配一个辅助 Q 损失,让一个偏好条件策略在 MO-Gymnasium 上以更高样本效率显著超过 PD-MORL、Q-Pensieve 等 SOTA。

A Unifying View of Coverage in Linear Off-Policy Evaluation

提出了一种新的覆盖性参数——特征-动态覆盖(feature-dynamics coverage),通过工具变量视角对经典算法 LSTDQ 进行新颖的有限样本分析,统一了线性离策略评估中各种不同覆盖性定义,解决了该领域长期存在的碎片化问题。

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

提出 AbstRaL,通过强化学习教 LLM 学习推理问题的数学抽象(将具体数字/名称替换为符号变量、提取通用公式),然后用符号求解器推导答案,在 GSM 扰动 benchmark 上几乎完全消除了分布偏移导致的性能下降,并在 OOD 数学/通用推理任务上也有隐式提升。

Accelerated Learning with Linear Temporal Logic using Differentiable Simulation

本文首次把线性时序逻辑(LTL)规约与可微物理仿真器打通:通过对自动机的离散转移做"软标签"松弛,得到对状态/动作可微的奖励与状态表示,让一阶梯度算法(SHAC/AHAC)能直接从形式化规约里高效学习,在接触密集的连续控制任务上把训练速度和回报都拉到离散基线的两倍。

Accelerating Diffusion Planners in Offline RL via Reward-Aware Consistency Trajectory Distillation

RACTD 把奖励优化目标直接塞进一致性轨迹蒸馏过程,用一个预训练的扩散教师规划器 + 一个独立训练的无噪声奖励模型,蒸馏出一个单步采样的学生规划器;它在 D4RL 上比之前 SOTA 平均高 9.7%,同时推理比扩散教师快多达 142 倍。

Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making

Ada-Diffuser 把"随时间演化的隐藏上下文(风、目标、技能)"显式塞进扩散式决策模型:先用理论证明只需 4 个相邻观测的小时间块就能辨识潜变量,再用一个"去噪—精修"机制 + zig-zag 采样让扩散模型在线推断潜变量并据此规划/控制,在 8 个环境 23 种设定上稳定超过现有扩散规划器与潜上下文 baseline。

Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning

针对离线 RL 里"策略约束强度(RL 与行为克隆的配比)必须逐数据集手调"的痛点,本文提出 ASPC:把 TD3+BC 里的缩放因子 \(\alpha\) 变成可学习参数,用二阶可微的双层优化在训练中动态调它,靠约束 Q 值变化率和 BC 损失变化率来稳定更新;在 D4RL 39 个数据集上只用一套超参就超过了需要逐数据集网格搜索的 SOTA,相对基线平均提升 35%。

查看全部400篇「强化学习」论文 →


🎁 推荐系统 (24)

Adaptive Regularization for Large-Scale Sparse Feature Embedding Models

本文用 Rademacher 复杂度从理论上解释了 CTR/CVR 模型「训练超过一个 epoch 就严重过拟合」的根因——embedding 层范数无约束增长撑大了泛化界,并据此提出按特征出现频率自适应分配范数预算的正则方法 AdamAR:高频特征轻正则、低频特征重正则,既消除多 epoch 过拟合又能提升单 epoch 性能,已在阿里搜索广告线上部署。

Beyond Markovian Drifts: Action-Biased Geometric Walks with Memory for Personalized Summarization

本文提出"结构化游走假设"(SWH)质疑个性化摘要中通用的马尔可夫漂移假设(MDH),并给出轻量编码-解码模型 Walk2Pers——把用户偏好演化建模成带双记忆通道、可分解为幅度与方向(连续 vs 新颖)的动作偏置几何游走,在三个基准上显著超越专用摘要器与大模型。

Catalog-Native LLM: Speaking Item-ID dialect with Less Entanglement for Recommendation

针对"把 item-ID 塞进 LLM 会让协同信号和语言语义互相打架"这个问题,本文提出 IDIOMoE:把预训练 LLM 每个 block 的 FFN 拆成一个文本专家和一个item 专家,用静态的 token-type 门控按 token 类型分流(item-id token 走 item 专家,其余走文本专家),从而把"协同过滤"和"语义理解"解耦到不同子网络里,在公开和工业级数据集上都取得最强推荐效果,同时几乎不损伤原 LLM 的语言能力。

CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation

观察到序列推荐中不同用户的 KV cache 具有显著跨用户相似性(协同信号),提出 CollectiveKV 将 KV 分解为低维用户特有部分和从全局 KV 池检索的高维共享部分,实现 0.8% 的压缩率且性能不降。

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

PESO 把基于 LLM 的生成式推荐的持续学习从"堆叠多个冻结适配器"改成"单个不断演化的 LoRA + 一个近端正则项",让适配器每次更新都被轻轻锚向上一阶段的状态,从而在保留长期偏好与吸收新偏好之间自动找平衡,在三个真实数据集上稳定超过累积式 LoRA 和单纯演化的 LoRA。

Discrete Diffusion for Bundle Construction

DDBC 把"捆绑构建"(从大商品库里挑一组商品凑成一个完整 bundle,或补全一个残缺 bundle)重新建模成掩码离散扩散过程:用残差向量量化(RVQ)把每件商品压成几位共享码本里的离散码以化解海量商品库带来的维度灾难,再用一个双向 Transformer 以顺序无关的方式逐步把 [MASK] 去噪还原成完整 bundle,在长 bundle 数据集上相对最强基线取得 100%+ 的相对提升。

From Evaluation to Defense: Advancing Safety in Video Large Language Models

构建 VideoSafetyEval(11.4k 视频-查询对覆盖 19 种风险类别)揭示视频模态使安全性能下降 34.2%,提出 VideoSafety-R1 三阶段框架(报警 Token+SFT+Safety-guided GRPO)在 VSE-HH 上提升 71.1% 防御成功率。

GoalRank: Group-Relative Optimization for a Large Ranking Model

理论证明任意 Multi-Generator-Evaluator 排序系统都存在一个更大的 generator-only 模型以更小的误差逼近最优策略且满足 scaling law,据此提出 GoalRank——用 reward model 构建 group-relative 参考策略来训练大型 generator-only 排序模型,在线 A/B 测试中显著优于 SOTA。

iFusion: Integrating Dynamic Interest Streams via Diffusion Model for Click-Through Rate Prediction

iFusion 把"长短期用户兴趣融合"重新表述为一个条件生成问题——以短期兴趣为引导,对长期兴趣表示做扩散去噪,从而摆脱传统线性融合(拼接/注意力/门控)的假设,在公开数据集、工业数据集和线上 A/B 上都拿到 CTR 提升。

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

通过对来自6家提供商的12个LLM在新闻、学术、电商三大领域的大规模控制实验,揭示了LLM存在系统性的隐式信息源偏好(latent source preferences)——当内容语义完全相同时,仅更换来源标签就能显著改变模型的信息选择行为,且这种偏好无法通过提示工程消除。

查看全部24篇「推荐系统」论文 →


🔄 自监督/表示学习 (81)

A Bayesian Nonparametric Framework for Learning Disentangled Representations

本文用一个贝叶斯非参的层次混合先验取代 VAE 里常见的各向同性高斯先验,在保留可证明可识别性的同时让每个生成因子的混合分量数随数据自适应增长,从而无需任何额外正则项就学到模块化、紧致的解耦表示。

Adaptive Gaussian Expansion for On-the-fly Category Discovery

本文先证明了"即时类别发现"(OCD)任务存在一个被现有哈希方法忽视的性能下界,进而把 OCD 拆成"开放集识别 + 实时新类发现"两个子任务,用软阈值先把已知类直接判出,再用基于多元高斯密度的自适应高斯扩展(AGE)在线增量地聚出新类,在多个数据集上把整体准确率平均拉高约 10%。

Adaptive Test-Time Training for Predicting Need for Invasive Mechanical Ventilation in Multi-Center Cohorts

提出AdaTTT框架,通过动态特征感知self-supervised学习(自适应掩码策略)和原型引导的部分最优传输对齐,在ICU多中心EHR数据上实现鲁棒的测试时适应,用于提前24小时预测有创机械通气需求。

Adversarial Encoding Perturbation and Synthesis for Set Representation Auxiliary Learning

SRAL 把每个集合看成一个经验分布,用 2-Sliced-Wasserstein 距离编码出能感知"集合间差异"的表示,再在特征/编码层而非输入层注入对抗扰动、用 min-max 优化逼模型抵抗最坏扰动,作为一个可插到各种下游任务的自监督辅助目标;理论上证明该目标在期望意义下等价于优化集合间的 Sliced-Wasserstein 距离,在集合相似度排序、捆绑推荐、点云分类、主题集扩展四类任务上稳定超过现有集合编码器。

Architecture-Agnostic Test-Time Adaptation via Backprop-Free Embedding Alignment

PEA 把"域偏移"拆解成嵌入空间里的平移(均值漂移)、缩放(方差漂移)、旋转(协方差漂移)三种几何畸变,然后用一套无反向传播、与架构无关的逐层协方差对齐流程,仅靠每个 batch 两次前向就把偏移的中间特征拉回源域分布,在 ImageNet-C / CIFAR-C 上达到 SOTA 精度的同时,内存只占 ~900MB、能直接跑在 Jetson Orin Nano 边缘设备上。

AutoDV: An End-to-End Deep Learning Model for High-Dimensional Data Visualization

AutoDV 把"对每个数据集都要调参 + 迭代优化"的传统可视化(t-SNE / UMAP)改造成一个一次训练、即插即用的端到端模型:先把任意维度的数据集转成多尺度相似图,再用多图 GNN + 图 Transformer 直接吐出 2D/3D 嵌入,配合仿射不变损失训练;在没见过的 CIFAR-10 上达到 t-SNE 89.37%、UMAP 91.05% 的相对精度,在基因和 UCI 表格数据上甚至超过 t-SNE/UMAP 本身。

Bayesian Test-Time Adaptation via Dirichlet feature projection and GMM-Driven Inference for Motor Imagery EEG Decoding

BTTA-DG 把每条 EEG 试次的逐时刻预测序列压成一个 Dirichlet 参数向量,用历史试次拟合的 GMM 当似然、深度模型输出当先验,做一次无梯度的贝叶斯后验校准,在运动想象脑机接口的跨被试/跨 session 迁移上达到 SOTA 且实时(15.7 ms/试次)。

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

这篇论文提出 Unpaired Multimodal Learner(UML):不需要图文、音图等样本级配对,只要辅助模态与目标模态共享语义结构,就通过跨模态权重共享把未配对文本、图像或音频的训练信号汇入同一表征,从而提升最终只使用单一目标模态的分类与鲁棒性。

Beyond Hearing: Learning Task-Agnostic ExG Representations from Earphones via Physiology-Informed Tokenization

用耳机形态的轻量硬件采集 50 小时自由生活态 ExG 数据,并提出"生理学先验的多频带 tokenization (PiMT)"把信号拆成 12 个物理意义明确的子频带 token,配合重建式自监督预训练,学到一套跨视/听/味/触/嗅五感任务都能用的任务无关 ExG 表示。

Bidirectional Predictive Coding

本文提出双向预测编码(bPC),用一个能量函数同时容纳「自上而下生成」和「自下而上判别」两种推断,让同一套生物可实现的局部电路既能像 discPC 那样准确分类、又能像 genPC 那样生成与重建,并在跨模态联想、遮挡补全等类脑任务上超过现有的单向 / 混合 PC 模型。

查看全部81篇「自监督/表示学习」论文 →


📐 优化/理论 (220)

A Block Coordinate Descent Method for Nonsmooth Composite Optimization under Orthogonality Constraints

本文提出 OBCD,一种在正交约束(Stiefel 流形)下求解"光滑 + 非光滑"复合优化的块坐标下降算法:每次只更新解矩阵的 \(k\ge 2\) 行、把问题压成一个 \(k\times k\) 的小型正交约束子问题精确求解,从而做到天然可行、单步开销低,同时给出比经典临界点更强的"block-\(k\) 稳定点"最优性、\(O(1/\epsilon)\) 迭代复杂度以及 KL 条件下的末迭代收敛率。

A Convergence Analysis of Adaptive Optimizers under Floating-Point Quantization

本文建立了首个在浮点量化下分析自适应优化器收敛性的理论框架,对梯度、权重和优化器状态(动量、二阶矩)同时施加相对误差量化模型,证明了量化 Adam 和 Muon 在尾数长度仅需对数增长于迭代次数时即可保持与全精度相同的 \(\tilde{O}(T^{-1/4})\) 收敛率,并揭示了 Adam 对权重和二阶矩量化高度敏感而 Muon 更为鲁棒的理论机制。

A Memory-Efficient Hierarchical Algorithm for Large-scale Optimal Transport Problems

提出 HALO——一个面向大规模最优传输(OT)问题的多尺度分层求解框架,用"粗到细 warm-start + 活跃支撑集剪枝 + factorization-free 一阶 LP 求解器"把内存压到 \(O(n)\),在 \(1024^2\) 像素图像上相比最强基线实现 8.9× 提速、70.5% 显存削减,并给出一个尺度无关的迭代复杂度上界。

A Scalable Constant-Factor Approximation Algorithm for \(W_p\) Optimal Transport

本文给出第一个对所有 \(p\in[1,\infty]\)(含 \(p=\infty\))都成立的、真正平方时间的常数因子近似算法:在任意度量空间上,用 \(O(n^2+(n^{3/2}\varepsilon^{-1}\log n\log\Delta)^{1+o(1)}\log U)\) 时间算出一个 \((4+\varepsilon)\)-近似的 \(W_p\) 最优传输方案,把此前 \(O(\log n)\) 的近似比一举压成常数。

A Schrödinger Eigenfunction Method for Long-Horizon Stochastic Optimal Control

对于「无控漂移是某势函数梯度」这一类随机最优控制(SOC)问题,本文证明其线性化后的 HJB 算子与一个谱纯离散的薛定谔算子酉等价,于是长程最优控制可由该算子的最大特征函数直接给出(修正项随时间跨度指数衰减);据此给出对称 LQR 的闭式解,并提出去掉「隐式重加权」偏差的相对特征函数损失,把长程 SOC 的内存/时间复杂度从 \(O(Td)\) 降到 \(O(d)\),控制精度提升约一个数量级。

A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent

这篇论文用"两种几何 / 两种平滑度"统一刻画了 Adam/Shampoo 这类自适应优化器与 SignGD/Muon 这类归一化最速下降(NSD)的关系:两者都在利用损失函数的非欧几何,但自适应优化器依赖一个更强的「自适应平滑度」\(\Lambda_{\mathcal H}(f)\),而 NSD 依赖标准平滑度 \(L_{\|\cdot\|_{\mathcal H}}(f)\);论文把自适应平滑度的分析从凸推广到非凸,并证明这个更强的假设确实能换来"标准平滑度下拿不到"的好处——Nesterov 加速率 \(\tilde O(T^{-2})\) 与维度无关的随机收敛率。

Activation Function Design Sustains Plasticity in Continual Learning

本文把"激活函数"重新定位为缓解持续学习中可塑性丧失的首要、与架构无关的杠杆,通过对负半轴斜率与饱和行为的逐属性分析,提炼出三条设计准则,并据此提出两个即插即用非线性 Smooth-Leaky / Randomized Smooth-Leaky,在监督持续分类和非平稳 MuJoCo 强化学习上一致提升后期适应能力。

Adaptive Acquisition Selection for Bayesian Optimization with Large Language Models

本文提出 LMABO,把预训练大语言模型当作贝叶斯优化(BO)过程的"零样本在线策略师"——每一轮把优化状态序列化成结构化文本提示,让 LLM 从一个采集函数(AF)组合中挑出当下最合适的那个;在 50 个基准上稳定超过静态、自适应组合与其它 LLM-based 基线。

Adaptive gradient descent on Riemannian manifolds and its applications to Gaussian variational inference

本文提出 RAdaGD——一族无需线搜索的黎曼流形自适应梯度下降方法,通过在线估计局部光滑常数自动调步长,在"局部测地光滑 + 广义测地凸"的弱假设下取得非遍历收敛率 \(f(x_k)-f(x^\star)\le O(1/k)\),并据此给出高斯变分推断在目标对数密度不满足全局 L-光滑时的首个收敛保证。

Adaptive Rollout Allocation for Online RL with Verifiable Rewards (VIP)

提出 VIP(Variance-Informed Predictive allocation),通过高斯过程预测每个 prompt 的成功概率,据此用凸优化在计算预算约束下分配 rollout 数量以最小化梯度方差,在数学推理任务上一致提升 GRPO/RLOO 的采样效率,AIME24/25 上 Pass@32 最高提升 12.3 个点。

查看全部220篇「优化/理论」论文 →


📐 学习理论 (294)

A Biologically Plausible Dense Associative Memory with Exponential Capacity

通过把双层联想记忆里隐层的"赢者通吃"激活换成一个带阈值的阶跃激活,让隐层神经元能同时参与多个记忆(分布式表征),从而把存储容量从"隐层神经元数的线性"提升到"隐层神经元数的指数级"(\(2^{N_h}\)),并用 MNIST/CIFAR-10 验证了它能存下数万张高度相关的图像、同时保持生物可信性。

A Derandomization Framework for Structure Discovery: Applications in Neural Networks and Beyond

这篇论文提出一个基于 \(\rho\)-SOSP 的通用去随机化引理,证明在高斯输入、光滑目标和极小权重正则下,二阶驻点会自动压低随机线性部分,从而解释神经网络第一层权重的低秩结构发现,并推广到 MAXCUT 舍入和 Johnson-Lindenstrauss 嵌入的确定性构造。

A Faster Parameter-Free Regret Matching Algorithm

本文提出无参数的遗憾匹配变体 MI-SPRM+,通过一个叫"自适应遗憾域(ARD)"的技巧单调抬高累积遗憾 1-范数的下界,在两人零和博弈中既保留无需调参的性质、又达到 \(O(1/T)\) 的理论收敛率——这是已知第一个同时做到这两点的 RM 类算法。

A Generalized Geometric Theoretical Framework of Centroid Discriminant Analysis for Linear Classification of Multi-dimensional Data

本文提出几何判别分析(GDA)这一统一理论框架,把一类线性分类器都看成"两类质心连线 CDB0 + 不同约束下的几何修正",证明 MDC、LDA 都是它的特例;并据此设计出新分类器 CDA——从 CDB0 出发、用贝叶斯优化在一系列 2D 平面上做"性能驱动的旋转",把训练复杂度从 LDA/SVM 的立方级降到平方级,在 27 个真实数据集上同时取得了比 LDA/SVM/LR 更好的性能、可扩展性与稳定性。

A Minimum Variance Path Principle for Accurate and Stable Score-Based Density Ratio Estimation

本文指出 score-based 密度比估计在理论上"路径无关"、实践中却"路径敏感"的悖论根源是一个被忽略的项——评分函数的路径方差,提出最小方差路径(MVP)原则把它显式写进目标,并用 Kumaraswamy 混合模型把路径参数化为可学习函数,在多个困难基准上做到更准更稳的密度比估计。

A Near-Optimal Best-of-Both-Worlds Algorithm for Federated Bandits

本文提出 FEDFTRL——首个在联邦多臂赌博机里同时对随机环境和对抗环境都拿到近最优个体遗憾界的算法,核心做法是把"去中心化通信带来的信息延迟"重新解释成"延迟反馈赌博机",再用混合正则器的 FTRL 配上截断损失估计器与偏差记录通信方案,把对抗环境下的遗憾从此前最好的 \(O(T^{2/3})\) 压到 \(O(T^{1/2})\)

A New Approach to Controlling Linear Dynamical Systems

本文提出 Online Spectral Control(OSC):把对抗扰动下的线性动力系统控制问题,用一组与具体系统无关的「谱滤波器」(某个 Hankel 矩阵的特征向量)做凸松弛,从而在保持 \(\tilde O(\gamma^{-4}\sqrt T)\) 最优遗憾的同时,把每步运行时间对稳定裕度 \(\gamma\) 的依赖从多项式 \(O(\gamma^{-1})\) 降到对数级 \(O(\mathrm{polylog}(1/\gamma))\)

A New Initialization to Control Gradients in Sinusoidal Neural Networks

这篇论文为正弦激活网络 SIREN 推导了一组闭式初始化参数,通过同时控制预激活分布、层间 Jacobian 方差和频谱扩张,让深层 sinusoidal neural networks 在函数拟合、图像/音频/视频重建和 PINN 任务中减少梯度爆炸与伪高频噪声。

A Sharp KL Convergence Analysis for Diffusion Models under Minimal Assumptions

本文为扩散模型(DDPM 采样器)在"只假设 score 估计 L2 准确、不假设任何光滑性"的最小假设下,给出 KL 散度收敛的更尖锐分析:把生成过程建模为"一步概率流 ODE + 一小步加噪",并发展出一套处理 score 二阶空间导数(Laplacian)的新证明技术,把达到 \(\varepsilon^2\)-KL 所需迭代数从此前最好的 \(\tilde O(d/\varepsilon^2)\) 改进到 \(\tilde O(d/\varepsilon)\)——在保持维度 \(d\) 线性依赖的同时,把对精度 \(\varepsilon\) 的依赖从二次降到一次。

A Statistical Learning Perspective on Semi-dual Adversarial Neural Optimal Transport Solvers

这篇论文给"用神经网络对抗式 minimax 求解二次最优传输映射"的一类生成式方法补上了缺失的统计学习理论:证明学到的传输映射与真实 OT 映射之间的泛化误差,可被分解为估计误差 + 逼近误差,且估计误差只由网络函数类的 Rademacher 复杂度控制、逼近误差可通过选合适的网络任意小,从而首次给出 \(O(1/\sqrt{N})\) 量级的收敛保证。

查看全部294篇「学习理论」论文 →


🔗 因果推理 (63)

A Relative Error-Based Evaluation Framework of Heterogeneous Treatment Effect Estimators

本文提出一套基于相对误差的 HTE 估计器评估框架:通过精心设计的加权最小二乘损失 + 平衡正则项 + Dragonnet 式神经网络,使相对误差估计在结果回归模型设定错误时仍保持 \(\sqrt{n}\) 一致、渐近正态、置信区间有效(只需倾向得分模型正确),从而可靠地比较不同 HTE 估计器;并顺带衍生出一个聚合式 HTE 学习算法。

Action-Guided Attention for Video Action Anticipation

提出动作引导注意力 (AGA) 机制,用模型自身的动作预测序列作为注意力的 Query 和 Key(而非像素特征),结合自适应门控融合历史上下文和当前帧特征,在 EPIC-Kitchens-100 上实现从验证集到测试集的良好泛化,同时支持训练后的可解释性分析。

ActiveCQ: Active Estimation of Causal Quantities

ActiveCQ 把"用尽量少的标注样本估准某个因果量(CATE/ATE/ATT/分布漂移下的 ATE)"这件事统一成一个主动学习问题:发现绝大多数因果量都可以写成"回归函数对某个分布求积分"的形式,于是用高斯过程(GP)建模回归函数、用 RKHS 里的条件均值嵌入(CME)建模那个积分用的分布,再从因果量后验不确定性里解析地推出采集函数(信息增益 / 全方差缩减),在多个模拟与半合成数据集上以更少标注显著超过随机、BALD、Coreset 等基线。

Adjusting Prediction Model Through Wasserstein Geodesic for Causal Inference

针对因果推断里"实验组和对照组分布失衡导致预测模型无法跨组泛化"的问题,本文提出 G-learner:不再像主流方法那样去对齐协变量(会丢掉预测信息、产生 over-balancing),而是沿着两组分布之间的 Wasserstein 测地线生成一串中间群,再用渐进自训练把预测模型从一组逐步搬到另一组,在 News/Twins/Jobs 和仿真数据上把 PEHE/ATE 误差压到 SOTA 或与之持平。

ALM-MTA: Front-Door Causal Multi-Touch Attribution Method for Creator-Ecosystem Optimization

针对短视频平台「消费驱动创作」场景中无真值标签、又存在系统级隐混淆的归因难题,本文用前门准则 + 对抗式学习的代理中介把每个消费触点对「用户是否上传」的因果 uplift 识别出来,并用对比学习保证大动作空间下的 overlap,在快手 4 亿 DAU 真实系统上把上传 AUC 提到 0.907(相对 SOTA +40%)、单位曝光效率提升 670%。

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

将因果推断中的半参数效率理论系统引入MDP的Q函数估计,证明经典的Q-regression和FQE本质上是有plug-in偏差的朴素学习器,并提出DRQQ-learner——一个同时具备双重鲁棒性、Neyman正交性和准oracle效率的元学习器,通过推导有效影响函数(EIF)构造去偏二阶段损失,在Taxi和Frozen Lake环境中全面超越基线方法。

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

本文指出大规模多模态数据并不服从单一有向无环图(DAG)的生成假设,提出一个用"无向边连接两组潜在耦合变量"的潜在偏因果模型,并在球面和凸体两种潜在空间上证明:CLIP 这类多模态对比学习(MMCL)学到的表示与真实潜变量分别相差一个线性正交变换 / 置换变换,从而第一次给出 MMCL 的"逐分量解耦"理论保证,并把它落到 FastICA / PCA+FastICA 这种即插即用的解耦流程上,在少样本学习和域泛化上拿到提升。

CARL: Preserving Causal Structure in Representation Learning

CARL 研究跨模态表征学习中的因果结构漂移问题,通过条件独立保持、Markov 边界保留和单调对齐一致性三类约束,把多模态数据映射到共享表征空间时尽量保住原始因果图中的独立关系、媒介变量信息和因果效应可识别条件。

CaTs and DAGs: Integrating Directed Acyclic Graphs with Transformers for Causally Constrained Predictions

本文提出 Causal Transformer (CaT),把一张预先给定的因果有向无环图(DAG)的邻接矩阵作为掩码注入到 transformer 的交叉注意力中,让网络在保留强函数逼近能力的同时严格遵守因果结构,从而对协变量漂移更鲁棒、更可解释,并能直接估计干预效应。

Causal Discovery in the Wild: A Voting-Theoretic Ensemble Approach

把若干个因果发现算法当成"会犯错的投票专家",用投票理论给结构集成建立一套有理论保证的加权贝叶斯投票框架——通过把图拆成边级子结构、再用最优传输估计每个专家的"能力矩阵",最终在合成与真实数据上比现有启发式集成方法更稳更准,并给出了集成规模/能力/多样性该怎么选的明确指导。

查看全部63篇「因果推理」论文 →


🔬 可解释性 (195)

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

本文首次用偏信息分解(Partial Information Decomposition, PID)把 LVLM 的"决策相关信息"拆成冗余/视觉独有/语言独有/协同四个非负原子,构建模型无关的估计流水线,在 26 个模型 × 4 个数据集上从"广度-深度-时间"三个维度量化刻画 LVLM 究竟是靠真正的跨模态融合还是靠语言先验做出预测。

AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features

本文用「展开近端梯度求解稀疏编码」这一统一框架重新推导 SAE,证明 ReLU / JumpReLU / TopK 都是不同稀疏正则项的近端算子,并指出它们共有的非负约束会把双向语义概念(如男 vs 女)撕裂成两个冗余特征;据此提出去掉非负约束、按绝对值取最大 k 个激活的 AbsTopK SAE,让单个特征用正负号编码一对相反概念,在重构、可解释性和引导任务上全面超越 TopK/JumpReLU,并逼平甚至超过有监督的 Difference-in-Mean。

Activation Steering with a Feedback Controller

本文把 LLM 激活引导(activation steering)重新解释成控制理论里的反馈控制问题,证明 ActAdd / DirAblate / Mean-AcT 这些主流方法本质上都是只有比例项的 P 控制器、因而带有消不掉的稳态误差,进而提出用完整的 PID 控制器来计算引导向量(PID Steering),在去毒、越狱、图像风格控制等任务上稳定超过原方法。

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

提出 AdAEM,一个自适应、自扩展的 LLM 价值观评估框架,通过信息论优化自动生成能最大化揭示不同 LLM 价值差异的测试问题,解决现有静态基准无法区分模型价值取向的"信息量不足"问题。

Adaptive Concept Discovery for Interpretable Few-Shot Text Classification

StructCBM 把概念瓶颈模型(CBM)改造成"只靠样本-概念相似度做预测、完全不训练分类头"的范式:用 LLM 从极少量样本里生成"原型概念 + 判别概念"两层概念库,靠两阶段相似度匹配(先召回候选标签、再对比定夺)做出可解释预测,并用"误分类回灌 LLM 精修概念"的闭环把概念越调越准——10-shot 下就超过所有现有 CBM,在语义密集的数据集上逼近直接调用 LLM 的黑盒效果,且推理阶段不再需要 LLM。

Addressing Divergent Representations from Causal Interventions on Neural Networks

系统性地揭示因果干预(activation patching、DAS、SAE 等)会将模型内部表征推离自然分布,理论区分"无害偏移"与"有害偏移"两类情况,并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形,在 7B LLM 上验证可减少偏移同时保持干预准确率。

An Information-Theoretic Parameter-Free Bayesian Framework for Probing Labeled Dependency Trees from Attention Score

IPBP 不训练任何探测网络,直接对"注意力分数"和"依存关系"的联合分布做核密度估计,闭式算出每个注意力头与各类依存关系的互信息,再用贝叶斯后验 + 几何平均池化 + Eisner 解码重建出带标签的依存树,在多个 7B/8B LLM 上比一众有监督/无监督基线都更准、且天然可解释。

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

针对「注意力探测」这一日益流行的冻结表示评估协议普遍参数臃肿的问题,本文先把已有方法统一成一个框架,再利用多头交叉注意力与多查询交叉注意力的数学等价性砍掉冗余投影矩阵,提出极轻量的 Efficient Probing(EP)——在 ImageNet-1K 上以不到 1.4M 参数把 MAE ViT-B 的探测精度从线性探测的 67.7% 拉到 75.6%,且各预训练范式上全面超越线性探测与已有注意力探测方法。

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

本文证明 LLM 中两个看似独立的谜题——注意力沉降(attention sinks)与压缩谷(compression valleys)——其实是残差流里海量激活(massive activations)这同一机制的两个侧面,并据此提出 Mix-Compress-Refine 三阶段信息流理论,统一解释了为什么 embedding 任务在中层最强、生成任务却要走满全深度。

Automated Interpretability Metrics Do Not Distinguish Trained and Random Transformers

这篇论文给当下火热的稀疏自编码器(SAE)做了一次"理智检查":把 SAE 同时套到训练好的 Transformer 和随机初始化的 Transformer 上,发现常用的自动可解释性分数(auto-interp AUROC)和重建指标在两者之间几乎区分不开,说明高可解释性分数本身不能证明 SAE 抓到了模型真正学到的计算特征。

查看全部195篇「可解释性」论文 →


📦 模型压缩 (239)

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

用信息论推导出 LLM 单次推理在多跳 QA 中的 Fano 式准确率上界,揭示当任务信息需求超过模型输出容量时准确率会"悬崖式"骤降的现象,并据此设计多轮推理框架 InfoQA,通过容量感知分解、依赖显式工作流和迭代查询压缩来突破单次推理瓶颈。

A Recovery Guarantee for Sparse Neural Networks

证明了 ReLU 神经网络的首个稀疏恢复保证:对两层标量输出网络,当训练数据为高斯随机采样时,基于凸重构的迭代硬阈值 (IHT) 算法可精确恢复稀疏网络权重,且内存需求仅与非零权重数线性增长。

A universal compression theory for lottery ticket hypothesis and neural scaling laws

本文证明了一个通用压缩定理:任意置换不变函数可以被渐近压缩至 polylog(d) 规模且误差趋近于零(这是最优压缩率),由此直接推导出动态彩票假说的证明——任何网络可被压缩至多对数宽度同时保持学习动力学不变,以及数据集可被压缩至多对数大小同时保持损失景观不变,并且幂律缩放定律可被加速至任意快的衰减率。

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。

Achieving low-bit Muon through subspace preservation and grid quantization

本文首次研究 Muon 优化器状态的 4-bit 压缩,发现 Newton-Schulz 正交化会把量化误差主要放大在动量矩阵的 top 奇异子空间上,于是提出 4-bit-Muon-GRASP:用 8-bit 温和保留 top 子空间、4-bit 压残差子空间,并用沿行列双向归一化的网格量化抑制双维度离群值,在 LLaMA 130M~1.1B 预训练与 Qwen2.5-7B 微调上几乎无损精度,训练显存最多降 28%。

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

构建 ACPBench Hard——基于 PDDL 形式化系统的 8 类开放式生成规划推理 benchmark(13 域 × 8 任务 = 1040 题),配备具有严格正确性保证的符号验证器,系统测评 15 个 LLM 后发现:即使最强推理模型 o1-preview 在半数任务上准确率 ≤66%,所有模型在最基本的"列举可执行动作"任务上几乎完全失败,暴露了当前 LLM 在规划推理方面的根本不足。

Adaptive Nonlinear Compression for Large Foundation Models

NLA 用分段线性核把权重矩阵做"非线性低秩近似",再配一个免拼接全矩阵的前向算法和按重要度分配压缩率的自适应预算调度,让低秩压缩在相同参数量下信息损失更小、压缩率更高。

Adaptive Width Neural Networks

提出AWN框架,通过变分推断在训练过程中自动学习每层的无上界宽度(神经元数量),利用单调递减的重要性函数对神经元施加软排序,实现宽度自适应于任务难度,并支持零成本的训练后截断压缩。

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

提出 AdaRank,用可学习二值掩码自适应选择 task vector 的奇异分量(取代启发式 top-k),结合测试时熵最小化优化,大幅缓解多任务模型合并中的任务间干扰,在 ViT-B/32 上达到 89.4% 准确率。

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in LVLMs

通过 erank(有效秩)和注意力熵的系统性实证分析,揭示了视觉 token 剪枝中注意力方法和多样性方法的互补特性——注意力方法抑制幻觉但覆盖有限,多样性方法覆盖全面但易引入幻觉——并据此提出基于图像复杂度自适应切换剪枝策略的 AgilePruner,在 9 个 benchmark 上表现稳健。

查看全部239篇「模型压缩」论文 →


🕸️ 图学习 (118)

A Graph Meta-Network for Learning on Kolmogorov–Arnold Networks

本文证明 Kolmogorov–Arnold 网络(KAN)和 MLP 共享同样的神经元置换对称性,据此把一个训练好的 KAN 编码成「KAN-graph」(节点是神经元、边携带那条边上一维函数的参数),并设计首个直接在 KAN 上做学习的权重空间架构 WS-KAN(一个双向消息传递 GNN),在预测精度、分类 INR、预测剪枝掩码等任务上大幅超过对称性无关的基线。

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

这是一篇大规模、可控的实证研究,系统对比 LLM 处理文本图的三种"交互模式"——直接 prompting、ReAct 式工具调用、以及让 LLM 写代码查图的 Graph-as-Code——发现让 LLM 自己写代码操作图(而不是把图塞进 prompt)在节点分类上整体最强,尤其在长文本、高度数的稠密图上优势巨大,并且它能在结构、特征、标签三种信号间自适应地切换依赖。

Adaptive Mixture of Disentangled Experts for Dynamic Graph Out-of-Distribution Generalization

针对动态图上"分布偏移本身会随时间演化"这一现象,本文提出 AdaMix:用一个时空分布探测器实时感知每个时刻的偏移,再用原型引导的解耦专家混合(多种 GNN 架构当专家)按偏移自适应路由,最后用分布感知干预机制挖掘不变模式,在真实与合成动态图数据集上显著超过固定架构的 SOTA。

AdaSpec: Adaptive Spectrum for Enhanced Node Distinguishability

本文从"节点可区分性"角度刻画谱 GNN 的表达能力,证明可区分节点数的下界由图矩阵的不同特征值个数与节点特征的非零频率分量个数共同决定,并据此提出即插即用的自适应图矩阵生成模块 AdaSpec,在不提升计算复杂度阶数、保持置换等变的前提下显著增强谱 GNN 区分异配图节点的能力。

AdS-GNN - a Conformally Equivariant Graph Neural Network

这篇论文把点云从平直欧氏空间"抬升"到高一维的反德西特(AdS)空间,借助物理里 AdS 等距变换 ⇔ 边界共形变换的对应关系,构造出第一个对完整共形群(含平移、旋转、缩放,乃至非仿射的特殊共形变换)等变的图神经网络 AdS-GNN,并在超像素 MNIST、形状分割和 Ising 模型关联函数等任务上展现出更强的尺度泛化能力,还能从训练好的网络里直接读出共形维数这种物理上有意义的普适量。

Are We Measuring Oversmoothing in Graph Neural Networks Correctly?

指出广泛使用的Dirichlet energy指标无法在实际场景中正确捕获GNN过平滑现象,提出以特征表征的数值秩/有效秩(effective rank)作为替代度量。在深度2–24、各深度独立训练的设定下,Erank与准确率的平均相关性达0.91(且方向一致为正),而Dirichlet energy平均仅−0.72、相关方向在数据集间反复横跳(在大规模OGB-Arxiv等场景下尤其失效);并从理论上证明对线性及非负权重的非线性GNN族其特征矩阵数值秩收敛到1(秩坍塌),从而把过平滑重新定义为秩坍塌而非特征向量对齐。

AtlasKV: Augmenting LLMs with Billion-Scale Knowledge Graphs in 20GB VRAM

AtlasKV 把知识图谱里的每条三元组直接转成 Q-K-V 数据并以注意力的方式注入 LLM,再用层次化键值剪枝把复杂度从线性压到次线性,从而在 20GB 显存内为 LLM 接入十亿级(1B triples)知识图谱,无需外部检索器、无需长上下文、也无需为新知识重训。

Atomic HINs: Entity-Attribute Duality for Heterogeneous Graph Modeling

本文提出"实体-属性对偶"原理,把异构信息网络(HIN)里所有属性原子化为实体节点得到一个"原子 HIN"作为表达力最大的标准形,再用遗传算法在节点/边类型上做二元选择(schema refinement),让一个极简版 RGCN(sRGCN)就能在 8 个数据集的节点分类和链接预测上达到 SOTA。

Beyond Entity Correlations: Disentangling Event Causal Puzzles in Temporal Knowledge Graphs

本文提出 HEDRA,第一个在时序知识图谱(TKG)事件级别做异质因果解耦的表示学习框架,通过反事实检测、工具变量引导、演化正交三个模块逐级剥离非因果、伪因果,并分离动态/静态因果,在五个真实数据集上取得 SOTA。

Beyond Simple Graphs: Neural Multi-Objective Routing on Multigraphs

首次提出针对多重图(multigraph)的神经组合优化路由方法 GMS,包含直接在多重图上边级自回归构造的 GMS-EB 和先学习剪枝再节点级路由的双头 GMS-DH 两个变体,在非对称多目标 TSP 和 CVRP 上实现了接近精确求解器 LKH 的性能且速度快数十倍。

查看全部118篇「图学习」论文 →


📈 时间序列 (121)

A General Spatio-Temporal Backbone with Scalable Contextual Pattern Bank for Urban Continual Forecasting

STBP 用一个"频域 + 线性图注意力"的通用时空骨干提取稳定可迁移的表征,再外挂一个可增量扩展的"上下文模式库"作为 prompt,骨干冻结、只长模式库,从而在节点持续增长、分布持续漂移的城市流数据上同时做到抗遗忘、强建模和可扩展。

A Spectral-Grassmann Wasserstein metric for operator representations of dynamical systems

这篇论文把动力系统的 Koopman / transfer operator 表示成“特征值 + 谱投影子空间”的离散分布,并在谱空间与 Grassmann 几何上定义 Spectral-Grassmann Optimal Transport (SGOT) 距离,使不同采样频率下的动力系统可比较、可分类、也可做 Fréchet barycenter 插值。

A Study of Posterior Stability in Time-Series Latent Diffusion

本文系统分析了潜在扩散(latent diffusion)在时间序列上的后验坍缩问题——证明坍缩会让模型退化成弱化版 VAE,并提出"后验稳定潜在扩散"框架:把扩散过程重解释为变分推断以去掉危险的 KL 正则、再用扩散过程模拟坍缩来惩罚解码器对潜变量的不敏感。

A Unified Federated Framework for Trajectory Data Preparation via LLMs

FedTDP 把"轨迹数据准备"(去噪、补全、地图匹配等十类任务)统一成一个跨区域、不共享原始数据的联邦学习问题,用一个轻量隐私自编码器保护数据、一个轨迹知识增强器把通用 LLM 改造成懂时空模式的"轨迹清洗大脑"、再用并行优化压通信成本,在 6 个数据集 10 类任务上全面超过 13 个 SOTA。

Adapt Data to Model: Adaptive Transformation Optimization for Domain-shared Time Series Foundation Models

提出TATO框架,通过自动优化数据预处理 pipeline(包括上下文裁切、尺度归一化、异常值校正),让冻结的大型时序模型(LTM)在不微调的情况下适配不同下游领域,平均降低MSE 13.6%,最高65.4%。

Are Global Dependencies Necessary? Scalable Time Series Forecasting via Local Cross-Variate Modeling

针对多变量时序预测里"用全局注意力建模跨变量依赖导致复杂度随变量数二次膨胀"的痛点,本文提出"局部充分性假设"——稠密系统中一个有限的局部邻域就大概率包含足够的预测信号,并据此设计 VPNet:把 patch 嵌入重排成「变量 × patch」二维场,用深度可分离 2D 卷积做局部混合,使复杂度随变量数线性增长,在 8 个基准上同时拿下 SOTA 精度与显著效率优势。

ASTGI: Adaptive Spatio-Temporal Graph Interactions for Irregular Multivariate Time Series Forecasting

ASTGI 把不规则多变量时间序列里的每个离散观测直接编码成一个可学习时空空间里的"点",不做插值/对齐就保住原始采样结构,再为每个点用最近邻搜索动态建一张因果图、按相对时空位置做关系感知消息传播,最终把预测统一成"给一个查询点聚合邻域信息做回归",在 4 个公开数据集上 MSE 较次优方法降约 6%。

Aurora: Towards Universal Generative Multimodal Time Series Forecasting

Aurora 是第一个多模态时间序列基础模型:在「时间序列 + 文本描述 + 内生图像」三模态的跨域语料上预训练,用模态引导注意力把文本/图像里的领域知识注入时序建模,再用「原型引导的流匹配」做生成式概率预测,从而在零样本/少样本的跨域场景下同时拿下确定性和概率性预测 SOTA。

AutoDA-Timeseries: Automated Data Augmentation for Time Series

AutoDA-Timeseries 是首个面向时间序列的通用自动数据增强(AutoDA)框架:它把每条时序的统计特征喂给一个可学习的策略生成器,由堆叠的增强层逐层用 Gumbel-Softmax 可微地挑选变换类型并自适应调节其概率与强度,与下游模型一起单阶段端到端联合优化,在分类、长/短期预测、回归、异常检测五大任务上稳定超越现有强基线。

Battery Fault: A Comprehensive Dataset and Benchmark for Battery Fault Diagnosis

本文构建了首个面向真实运行工况的电动汽车电池系统故障诊断数据集 CH-BatteryGen,用"真实车载数据 + 机理约束生成模型"兼顾真实性与规模,覆盖 1000 辆车、两种主流化学体系、四类故障标签与三级严重度,并配套故障分类与故障分级两个基准任务。

查看全部121篇「时间序列」论文 →


🏥 医学图像 (86)

A Brain Graph Foundation Model: Pre-Training and Prompt-Tuning across Broad Atlases and Disorders

BrainGFM 把 fMRI 脑网络当成图来建模,用「图对比 + 图掩码自编码」在 27 个数据集、8 种脑图谱共 40 万张脑图上做大规模预训练,再用元学习优化的图提示做小样本适配、用 BioClinicalBERT 编码的语言提示做零样本迁移,使一个冻结的脑基础模型能跨越各种图谱、脑疾病和任务设置直接诊断。

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

VCFLOW 把人脑视觉皮层的"腹侧—背侧双通路"机制搬进解码模型,将 fMRI 信号拆成早期视觉 / 腹侧 / 背侧三路并分别对齐 CLIP 不同层级特征,再用一个 redistribution 适配器分离"被试无关语义"与"被试身份",从而首次实现无需对新被试重训的 fMRI-to-video 重建:相比逐人训练只掉约 7% 精度,却把单段视频生成从 12 小时训练压到 10 秒推理。

A Scalable Distributed Framework for Multimodal GigaVoxel Image Registration

本文提出 FFDP——一套 IO 感知的非 GEMM 融合 CUDA 核加上支持卷积感知张量分片的分布式框架,把传统/深度图像配准流程加速 6–7×、峰值显存降低 20–59%,并首次在 8 张 A6000 上用约一分钟完成 100µm 离体人脑 MRI(超 110 亿变换参数、比临床数据大 570×)的原生分辨率多模态配准。

A Structured, Tagged, and Localized Visual Question Answering Dataset with Full Sentence Answers and Scene Graphs for Chest X-ray Images

本文从 MIMIC-CXR 的放射学报告自动构建出 CXR-QBA——一个含 4220 万条问答对、每条答案都带完整句子、边界框和结构化标签(发现/区域/确定性等)的大规模胸片 VQA 数据集,通过"场景图构建 → 模板化问答生成 → LLM 自动质检"三段流水线产出,并给出 3120 万预训练级 + 750 万微调级两个子集和一个配套的 baseline 模型与评测指标。

AbdCTBench: Learning Clinical Biomarker Representations from Abdominal Surface Geometry

作者从 18,719 名患者的 23,506 例腹部 CT 中提取出 2D 体表网格图像、配上 16 个 CT 生物标志物与上百个疾病/共病标签,构建了首个、也是规模最大的「体表几何 → 内部体成分」数据集 AbdCTBench,并用 7 个主流视觉架构系统证明:仅凭外部腹部表面几何就能预测年龄(MAE 6.22 岁)、死亡率(AUROC 0.839)、伴慢性并发症的糖尿病(AUROC 0.801)等临床相关指标,为无辐射、低成本的消费级健康筛查铺路。

Accelerating Benchmarking of Functional Connectivity Modeling via Structure-aware Core-set Selection

为了让"在大规模 fMRI 数据上比较数百种功能连接(FC)建模算子"这件昂贵的事变得可负担,本文把基准评测重新表述成"保留算子排名的子集选择"问题,提出自监督框架 SCLCS——用自适应 Transformer 学每个样本的连接结构、用结构扰动分数(SPS)挑出最稳定的"原型"样本、再用密度均衡采样补多样性,仅用 10% 数据就能保住全集上 130 个 FC 算子的真实排名,排名一致性(nDCG@k)比此前最好的核心集方法高出最多 23.2%。

Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation

提出CDTSDE框架,在扩散模型的逆向SDE中嵌入可学习的空间自适应域混合场 \(\Lambda_t\),使跨模态翻译路径沿低能量流形前进,在MRI模态转换、SAR→光学、工业缺陷语义映射任务上以更少去噪步数实现更高保真度。

Anatomy-aware Representation Learning for Medical Ultrasound

针对医学超声「散斑纹理重、灰度色彩单一、特征因器官而异」三大特性,本文构建了一个 520 万张图的大规模超声数据集,并提出解剖感知的 A-ViT(核心是「解剖条件可变形 Transformer」ACDT)配合「掩码重建 + 对抗 + 自蒸馏」三重自监督目标,在乳腺/甲状腺/胆囊/新冠肺/心脏等多种超声诊断任务上显著超过通用与医学领域的 SSL 基线。

Are EEG Foundation Models Worth It? Comparative Evaluation with Traditional Decoders in Diverse BCI Tasks

作者在 7 个分类任务 + 2 个回归任务、6 种评测协议下对 5 个主流 EEG 基础模型做了带统计检验的系统对照,并提出一个只用掩码自编码(MAE)在 800 万段原始 EEG 上预训练的简单 ViT 基线 ST-EEGFormer,结论是:基础模型只在数据充足的群体级解码里有明显优势,在数据稀缺的个体级场景常常跑不赢紧凑的 CNN 甚至经典非神经网络解码器,线性探测普遍很弱,且看不到清晰的缩放律。

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole-Slide Imaging

本文首次识别出注意力 MIL 在全切片图像(WSI)训练中的"注意力动态不稳定"失败模式,提出 ASMIL:用 EMA 锚点模型蒸馏稳定注意力、用归一化 sigmoid 抑制注意力过度集中、用 token 随机丢弃缓解过拟合,三招合一在多个病理数据集上把 F1 提升最高 6.49%。

查看全部86篇「医学图像」论文 →


🩺 医疗 LLM (20)

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

提出 ATPO(自适应树策略优化)算法,将多轮医疗对话建模为层级马尔可夫决策过程(H-MDP),通过不确定性感知的自适应树扩展机制动态分配rollout预算,结合Bellman误差和动作值方差的复合不确定性度量来引导探索,在三个医学对话基准上以Qwen3-8B超越GPT-4o。

Can Large Language Models Match the Conclusions of Systematic Reviews?

作者构建了 MedEvidence 基准——把 100 篇 Cochrane 系统综述(SR)的结论改写成 284 道封闭式问答,并配上综述所依据的原始研究,让 LLM 在"看到和专家相同材料"的受控条件下复现专家结论;评测 25 个 LLM 后发现:推理不一定更好、模型越大边际收益越小、医学微调反而掉点,模型普遍缺乏对低质量证据的"科学怀疑",至少 37% 的题答不对专家结论。

Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?

研究稀疏自编码器(SAE)能否揭示和缓解 LLM 在医疗场景中的种族偏见:发现 SAE 能识别出与种族相关的有害联想(如黑人与暴力),但在复杂临床任务中缓解偏见的效果有限(FLDD < 3%),远不如简单的提示策略(FLDD 8-15%)。

Cancer-Myth: Evaluating Large Language Models on Patient Questions with False Presuppositions

本文构建了 Cancer-Myth——一个由肿瘤血液科医生核验、含 585 个"带错误前提"癌症患者问题的对抗数据集,发现包括 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 在内的所有前沿 LLM 纠正错误前提的成功率都不超过 43%,且加防范性提示等缓解手段会在"无错误前提"问题上引发大量误纠正、并拖累其他医疗基准,揭示了医疗 LLM 在患者沟通安全上的关键缺口。

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

作者联合 100 位持证心理咨询专业人士,构建了一个面向开放式心理健康问答的双组件基准 CounselBench:一组是 2000 条专家逐维度打分 + 跨度标注的评估集(CounselBench-Eval),一组是 120 道临床医生手写、专门用来诱发特定失败模式的对抗题(CounselBench-Adv),系统揭示了 LLM 在心理咨询场景下"高分但仍有安全隐患"的现状,并实证了 LLM-as-Judge 在该高风险领域不可靠。

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of LLMs in Mental Health QA

联合100名持证心理健康专家构建CounselBench双组件基准——CounselBench-EVAL(2,000条六维度专家评估)和CounselBench-Adv(120个对抗性问题+1,080条响应标注),系统性揭示LLM在心理健康开放式问答中表面得分高但存在过度泛化、擅自医疗建议等安全隐患,同时证明LLM-as-Judge在安全关键领域严重不可靠。

Critic-Adviser-Reviser Cyclic Refinement: Towards High-Quality EMR Corpus Generation with LLMs

针对 LLM 直接生成电子病历(EMR)"只会模仿、分布失真、缺少质量约束"的问题,本文提出 LLM-CARe——一个按"语料→章节→文档"三级粒度、每级由 Critic/Adviser/Reviser 三个智能体循环精炼的框架,在完全不接触任何真实 EMR 文本的前提下,把合成病历的质量和下游临床任务表现都显著推到 SOTA 之上。

Doctor-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning

Doctor-R1 把门诊问诊建模成部分可观测的多轮决策过程,用「多智能体交互环境 + 两级奖励架构 + 经验库」做经验式 agentic 强化学习,让一个 8B 的医生智能体既会战略性、有同理心地追问,又能做对诊断,在 HealthBench / MAQuE 上反超 32B 开源模型和 GPT-4.1 等闭源大模型。

From Conversation to Query Execution: Benchmarking User and Tool Interactions for EHR Database Agents

提出EHR-ChatQA基准,首次评估数据库Agent在电子病历场景中的端到端交互工作流(澄清模糊查询→解决术语不匹配→生成SQL→返回答案),发现最强模型(o4-mini)的Pass@5超90%但Pass∧5(全部成功)大幅下降(差距达60%),暴露了安全关键领域的鲁棒性缺陷。

From Medical Records to Diagnostic Dialogues: A Clinical-Grounded Approach and Dataset for Psychiatric Comorbidity

本文提出一条「社交媒体帖子 → 结构化电子病历 → 多智能体诊断对话」的两阶段流水线,把 SCID-5 临床访谈协议改写成分层诊断状态机(HDSM)+ 诊断上下文树(DCT),构建出首个大规模精神科共病诊断对话数据集 PsyCoTalk(3,000 段多轮对话),并经执业精神科医生验证其临床真实性。

查看全部20篇「医疗 LLM」论文 →


🧬 计算生物 (155)

3DCS: Datasets and Benchmark for Evaluating Conformational Sensitivity in Molecular Representations

作者构建了首个专测「同一分子不同构象」表示敏感性的基准 3DCS:用 >1M 分子、~10M 构象覆盖几何/手性/能量三个维度,配一套 Geometry–Chirality–Energy(GCE)评测框架,揭示现代 3D 分子表示模型几何很敏感、但手性时好时坏、能量几乎对不上。

A Cross-Species Neural Foundation Model for End-to-End Speech Decoding

本文提出 BIT,一个把皮层神经活动直接翻译成完整句子的端到端脑机接口:先用跨物种(人+猴)、跨任务的自监督掩码预训练得到一个 Transformer 神经编码器,再把它接到音频大模型上做对比对齐微调,把先前端到端方法的词错误率(WER)从 24.69% 压到 10.22%,同时在级联框架下刷新 Brain-to-Text '24/'25 榜单 SOTA。

A Diffusion Model to Shrink Proteins While Maintaining Their Function

提出 SCISOR——一个只学"删字母"的离散扩散模型:用纯生灭过程(随机插入)做前向加噪,训练去噪器反向规划删除,从而把长蛋白序列缩短成既"自然"又保功能的短序列,在 ProteinGym 删除效应预测上达到 SOTA。

A Foundation Model with Multi-Variate Parallel Attention to Generate Neuronal Activity

本文提出多变量并行注意力(MVPA),把注意力解耦为内容、时间、通道三路并行分量,从而无视通道数量与排布的差异,并以此构建首个开源、开权重、开数据的颅内脑电(iEEG)基础模型 MVPFormer,在癫痫检测与脑活动解码上达到专家级 SOTA。

A Genetic Algorithm for Navigating Synthesizable Molecular Spaces

提出 SynGA,一种直接在合成路线(合成树)上操作的遗传算法,通过自定义的交叉和变异算子将搜索严格约束在可合成分子空间内,结合 ML 驱动的构建块过滤实现 SOTA 的可合成类似物搜索和属性优化性能。

A Joint Diffusion Model with Pre-Trained Priors for RNA Sequence-Structure Co-Design

把预训练的生物大分子结构预测模型 RoseTTAFold2NA 直接当作扩散去噪器,套进一个「离散序列扩散 + SE(3) 等变结构扩散」的联合框架(RiboDiff),用极少的 RNA 三维数据就能同时生成 RNA 序列和全原子三维构象,在单链 RNA、RNA-蛋白复合物、蛋白条件结合三类任务上把自洽性指标拉到远超从零训练的扩散/流匹配基线。

A New Paradigm for Genome-wide DNA Methylation Prediction Without Methylation Input

MethylProphet 是一个"基因上下文 + DNA 序列"驱动的 Transformer 基础模型,完全不需要任何已测甲基化值作为输入,仅凭一个样本的基因表达谱和每个 CpG 位点周围的局部 DNA 序列,就能推断全基因组(约 2800 万个 CpG)的甲基化水平,并能泛化到训练时从未见过的 CpG 位点和样本。

A Resolution-Agnostic Geometric Transformer for Chromosome Modeling Using Inertial Frame

InertialGenome 用惯性系把初始染色体三维坐标先规范到稳定姿态,再用带 3D-RoPE 与 Nyström 结构编码的 Transformer 精修坐标,在两个单细胞 Hi-C 数据集、多个分辨率和生物功能验证上都优于传统优化方法与图神经网络基线。

A tale of two tails: Preferred and anti-preferred natural stimuli in visual cortex

本文发现灵长类视觉皮层 V4 神经元对自然图像的响应不是只有“偏好刺激”一端,而是同时存在能增强放电的偏好图像和能压低基线放电的反偏好图像,并通过电生理验证、编码模型、心理物理实验和 ImageBeagle 搜索工具证明反偏好刺激是理解 V4 调谐不可缺的一半。

Adaptive Data-Knowledge Alignment in Genetic Perturbation Prediction

ALIGNED 把"数据驱动的神经网络"和"专家整理的基因调控知识库"放进同一个溯因学习(Abductive Learning)框架里,用一个无梯度训练的适配器逐基因决定该信谁,再反过来用预测去精炼调控知识库,在多个大规模扰动数据集上拿到了最高的"平衡一致性",并且能重新发现有生物学意义的调控关系。

查看全部155篇「计算生物」论文 →


⚛️ 物理/科学计算 (69)

A Function-Centric Graph Neural Network Approach for Predicting Electron Densities

本文提出 Basis Overlap Architecture (BOA)——一种把网络内部特征解释为「基函数展开的空间函数」、并用原子基函数之间重叠积分来传递消息的等变 GNN,用基函数乘积的二次展开(即密度矩阵)表示电子密度,在 QM9 与 MD 密度数据集上刷新 SOTA,并能从 9 个重原子的小分子泛化到近 200 个原子的大分子。

Accelerating Eigenvalue Dataset Generation via Chebyshev Subspace Filter

针对"训练神经算子需要海量算子-特征值标注数据、而这些数据要靠昂贵的数值求解器逐个算出来"这一瓶颈,本文提出 SCSF(Sorting Chebyshev Subspace Filter):先用截断 FFT 把谱分布相近的算子排到相邻位置,再用 Chebyshev 滤波子空间迭代把"上一题"的特征对当作"下一题"的热启动,从而把整个数据集的特征值求解从"各算各的"变成"接力求解",相比主流求解器最高提速 3.5×。

Accelerating Inference for Multilayer Neural Networks with Quantum Computers

本文给出了首个全程相干(fully-coherent)的多层神经网络量子实现——把 ResNet 风格的多滤波 2D 卷积、非线性激活、跳连和层归一化全部搬到量子电路上,无需中途测量读出,并在三种量子数据访问假设下证明了从二次加速、四次加速直到对输入维度 \(N\)\(O(\mathrm{polylog}(N/\epsilon)^k)\) 的端到端推理复杂度。

Adaptive Mamba Neural Operators

AMO 把 Mamba/SSM 的传递函数显式参数化成 Takenaka-Malmquist(TM)系统在再生核 Hilbert 空间里的正交核,让整个网络等价于一次"自适应傅里叶分解"(AFD),从而在规则网格、点云、不规则域和带奇异性的金融 PDE 上都把相对 L2 误差平均压低约 28%。

Advancing Universal Deep Learning for Electronic-Structure Hamiltonian Prediction of Materials

NextHAM 用"第零步哈密顿量"作为带物理先验的输入描述子、配合 E(3)-等变 Transformer 与实空间+倒空间联合训练损失,把跨 60+ 元素的材料电子结构哈密顿量预测做到 DFT 级精度(整体 Gauge MAE 1.417 meV、SOC 块亚 µeV),并发布了含自旋轨道耦合的 17,000 结构基准 Materials-HAM-SOC。

AQER: A Scalable and Efficient Data Loader for Digital Quantum Computers

本文把五花八门的近似量子加载器(AQL)统一成一个"最小化目标态与电路输出态距离"的优化问题,并证明加载的近似误差由一种新提出的纠缠度量 \(S\) 线性主导;据此设计了 AQER——通过贪心地往电路里追加两比特门块逐步削减纠缠,再用解析单比特旋转和参数微调收尾,在 MNIST/CIFAR-10/SST-2 等经典数据和最多 50 比特的量子多体态上都以更少的两比特门取得更低的不保真度。

ARROW: An Adaptive Rollout and Routing Method for Global Weather Forecasting

ARROW 把全球天气预报里的“下一步预测模型”和“长时 autoregressive rollout 策略”一起重新设计:用一个多间隔预测模型统一处理 6/12/24 小时尺度,再用 DQN 调度器根据当前天气状态自适应选择下一跳,从而在中长期预报中同时降低误差累积并保留细粒度大气变化。

ATOM: A Pretrained Neural Operator for Multitask Molecular Dynamics

ATOM 把分子动力学预测重新表述为"学习轨迹算子",用一个准等变(quasi-equivariant)Transformer 神经算子并行解码多个未来时刻的原子坐标,配合自建的多分子 MD 数据集 TG80 做多任务预训练,从而首次在分子动力学上实现对未见分子、未见时间跨度的零样本泛化。

Beyond Structure: Invariant Crystal Property Prediction with Pseudo-Particle Ray Diffraction

PRDNet 在传统图神经网络之外,引入一个可学习的"伪粒子"去模拟晶体衍射,用神经网络生成的形状因子(form factor)合成倒易空间的衍射图样,把图表示(短程)与衍射表示(长程)做模态级融合,同时严格满足晶体学对称不变性,在 Materials Project、JARVIS-DFT、MatBench 三大基准上刷新 SOTA。

\(\partial^\infty\)-Grid: A Neural Differential Equation Solver with Differentiable Feature Grids

用无限可微的径向基函数(RBF)插值替换特征网格里常用的线性插值,让原本只为"拟合信号"设计的快速网格表示第一次能稳定地算出高阶导数,从而把求解 Poisson/Helmholtz/Kirchhoff-Love 等微分方程的训练时间从几小时压到几秒到几分钟(5–20× 加速),精度还与 Siren 相当。

查看全部69篇「物理/科学计算」论文 →


🌍 地球科学 (7)

GeoFAR: Geography-Informed Frequency-Aware Super-Resolution for Climate Data

GeoFAR 将气候超分辨率中的低频偏置拆成“频率表达不足”和“地理条件缺失”两个问题,用 DCT 频率卷积核提取细粒度频带表示,再用经纬度与高程构成的地理隐式表示逐像素调制这些表示,从而在 ERA5、PRISM、CERRA 等多尺度气候降尺度任务上显著降低高频误差和复杂地形区域的预测偏差。

OmniField: Conditioned Neural Fields for Robust Multimodal Spatiotemporal Learning

OmniField 把"科学观测数据"(气候、空气污染)建模成一个以可用模态为条件的连续神经场,用多模态串扰块(MCT)+ 迭代跨模态精修(ICMR)在解码前对齐异构信号,无需打网格或插值预处理就能统一做重建/插值/预测/跨模态预测,相对 8 个强基线平均降低 22.4% 误差,且在重度传感器噪声下几乎不掉点。

RainPro-8: An Efficient Deep Learning Model to Estimate Rainfall Probabilities Over 8 Hours

RainPro-8 用一个仅 36.7M 参数的 MaxViT-U-Net,把雷达、卫星、数值天气预报(NWP)多源数据融合起来,通过「有序一致损失 + 单次前向预测全时刻」一次性输出欧洲 8 小时、高分辨率的概率性降水预报,精度超过现有 NWP、外推法和深度学习临近预报,同时推理比 MetNet 类方法快 48 倍。

Task-Adaptive Parameter-Efficient Fine-Tuning for Weather Foundation Models

针对天气基础模型(WFM)微调,提出 WeatherPEFT:前向用 Task-Adaptive Dynamic Prompting(TADP)从编码器嵌入权重里抽出"变量×分辨率×时空"的任务特征生成软 prompt,反向用 Stochastic Fisher-Guided Adaptive Selection(SFAS)只更新 Fisher 信息最高的少量参数,在三个下游任务上用 ~0.3%–4% 的可训练参数追平甚至超过全量微调(Full-Tuning)。

The Seismic Wavefield Common Task Framework

这篇论文把 NLP/CV 里催生 ImageNet、AlphaZero 的"通用任务框架(Common Task Framework, CTF)"思路搬到地震学,提供三套多尺度地震波场数据集 + 一套 12 分制的隐藏测试集评测协议,并用它公平横评了 18 个主流科学机器学习模型——结果发现绝大多数复杂模型连"全预测 0"的朴素基线都打不过。

TianQuan-S2S:通过引入气候态构建次季节-季节全球天气预报模型

TianQuan-S2S 把"长期气候平均态"通过注意力融合塞进 patch embedding、并在 ViT 每一层注入可学习的高斯噪声,专治数据驱动模型在 15–45 天次季节预报上"越预测越糊"的模型坍缩问题,在 ERA5 上同时超过数值模式 ECMWF-S2S 和数据驱动的 FuXi-S2S。

揭示连续表示全波形反演的机制:一个基于波的神经正切核框架

本文把神经正切核(NTK)理论扩展到全波形反演(FWI),提出"基于波的 NTK"统一刻画传统 FWI 与连续表示 FWI(CR-FWI),用其特征值衰减速率解释了"为什么 INR 表示更鲁棒却高频收敛慢",并据此设计出 INR 与多分辨率网格混合的 IG-FWI,在鲁棒性与收敛速度之间取得更优权衡。


📡 信号/通信 (7)

Advancing Spatiotemporal Representations in Spiking Neural Networks via Parametric Invertible Transformation

针对脉冲神经网络(SNN)二值脉冲表示能力受限、替代梯度失配两大顽疾,本文提出参数化可逆变换 PIT——在神经元发放(firing)前后以共轭方式各做一次可逆线性变换,发放前把膜电位分布"重排"成易量化的形态、发放后把整数脉冲"增广"成跨时空的实值输出,同时配一个把输入推离量化决策边界的修正替代梯度,并用线性代数刻画了 SNN 时空表示容量;在 CIFAR、ImageNet、DVS 等数据集上多种架构均刷新 SOTA(如 SEW ResNet34 涨 5.62%)。

Efficient Message-Passing Transformer for Error Correcting Codes

EfficientMPT 把 Transformer 纠错码解码器里 \(O(n^2)\) 的标准注意力换成一套只靠"全局 query 向量 + 逐元素乘"的线性复杂度 EEC 注意力,在保持与 SOTA(CrossMPT)相当的纠错性能的同时,对长 LDPC 码把显存和 FLOPs 砍掉数十倍,并且参数量与码长无关、能当一个可微调的纠错"基础模型"。

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

提出 Directer(Dynamic Rejection Steering),通过在每个解码步动态调节 KV 缓存引导强度并引入合理性约束,显著提升 LLM 指令遵循能力,同时避免过度引导导致的文本质量下降。

Lossy Common Information in a Learnable Gray-Wyner Network

把信息论里的经典 Gray-Wyner 网络做成可学习的三通道编解码器,用一个带 β 超参的目标函数把两个视觉任务之间的"公共信息"和"私有信息"分离开,并在"发送速率"与"接收速率"之间做可调权衡。

Mamba-3: Improved Sequence Modeling using State Space Principles

从SSM视角提出三项核心改进:指数-梯形离散化、复值状态空间、多输入多输出(MIMO)公式化,在不增加解码延迟的前提下显著提升模型质量和状态追踪能力,推进性能-效率Pareto前沿。

Synchronizing Probabilities in Model-Driven Lossless Compression

针对 LLM 驱动的无损压缩中"编解码两端预测概率必须逐位完全一致、否则级联解码崩溃"的致命问题,本文提出 PMATIC——一种把比特概率量化到分箱、再用低熵 helper 比特让两端锁定同一量化概率的算术编码替代方案,能容忍有界的预测失配,理论上保证正确解码,实测在真实跨机非确定性下全部文件正确还原,同时压缩率仍大幅领先 gzip/cmix 等传统工具。

TS-DDAE: A Novel Temporal-Spectral Denoising Diffusion AutoEncoder for Wireless Signal Recognition Model Pre-training

针对无线信号识别(WSR)预训练,本文把扩散模型的"加噪-去噪"范式引入信号自监督,提出 TS-DDAE:在时域和频域同时给 IQ 信号注入高斯噪声,再用专门设计的双编码器 TS-Net(时域自注意力 + 频域通道注意力)联合还原,学到的表征在 4 个数据集、AMC/WTC 等多任务上平均超过最优基线 1.32%、超过 AMC SOTA 模型 IQFormer 约 8.75%。


👥 社会计算 (17)

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

提出将 Tsallis 熵(SE 的广义形式)引入 VLM 的 Test-Time Adaptation,并进一步发展为自适应去偏 Tsallis 熵(ADTE),为每个类别定制去偏参数 \(q^l\),在不引入分布特定超参数的情况下比 Shannon 熵选择更可靠的高置信视图,在 ImageNet 及其 5 个变体和 10 个跨域 benchmark 上均超越 SOTA。

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

本文构建了 BiasFreeBench 基准,首次在统一框架下系统比较 8 种主流去偏方法(4 种 prompting + 4 种 training),聚焦于 LLM 响应层面的偏差评估,并提出了 Bias-Free Score 指标,发现 prompting 方法(尤其是 CoT)整体优于 training 方法,而 DPO 在跨偏差类型泛化上表现突出。

From Five Dimensions to Many: Large Language Models as Precise and Interpretable Psychological Profilers

只给 LLM 一个人的 20 道大五人格题答案,让它角色扮演去预测这个人在另外 9 个心理量表上的作答,结果 LLM 重建出的"量表间相关结构"与真实人类数据高度对齐(\(R^2>0.88\)),并且通过分析推理链发现 LLM 走的是"先把原始分压缩成自然语言人格摘要、再据此推理"的两阶段抽象过程——它不是语义模式匹配,而是在做真正的心理推理。

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

提出GRADIEND——一个基于梯度的编码器-解码器架构,通过单个瓶颈神经元从模型梯度中学习可解释的单语义特征(以性别为例),不仅可以识别哪些权重编码了特定特征,还能通过解码器直接修改模型权重来消除偏见,与INLP结合在所有基线模型上达到SOTA去偏效果。

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

对9个SOTA语音对话系统开展首次语音图灵测试(2968次人类判断),发现所有系统均未通过(成功率7%-31%),瓶颈不在语义理解而在副语言特征、情感表达和对话人格,并构建了18维细粒度评估框架和可解释AI评审模型。

INTIMA: A Benchmark for Human-AI Companionship Behavior

INTIMA 把心理学的拟社会互动、依恋、拟人化三套理论,加上对真实 Reddit 用户帖子的质性编码,蒸馏成一个含 31 种行为、368 条情感化 prompt 的基准,再用 LLM 自动给模型回复打上「强化陪伴 / 维持边界 / 中性」三类标签,结果发现 Gemma-3、Phi-4、o4-mini、GPT5-mini、Claude-4 全都明显偏向强化陪伴,而且越是用户脆弱的场景、模型反而越少设边界。

Language and Experience: A Computational Model of Social Learning in Complex Tasks

作者把"从经验学"(theory-based RL,对可执行的程序化世界模型做贝叶斯推断)和"从别人的话学"(把预训练大模型当成"说话人模型",用它的似然把一句自然语言建议变成贝叶斯证据)统一进同一个推断框架,在 10 个视频游戏上证明:语言指导能让人和模型都学得更快、更少送命,并支持跨代知识累积与人机互教。

Measuring and Mitigating Rapport Bias of Large Language Models under Multi-Agent Social Interactions

本文提出 KAIROS 基准,把"历史 rapport(交往默契)× 当前同伴行为 × 模型自信度"三轴精确可控地塞进 quiz 式多智能体协作场景,系统刻画 LLM 在社会压力下的决策偏移,并发现只有带多智能体上下文、用结果奖励的 GRPO 才能在提升准确率的同时保住社会鲁棒性。

Mitigating Mismatch within Reference-based Preference Optimization

揭示 DPO 的"过早满足"问题——当 reference 策略对 chosen 的概率低于 rejected 时(~45% pairs),DPO 的梯度被 reference 的悲观信号不必要地衰减(即使策略仍然错误即 \(\Delta_\theta < 0\));提出 HyPO(一行代码修改:\(\max(0, \Delta_{ref})\) 裁剪 reference margin),在 AlpacaEval 2.0 上相对 DPO 提升 41.2%。

Propaganda AI: An Analysis of Semantic Divergence in Large Language Models

提出 RAVEN 审计框架,通过结合模型内语义熵和跨模型分歧来检测 LLM 中的概念条件语义分歧——一种类似宣传的行为模式,即高层概念线索(意识形态、公众人物)触发异常一致的立场响应。

查看全部17篇「社会计算」论文 →


🛡️ AI 安全 (139)

A Bayesian Nonparametric Framework for Private, Fair, and Balanced Tabular Data Synthesis

本文把条件式 VAE-GAN 生成器嵌入贝叶斯非参数学习(BNPL)框架,用 Dirichlet 过程做全局隐私、用 copula 基测度做逐列局部隐私、用 BNP 互信息正则做公平、用 KL 散度做类别平衡,首次在一个有理论保证的统一框架里同时处理隐私、公平、类别不平衡三个约束,并支持非二值敏感属性

A Fair Bayesian Inference through Matched Gibbs Posterior

针对"公平模型只给一个点估计、不会量化预测不确定性"的痛点,本文把群公平约束塞进贝叶斯框架,提出以匹配偏差(matched deviation)为惩罚项的 matched Gibbs 后验,把匹配函数 \(T\) 也当成可学习参数来回避对抗训练,从而用一个每步 \(O(n)\) 的 Gibbs 采样器同时拿到"满足人口学平价约束"和"校准良好"的后验分布。

A General Framework for Black-Box Attacks Under Cost Asymmetry

针对"不同查询代价不一样"(如向 NSFW 检测器提交违规图片会触发封号)的现实场景,本文提出一个能适配任意成本比 \(c^\star\) 的决策型黑盒攻击通用框架:用非对称搜索 AS 替换二分搜索、用非对称梯度估计 AGREST 替换标准蒙特卡洛梯度估计,在不丢弃原攻击核心组件的前提下把总查询成本压到最低,扰动范数最多再降 40%。

A Unified Total Variation Framework for Membrane Potential Perturbation Dynamic

本文证明了脉冲神经网络(SNN)中用于刻画对抗扰动的「膜电位扰动动态(MPPD)」本质上就是一个全变分(TV)算子,进而把现有的均方 MPPD 正则等价为 TV-ℓ2 框架,并提出更强的 TV-ℓ1 框架——借助 coarea 公式获得对尖锐对抗噪声更好的抑制能力,在高斯/对抗训练下都把 SNN 的鲁棒精度刷到新高。

Action-Free Offline-to-Online RL via Discretised State Policies

首次形式化"无动作离线到在线RL"设定,提出OSO-DecQN算法:通过将连续状态差分离散化为{-1, 0, 1}三类标记,在仅含(s, r, s')元组的数据上预训练状态策略(预测期望的下一状态变化方向而非动作),再通过策略切换机制+在线训练的逆动力学模型将状态策略转化为可执行动作,引导在线agent加速学习,在D4RL和DeepMind Control Suite上(含78维状态空间)一致提升收敛速度和渐近性能。

Adaptive Logit Adjustment for Debiasing Multimodal Language Models

ALA 是一种后处理去偏方法:在自回归生成的每一步,用外部图像/文本分类器测出"图像该有的属性"与"文本当前流露的偏见"之间的偏差,再沿梯度方向只对偏见相关词的 logit 做按比例微调,从而在不改动模型内部表征、不重训的前提下,把图文属性对齐或中和有害刻板印象,且几乎不掉模型实用性。

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

首次用随机微分方程(SDE)框架分析差分隐私优化器,揭示 DP-SGD 和 DP-SignSGD 在隐私噪声作用下的本质差异:自适应方法在高隐私设置下具有更优的隐私-效用权衡 \(\mathcal{O}(1/\varepsilon)\) vs \(\mathcal{O}(1/\varepsilon^2)\),且超参数跨隐私预算可迁移。

Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models

作者发现对抗样本在 CLIP 特征空间里经过多种图像变换后会沿一个"主方向"集体偏移(而干净样本是发散的),这个方向恰好指回正确类别中心,于是提出无需训练的测试时防御 DBD:估计"防御方向"并用基于 DB-score 的双流特征重构修复表征,在 15 个数据集上不仅刷新对抗鲁棒性 SOTA,还出现"对抗准确率反超干净准确率"的反直觉现象。

AP-OOD: Attention Pooling for Out-of-Distribution Detection

提出AP-OOD,将Mahalanobis距离的均值池化替换为可学习的注意力池化,解决了均值池化丢失token级异常信息的问题,在文本OOD检测中将XSUM摘要的FPR95从27.84%降至4.67%,支持无监督到半监督的平滑过渡。

ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks

提出 ATEX-CF 框架,首次将对抗攻击的边添加策略与反事实解释的边删除策略统一起来,通过联合优化预测翻转、稀疏性和合理性,为 GNN 生成更忠实、更简洁、更合理的实例级反事实解释。

查看全部139篇「AI 安全」论文 →


📂 其他 (115)

A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks

把生物神经元里"随活动变化的膜电导"重新引入 LIF 模型,构造出一个会自适应门控信息流的脉冲神经元 DGN,理论上证明它对噪声有更强的抑制能力,实验上在语音/神经形态时序任务上又准又抗噪。

A Federated Generalized Expectation-Maximization Algorithm for Mixture Models with an Unknown Number of Components

提出 FedGEM 算法,通过客户端本地 EM 步后构建不确定性集、服务器利用不确定性集交集检测聚类重叠并推断全局聚类数,首次实现在全局聚类数未知情况下的联邦聚类,并提供了概率收敛保证。

A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization

为线性多元 Hawkes 过程在 RKHS 框架下的触发核估计建立了新型表示定理,证明最优估计器可用等价核在数据点上的线性组合表示且对偶系数全部解析地等于 1,无需求解对偶优化问题,从而实现高效可扩展的非参数估计。

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

将 CopulaGNN 从节点级扩展到边级,通过将相关矩阵构造为边嵌入的 Gramian 矩阵并利用 Woodbury 恒等式重构条件概率分布,实现了在签名图上对边间统计依赖的可扩展建模,用于链接符号预测任务。

A Single Architecture for Representing Invariance Under Any Space Group

设计了一种可自适应任意空间群不变性的单一架构 (Crystal Fourier Transformer),通过解析推导群操作对傅里叶系数的约束来构造对称适配的傅里叶基,用约束的对偶图表示实现了跨 230 个空间群的参数共享和零样本泛化。

A Study on PAVE Specification for Learnware

针对"学件 = 模型 + 规约"范式中如何在不接触训练数据的前提下从海量模型里挑出对用户任务有用的模型,本文系统研究了参数向量规约(PAVE)——用微调引起的参数变化同时编码模型能力与任务需求,证明它与经典 RKME 规约在 NTK 视角下同源,并用 LoRA 式低秩近似把存储/计算压到原模型参数的 1% 以下,识别出的学件在小样本场景甚至能超过用户自己微调的预训练模型。

Accelerated Parallel Tempering via Neural Transports

把并行回火(Parallel Tempering, PT)里那个"直接对换两条链当前状态"的死板交换动作,换成"先用神经传输(归一化流 / 受控扩散 / 扩散模型)把两个状态各自往中间推几步、再做 Metropolis 接受判定",从而在相邻退火分布几乎不重叠时也能高概率交换,在保持 MCMC 渐近无偏的前提下大幅提升参考分布到目标分布的往返次数(round trip),并顺带得到低方差的自由能估计。

Active Learning for Decision Trees with Provable Guarantees

为决策树主动学习提供首个理论保证:(1) 首次分析决策树的不一致系数(disagreement coefficient)并给出 \(O(\ln^{OPT}(n))\) 上界;(2) 提出首个达到乘法误差 \((1+\epsilon)\) 保证的二分类主动学习算法;结合两者实现数据集大小的多对数标签复杂度。

Adaptive Canonicalization with Application to Invariant Anisotropic Geometric Networks

这篇论文提出自适应规范化(adaptive canonicalization):不再只由输入决定标准姿态,而是让输入和当前任务网络共同选择最有信心的变换,从而在保持对称性不变性的同时缓解传统规范化的不连续问题,并在谱图网络、分子/蛋白图分类和旋转点云分类上取得优于等变架构、数据增强和固定规范化的结果。

Adaptive Conformal Guidance for Learning under Uncertainty

把分割共形预测(split CP)直接嵌进训练循环,用"预测集大小"量化引导信号(teacher 软标签 / 伪标签 / 专家策略)的不确定性,再据此自适应调低不可靠引导的权重——一套框架同时覆盖监督、半监督、模仿引导 RL 三类带引导的学习场景。

查看全部115篇「其他」论文 →