🤖 AAAI2026 论文汇总¶
1380篇AAAI2026论文解读,涵盖 3D 视觉(79篇)、图像生成(79篇)、医学图像(75篇)、多模态 VLM(74篇)、模型压缩(60篇)、强化学习(58篇)、自动驾驶(56篇)、AI 安全(45篇)等 52个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。
💡 LLM Reasoning (37)¶
- A Reasoning Paradigm for Named Entity Recognition
-
提出 ReasoningNER,将命名实体识别从"隐式模式匹配"转变为"显式推理"范式,通过三阶段流程(CoT数据构建→CoT微调→GRPO强化增强)让模型先推理再抽取实体,在零样本设定下F1超GPT-4达12.3个百分点,8B模型在CrossNER上达72.4平均F1。
- ActiShade: Activating Overshadowed Knowledge to Guide Multi-Hop Reasoning in Large Language Models
-
提出ActiShade框架,通过高斯噪声扰动检测LLM在多跳推理中被"遮蔽"的关键短语,结合定制对比学习检索器获取补充文档,迭代重构查询以减少知识遮蔽导致的错误累积,在HotpotQA/2WikiMQA/MuSiQue上显著超越DRAGIN等SOTA。
- Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models
-
系统分析大推理模型(LRM)面对不可回答数学题时的弃权失败现象,发现LRM内部有足够认知能力识别问题不可解(探针分类准确率>80%)但外部行为仍偏向强答,提出认知监控+推理时干预的两阶段方法,将弃权率从16-54%提升至60-92%且不损害可回答题的推理性能。
- ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction
-
提出潜在推理链提取 (ARCHE) 任务,要求 LLM 将科学论文中的论证分解为基于 Peirce 三种推理范式的推理逻辑树 (RLT),并通过 Entity Coverage 和 Reasoning Edge Accuracy 两个指标揭示了 10 个主流 LLM 在内容完整性与逻辑正确性之间的本质权衡。
- Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning
-
提出以Planner为核心的Plan-Execute框架,将复杂查询转化为DAG执行计划,通过SFT+GRPO两阶段训练专门的Planner模型,在ComplexTool-Plan和StableToolBench上超越ReAct等反应式方法,用更少推理步骤实现更高成功率。
- BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards
-
提出 BLM-Guard,一个面向短视频商业广告的可解释多模态审核框架:先通过 Rule-driven ICoT 数据合成 + SFT 冷启动建立结构化推理能力,再用 Self-Adaptive GRPO 强化学习(结合规则正确性奖励 + 自适应一致性奖励 SCA-R)优化策略对齐,在真实广告 benchmark 上达到 91.4% 严格准确率和 0.845 推理一致性分数。
- Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models
-
提出 ASE(Adversarial Scenario Extrapolation),一种推理时 CoT 防御框架,让 LLM 在回答前自主模拟对抗场景并制定防御策略,在四类安全威胁(越狱、毒性、幻觉、偏见)上实现近零攻击成功率,同时将直接拒绝率降至≤4%,兼顾鲁棒性和用户体验。
- CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation
-
提出 CMMCoT 框架,通过构建交错的多模态多步推理链(含视觉区域 token 监督)和测试时检索式记忆增强模块(RIFREM),在不增加参数的前提下提升多图场景下的慢思考推理能力,基于 Qwen2.5-VL-7B 在多图基准上平均提升 1.4 分。
- Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning
-
本文发现 LLM 在 CoT 推理过程中,中间层的注意力头激活值隐式编码了推理步骤的真实性信息(最高 85% 探测准确率),据此训练置信度预测器引导 Beam Search 动态选择高置信度推理路径,在数学/符号/常识推理任务上超越 Self-Consistency 和 PRM Guided Search。
- Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment
-
系统研究 32 个开源 LLM 在道德困境(电车问题)中的决策不确定性,发现不确定性主要受模型架构而非道德维度驱动;在推理时引入 attention dropout 增加随机性后,模型的互信息显著上升,human-LLM 道德对齐度也随之改善——表明降低 LLM 在道德场景中的过度自信可以改善与人类偏好的一致性。
🦾 LLM Agent (33)¶
- A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators
-
提出 A2Flow 框架,通过三阶段流水线(案例生成→功能聚类→深度提取)从专家数据中全自动提取可复用的抽象执行算子,替代人工预定义算子,并引入算子记忆机制累积中间输出辅助节点决策,在 8 个基准上整体超越 AFLOW 等 SOTA,资源消耗降低 37%。
- Agent-SAMA: State-Aware Mobile Assistant
-
提出Agent-SAMA,首次将有限状态机(FSM)引入移动端GUI Agent,将UI屏幕建模为状态、用户操作建模为转移,通过四个专门化Agent协作实现状态感知的任务规划、执行验证和错误恢复,在跨App基准上成功率提升最高12%、恢复率提升13.8%。
- AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search
-
提出AgentSwift框架,通过层次化搜索空间(同时优化agentic workflow和功能组件)、轻量级value model预测agent性能、以及不确定性引导的MCTS搜索策略,自动发现高性能LLM agent设计,在7个基准上平均提升8.34%。
- AMS-IO-Bench and AMS-IO-Agent: Benchmarking and Structured Reasoning for Analog and Mixed-Signal Integrated Circuit Input/Output Design
-
提出AMS-IO-Agent,一个基于LLM的领域专用智能体,通过结构化意图图(Intent Graph)和领域知识库将自然语言设计意图转化为可生产的模拟混合信号IC I/O环设计,配套提出首个AMS I/O环自动化基准AMS-IO-Bench,在28nm CMOS流片中验证了智能体生成的I/O环可直接用于实际芯片制造。
- AutoGLM: Autonomous Foundation Agents for GUIs
-
AutoGLM 基于 ChatGLM 构建了面向 Web 浏览器和 Android 手机的 GUI 基础智能体,通过中间接口设计分离规划与定位行为,并提出自进化在线课程强化学习框架,在 VAB-WebArena-Lite 上达到 55.2% 成功率,大幅超越 GPT-4o 的 18.2%。
- Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operations
-
提出AutoDW框架,通过逐步规划(每次生成一个API调用)+自适应回滚(参数级+API级两层回滚)实现复杂文档工作流自动化,在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率,分别超越最强基线40%和76%。
- AutoTool: Efficient Tool Selection for Large Language Model Agents
-
提出 AutoTool,一种基于图的工具选择框架,利用工具使用惯性(tool usage inertia)构建工具惯性图(TIG),通过统计结构绕过重复的 LLM 推理来选择工具和填充参数,在保持任务完成率的同时减少最多 30% 的推理开销。
- BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling
-
提出 vPGM 框架,通过自然语言引导 LLM Agent 模拟概率图模型(PGM)的贝叶斯推理过程,发现隐变量并推断后验分布,再用 Dirichlet 先验做数值贝叶斯校准(BayesVPGM),在多个推理任务上同时提升准确率和置信度校准。
- CausalTrace: A Neurosymbolic Causal Analysis Agent for Smart Manufacturing
-
提出 CausalTrace——一个集成于工业 CoPilot(SmartPilot)中的神经符号因果分析智能体,融合数据驱动因果发现与工业本体/知识图谱,实现了实时的根因分析、反事实推理和可解释决策支持。
- Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents
-
提出Co-EPG框架,将GUI Agent解耦为Planning和Grounding两个模型,通过GRPO协同训练和基于置信度的动态奖励集成机制(C-DREM)建立正反馈循环,使两个模型自迭代协同进化,仅用基准数据集(无需外部数据)即在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)上达到SOTA。
👥 Multi-Agent (26)¶
- A Graph-Theoretical Perspective on Law Design for Multiagent Systems
-
从图论角度研究多智能体系统中的法律设计问题,将 useful law 和 gap-free law 的最小化设计分别归约为超图的顶点覆盖问题,证明了 NP-hardness 并给出近似算法。
- KDR-Agent: A Multi-Agent LLM Framework for Multi-Domain Low-Resource In-Context NER via Knowledge Retrieval
-
提出 KDR-Agent 多 Agent 框架,通过中央规划器协调知识检索、上下文消歧和反思纠错三个专用 Agent,结合自然语言类型定义和实体级正负对比示例,无需微调即可在 5 个领域 10 个低资源 NER 数据集上全面超越 zero-shot 和 few-shot 基线(GPT-4o 上 BC5CDR F1=82.47,WNUT-17 F1=80.78)。
- Adaptive Theory of Mind for LLM-based Multi-Agent Coordination
-
提出自适应心智理论智能体(A-ToM),将ToM阶数对齐建模为在线专家建议问题,通过FTL或Hedge算法实时估计伙伴的ToM阶数并动态调整自身推理深度,在重复矩阵博弈、网格导航和Overcooked等4类任务上实现鲁棒的零样本多智能体协作。
- AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation
-
提出AgentODRL,一个基于Orchestrator-Workers架构的LLM多智能体系统,通过任务分解、语法验证循环和LoRA驱动的语义反思机制,将自然语言数据权限规则高质量地转换为ODRL格式。
- ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment
-
提出ARCANE框架,将对齐建模为多智能体协作问题——manager agent通过与stakeholder对话学习生成自然语言rubric(加权可验证准则集),作为worker agent的可解释代理奖励函数,通过SFT+GSPO两阶段训练实现测试时可配置的对齐,在GDPVal基准上GSPO版本的mean return从0.58提升至0.74(N=8)。
- Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation
-
提出 ARG-Designer,将多 Agent 系统的拓扑设计重新定义为条件自回归图生成任务,从零开始逐步生成 Agent 节点和通信边(而非从模板图剪枝),在6个基准上达到 SOTA(平均 92.78%),同时 Token 消耗比 G-Designer 降低约 50%,且支持无需重训练的角色扩展。
- BAMAS: Structuring Budget-Aware Multi-Agent Systems
-
提出 BAMAS 框架,通过整数线性规划(ILP)在预算约束下选择最优 LLM 组合,再用强化学习策略选择最佳协作拓扑(线性/星型/反馈/规划驱动),在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率,同时成本降低最高 86%。
- Beyond Detection: Exploring Evidence-based Multi-Agent Debate for Misinformation Intervention and Persuasion
-
本文提出ED2D框架,在多智能体辩论(MAD)系统中引入证据检索模块来增强虚假信息检测准确率,并通过受控人类实验首次对比了AI生成的辩论稿与专家人工fact-check在说服力和信念纠正方面的效果,揭示了AI辩论系统在正确时具有专家级说服力、但在错误时可能加剧误导的双刃剑效应。
- COACH: Collaborative Agents for Contextual Highlighting -- A Multi-Agent Framework for Sports Video Analysis
-
提出 COACH 框架——一个基于共享骨干模型的可重配置多智能体系统,通过意图驱动的策略编排和结构化 CoT 微调实现角色专业化,在羽毛球视频分析的 QA 和摘要两个任务上显著超越 Gemini 2.5 Pro 等通才模型。
- Conversational Learning Diagnosis via Reasoning Multi-Turn Interactive Learning
-
提出 ParLD(Preview-Analyze-Reason 框架),通过多 Agent 协作实现对话式学习过程中学生认知状态的细粒度逐轮诊断,在性能预测上超越传统知识追踪方法 10%,并显著提升辅导效果。
⚖️ 对齐 / RLHF (17)¶
- Align to Structure: Aligning Large Language Models with Structural Information
-
提出 Structural Alignment 方法,通过将语言学篇章结构框架(表层文本结构评分 + 基于RST的篇章motif分类器)融入PPO强化学习训练,并设计基于篇章motif的密集奖励机制,使LLM生成更连贯、更具人类写作风格的长文本,在论文写作和长文档摘要任务上均优于标准RLHF模型。
- AlignTree: Efficient Defense Against LLM Jailbreak Attacks
-
AlignTree 利用 LLM 内部激活特征(线性 refusal direction + 非线性 SVM 信号)训练轻量级随机森林分类器,在几乎不增加计算开销的情况下高效检测越狱攻击,实现了 SOTA 的攻击成功率(ASR)降低效果。
- AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
-
提出AMaPO算法,通过实例级自适应margin(结合Z-normalization和指数缩放)动态调节梯度幅度,解决DPO等离线偏好优化方法中对已正确排序样本过拟合、对错误排序样本欠拟合的核心矛盾,显著提升排序准确率和下游对齐性能。
- BiasJailbreak: Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models
-
揭示LLM安全对齐中引入的伦理偏见可被反向利用作为越狱攻击向量——边缘化群体关键词的越狱成功率比优势群体高出20%,并提出基于提示词的轻量防御方法BiasDefense。
- DeCoRL: Decoupling Reasoning Chains via Parallel Sub-Step Generation and Cascaded Reinforcement for Interpretable and Scalable RLHF
-
DeCoRL 将 CoT 推理从单体顺序处理转变为"交响乐团式"的模块化并行协作——9 个专用子模型(解析/语义/实体/事实核查/风格/质量/计算/验证/整合)并行生成推理子步骤,通过双重奖励归因(本地质量+贡献度)+ 级联 DRPO 优化协调,在 RM-Bench 上达到 80.8%(超越所有基线),同时实现 3.8 倍推理加速和 22.7% 的可解释性提升。
- Differentiated Directional Intervention: A Framework for Evading LLM Safety Alignment
-
将 LLM 安全对齐的内部表征从传统的"单一拒绝方向"解构为功能独立的"危害检测方向"和"拒绝执行方向",在此基础上提出 DBDI 框架,分别用自适应投影消除和直接引导两种策略精准干预两个方向,在 Llama-2 上实现 97.88% 的越狱成功率。
- EASE: Practical and Efficient Safety Alignment for Small Language Models
-
提出 EASE——面向边缘部署小语言模型(SLM)的安全对齐框架,通过两阶段设计解决"浅层拒绝不够安全 vs 深度推理太贵"的矛盾:第一阶段从大型推理模型蒸馏安全推理能力到 SLM,第二阶段用选择性推理激活(仅对脆弱语义区域的对抗查询启用推理,良性查询直接响应),越狱攻击成功率降低 17%(vs 浅层对齐)同时推理开销降低 90%(vs 全推理)。
- Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal States
-
提出EAGLE方法,通过聚合LLM多个中间层隐藏状态的logits并计算置信度分布的期望值来估计不确定性,无需训练额外参数,在多个数据集和模型上ECE从12.6%降至3.2%,AUROC从59.0%提升至61.6%。
- Exploring the Effects of Alignment on Numerical Bias in Large Language Models
-
系统揭示了LLM对齐过程(指令调优+偏好调优)是LLM评估器产生数值偏差的根本原因,并验证分数范围调整是最有效的缓解策略。
- GRAM-R²: Self-Training Generative Foundation Reward Models for Reward Reasoning
-
本文提出 GRAM-R²,一个通过自训练方式在无标签数据上引发奖励推理能力的生成式基础奖励模型,能够同时产生偏好标签和推理理由,在响应排序、任务适配和 RLHF 等多个下游任务中一致超越判别式和生成式基线。
🔒 LLM 安全 (41)¶
- AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments
-
利用LLM驱动的具身智能体在模拟智能家居中"生活",生成虚拟环境传感器数据用于预训练HAR模型,在低资源场景下显著提升活动识别性能。
- ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs
-
提出ALTER框架,利用非对称LoRA架构结合Token级别的Tsallis熵引导,实现LLM中目标知识的精准遗忘,同时通过参数隔离机制保留模型基础能力,在TOFU、WMDP和MUSE三个基准上达到SOTA。
- An LLM-Based Simulation Framework for Embodied Conversational Agents in Psychological Counseling
-
提出 ECAs 框架,基于认知行为治疗(CBT)等心理学理论,利用 LLM 将真实咨询案例扩展为具身认知记忆空间,模拟心理咨询中来访者的完整认知过程,生成高保真度的咨询对话数据,在专家评估和自动评估中均显著优于基线。
- Anti-adversarial Learning: Desensitizing Prompts for Large Language Models
-
提出 PromptObfus,通过"反对抗学习"思路将用户 prompt 中的敏感词替换为语义不同但不影响任务输出的词,从而在不降低远端 LLM 任务表现的前提下彻底消除显式隐私泄露,并将隐式隐私推理攻击成功率降低 62.70%。
- Attention Retention for Continual Learning with Vision Transformers
-
提出ARCL-ViT框架,通过注意力掩码生成和梯度掩码两步策略防止ViT在持续学习中的注意力漂移,在ImageNet-R和CIFAR-100上取得SOTA结果,证明保持注意力模式是解决灾难性遗忘的关键。
- AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
-
提出AUVIC框架,通过对抗性扰动生成器 + 动态锚点保留机制,在MLLM中精确遗忘目标视觉概念(如特定人脸),同时避免对语义相似概念的附带遗忘,并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。
- BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
-
提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击,通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒,触发后模型生成膨胀 17× 以上的推理链(MATH-500),同时保持最终答案正确和良好隐蔽性。
- Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
-
提出 KUnBR 框架,通过梯度引导的知识密度估计定位有害知识富集层,并采用块重插入策略绕过 cover layer 的梯度遮蔽效应,实现对 LLM 有害知识的深度遗忘而非表面抑制。
- Can Editing LLMs Inject Harm?
-
本文将知识编辑技术重新定义为一种新型 LLM 安全威胁(Editing Attack),系统性地研究了通过 ROME、FT、ICE 三种编辑方法向 LLM 注入虚假信息和偏见的可行性,发现其效果显著且极具隐蔽性。
- Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models
-
提出 MIP-Editor,通过跨层梯度积分(文本)和 Fisher 积分(视觉)定位多模态大语言模型中编码待遗忘知识的影响力神经元路径,再用基于路径的表示误导(RMisU)编辑这些神经元,在 MLLMU-Bench 上实现最高 87.75% 的遗忘率和 54.26% 的通用知识保留提升。
👻 幻觉检测 (15)¶
- Beyond Hallucinations: A Composite Score for Measuring Reliability in Open-Source Large Language Models
-
提出 Composite Reliability Score (CRS),将校准度、鲁棒性和不确定性量化三个维度统一为单一可解释指标,对 10 个开源 LLM 在 5 个 QA 数据集上进行系统评估,发现 Mistral-8x22B 综合可靠性最高(CRS=0.81),而模型大小并不直接决定可靠性。
- Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation
-
首次系统性解决无配对日→夜图像翻译中的"目标类幻觉"问题,通过双头判别器(风格头+SAM2伪标签分割头)检测幻觉 + 类原型对比学习抑制幻觉,在BDD100K日夜域适应检测上将mAP从15.08提升到17.40(+15.5%),交通灯AP提升31.7%。
- Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
-
提出 Owl 框架,通过结构因果模型将视觉/文本注意力建模为中介变量,引入 VTACR 指标量化跨模态注意力失衡,设计 VTACR 引导的自适应注意力调制 + 双路径对比解码策略,在 POPE 和 CHAIR 上实现 SOTA 的幻觉抑制效果。
- Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs
-
系统研究三种幻觉缓解方法(CoVe、DoLa、RAG)对LLM创造力的影响,发现它们对发散性创造力有截然相反的效果——CoVe增强、DoLa抑制、RAG无影响——而收敛性创造力基本不受影响,这一规律跨模型家族和参数规模一致成立。
- ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation
-
构建 ESG-Bench——270 个人工标注 QA 对来自 94 份真实 ESG 报告(2020-2024),提出三阶段幻觉缓解:SFT(有基础答案+「不提供」弃权标签)→ CoT Prompting(2/4步提示模板)→ CoT 微调(人工推理链),其中 4 步 CoT 微调的 Llama-3 达到 92.52% 有答案准确率 + 99.37% 无答案准确率(平衡 96%),且迁移到 HaluEval/BioASQ 也有提升。
- Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization
-
针对多模态大模型(MLLM)在强化学习训练中产生幻觉的三大根因——视觉误解、探索多样性不足、样本冲突——分别提出 Caption Reward、奖励方差引导的样本选择、以及基于 NTK 相似度的 InfoNCE 正则化,在多个基准上显著降低幻觉率。
- Hallucinate Less by Thinking More: Aspect-Based Causal Abstention for Large Language Models
-
提出 ABCA(Aspect-Based Causal Abstention),一个生成前弃权框架:通过双 Agent 辩论发现"方面变量"(如学科、法律语境、时间框架)来激活 LLM 不同的知识分支,用 AIPW 双鲁棒估计器计算因果效应,基于质心角偏差(CAD)检测知识冲突(Type-1)或知识不足(Type-2),在 TruthfulQA 上达到 91.4% 准确率,不可回答问题识别率 96.4%(远超基线的 44%)。
- Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models
-
从计算复杂度理论出发证明 Transformer LLM 每步推理复杂度为 \(O(N^2 \cdot d)\),基于时间层次定理(Hartmanis-Stearns),任何需要超过此复杂度的计算任务——如 \(O(n^3)\) 矩阵乘法、\(O(n^k)\) token 组合、TSP 验证等——LLM 必然无法正确完成(即产生幻觉),且 LLM Agent 也无法验证此类任务的正确性。
- InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration
-
提出 InEx 框架,通过内部自省推理(TVER 驱动的不确定性感知视觉增强)和外部跨模态多智能体协作(文本自反思 + 图像编辑验证 + 视觉自反思)迭代验证和修正 MLLM 输出,在 POPE 上提升 8.9%,在多个幻觉和通用 benchmark 上持续超越 OPERA/VCD/ICD。
- Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation
-
提出两阶段框架——自适应层注意力(ALA)融合Whisper编码器多层表示以增强噪声鲁棒性,多目标知识蒸馏(MOKD)将clean teacher的语义和注意力分布对齐到noisy student——在多语言噪声ASR基准上显著降低幻觉率和WER。
📊 LLM 评测 (16)¶
- BCWildfire: A Long-term Multi-factor Dataset and Deep Learning Benchmark for Boreal Wildfire Risk Prediction
-
本文构建了一个覆盖加拿大BC省2.4亿公顷、跨度25年的多模态野火风险预测数据集BCWildfire,包含38个驱动因子,并对CNN/Linear/Transformer/Mamba四大范式的时序预测模型进行了系统评测,揭示了当前模型在野火预测中的性能上限和关键影响因子。
- Benchmarking LLMs for Political Science: A United Nations Perspective
-
提出 UNBench,首个基于联合国安理会 1994-2024 年记录的综合性政治科学 LLM 评测基准,涵盖决议起草、投票模拟、通过预测和代表发言生成四个关联任务,评估 LLM 对复杂政治动态的理解和模拟能力。
- Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents
-
借鉴心理学的认知负荷理论(CLT),将工具使用任务的复杂度分解为内在负荷(任务解题路径的结构复杂度)和外在负荷(问题表述的歧义性),构建可参数化调节认知负荷的 ToolLoad-Bench 基准,用指数衰减模型 \(\text{Acc} \approx e^{-(k \cdot CL + b)}\) 精确刻画不同 Agent 的能力边界。
- ConInstruct: Evaluating Large Language Models on Conflict Detection and Resolution in Instructions
-
提出 ConInstruct 基准,评估 LLM 在指令包含冲突约束时的检测和解决能力,发现多数专有模型能较好检测冲突但很少主动告知用户,其中 DeepSeek-R1 和 Claude-4.5-Sonnet 在冲突检测上表现最佳(F1 分别达 91.5% 和 87.3%)。
- DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning
-
提出 DiCaP(Distribution-Calibrated Pseudo-labeling),通过估计伪标签的后验正确率来校准权重、引入双阈值机制分离置信区间和模糊区间并采用不同策略,在半监督多标签学习中以最高 4.27% 的幅度超越 SOTA。
- Do LLMs Really Struggle at NL-FOL Translation? Revealing Their Strengths via a Novel Benchmarking Strategy
-
本文批判性审视了现有NL到一阶逻辑(FOL)翻译的评估方法(FOLIO和MALLS),揭示其数据集与评估协议的根本缺陷,提出了一种将翻译任务分解为本体提取(OE)和逻辑翻译(LT)、并辅以"最相似选择"和"排序"子任务的新型基准测试策略,实验表明对话式LLM(o3-mini、GPT-4o-mini、Qwen3系列)展现出强大的NL-FOL翻译能力与真正的逻辑语义理解,而嵌入式模型表现显著较差。
- Gaming the Answer Matcher: Examining the Impact of Text Manipulation on Automated Judgment
-
本文系统性地测试了三种文本操控策略(冗长、策略性多答案嵌入、正确答案前置+矛盾)对 LLM 答案匹配评判器的影响,发现这些操控不会提升分数甚至降低分数,且二值评分比连续评分更鲁棒,证明答案匹配是一种对低成本文本操控具有鲁棒性的评估方法。
- LLM-as-a-Judge for Scalable Test Coverage Evaluation
-
将LLM-as-Judge范式应用于Gherkin验收测试覆盖率评估,在20种模型配置x500次评估中系统量化准确性-可靠性-成本三维权衡,发现GPT-4o Mini以6.07 MAAE、96.6% ECR@1和$1.01/1K评估成为最优生产选择,成本仅为GPT-5高推理版的1/78。
- Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory
-
提出 PSN-IRT(Pseudo-Siamese Network for IRT),用增强版项目反应理论同时估计 LLM 能力参数和题目的四参数特征(难度/区分度/猜测率/可行性),在 11 个基准 41,871 题上发现当前基准存在广泛饱和、难度天花板不足、数据污染等系统性问题,PSN-IRT 选出的题目子集排名一致性达 Kendall τ=1.00。
- Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning
-
提出 LOREN,一种曲率感知的零阶优化方法,通过低秩块对角预条件器捕获损失景观的各向异性曲率,并结合 REINFORCE Leave-One-Out 方差缩减技术,在 LLM 微调中实现了更高精度和更快收敛,同时相比 MeZO-Adam 节省高达 27.3% 的峰值内存。
⚡ LLM 效率 (9)¶
- Connectivity-Guided Sparsification of 2-FWL GNNs Preserving Full Expressivity
-
Co-Sparsify 提出一种基于连通性感知的稀疏化框架,通过将 3-节点交互限制在双连通分量内、2-节点交互限制在连通分量内,消除可证明冗余的计算,在保持完整 2-FWL 表达力的同时显著提升效率,在合成子结构计数任务和 ZINC、QM9 等基准上取得 SOTA。
- Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models
-
首次系统研究长上下文语言模型中参数知识(parametric knowledge)对生成的影响,发现其影响随上下文长度增长而增强,且现有方法提升外部检索能力会抑制参数召回能力,据此提出Hybrid Needle-in-a-Haystack测试来同时评估两种能力。
- HN-MVTS: HyperNetwork-based Multivariate Time Series Forecasting
-
提出 HN-MVTS,利用超网络(HyperNetwork)为每个通道生成特定的最后一层权重,在通道独立(CI)和通道依赖(CD)之间取得平衡,作为即插即用模块可提升 DLinear、PatchTST、TSMixer 等多种主干模型的预测精度,且不增加推理时间。
- How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts
-
提出MASS框架,通过基于梯度的语义漂移检测自适应扩展MoE专家池,并结合Top-p置信度路由策略,在无需超参搜索的情况下自动发现最优专家数量,同时增强专家间的语义分化。
- InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE
-
提出 InterMoE,通过 Dynamic Temporal-Selective MoE 架构解决文本驱动的双人 3D 交互运动生成中的个体特征保持和语义忠实度问题:Synergistic Router 融合语义和运动学特征引导路由,Dynamic Temporal Selection 让专家动态选择关键时间帧,在 InterHuman 上 FID 降低 9%、InterX 上降低 22%。
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction
-
提出Judge Q,在模型词表中引入可训练的soft token,训练其注意力模式对齐实际解码token的注意力模式,使其在prefill阶段能替代局部窗口查询来评估KV cache重要性,从而更好地保留全局信息,在LongBench上提升~1分,RULER上提升3+分。
- MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm
-
本文提出 MoETTA,一种将 LayerNorm 重参数化为多个结构解耦专家分支的测试时自适应框架,通过路由机制为不同域的样本选择不同的适应方向,解决了混合分布偏移下单一适应路径的局限性,并提出 potpourri/potpourri+ 两个更真实的评估基准,在所有设定下取得 SOTA。
- Resource Efficient Sleep Staging via Multi-Level Masking and Prompt Learning
-
提出 MASS (Mask-Aware Sleep Staging) 框架,通过多层级 masking 策略和层次化 prompt learning 机制,仅用 10% 的原始 EEG 信号即可实现可靠的睡眠分期,为资源受限的可穿戴睡眠监测系统提供方案。
- Scaling and Transferability of Annealing Strategies in Large Language Model Training
-
提出模型无关的预测框架,分解训练损失为前向效应项(学习率积分S)、退火动量项(Adam-style动量积分M)和模型尺寸项N,证明退火策略可从小模型/小batch迁移到大模型/大batch,预测误差MAPE<2%。
📚 预训练 (9)¶
- Beyond Cosine Similarity: Magnitude-Aware CLIP for No-Reference Image Quality Assessment
-
提出 MA-CLIP,发现并利用 CLIP 图像特征的幅度信息作为感知质量的互补线索,结合余弦相似度实现无需训练的自适应双线索融合图像质量评估。
- ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences
-
ELSPR 将 LLM 评估器的成对偏好建模为锦标赛图,通过强连通分量 (SCC) 识别非传递偏好,提出归一化有向图结构熵指标,并基于图重构过滤有问题的训练数据——过滤后的评估器非传递性降低 13.8%、结构熵降低 0.088,且丢弃数据的人类一致性仅 34.4%(vs 保留数据 52.6%)。
- GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval
-
提出一个无需训练的粒度感知对齐框架GranAlign,通过将查询重写为简化版和细化版并分别匹配无关/感知查询的视频描述,解决了零样本视频时刻检索中语义粒度不匹配的核心难题,在QVHighlights上mAP@avg提升3.23%。
- Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
-
提出 Task-Step-State(TSS)三层语义框架,在传统的任务-步骤层次中引入"状态"作为视觉锚定层,并设计渐进式预训练策略(Task→Step→State→Step→Task)逐步展开 TSS 层次,在 COIN 和 CrossTask 数据集上的任务识别、步骤识别和步骤预测任务上全面超越 SOTA。
- No-Regret Strategy Solving in Imperfect-Information Games via Pre-Trained Embedding
-
提出 Embedding CFR 算法,将不完美信息博弈中的信息集映射到连续低维嵌入空间(而非离散聚类),在相同空间开销下实现更快的可利用性收敛和更高质量的策略求解。
- Perspective from a Broader Context: Can Room Style Knowledge Help Visual Floorplan Localization?
-
提出利用房间风格知识(通过无监督聚类预训练获得的 room discriminator)来消除视觉楼层平面图定位中因重复结构导致的歧义,在 Gibson 和 Structured3D 两个标准基准上取得 SOTA 性能。
- PrefixGPT: Prefix Adder Optimization by a Generative Pre-trained Transformer
-
提出PrefixGPT,将前缀加法器优化建模为序列生成问题,通过定制的GPT模型预训练学习设计规则后用RL微调生成优化设计,在面积-延迟乘积(ADP)上取得SOTA且对初始化不敏感。
- Rectified Noise: A Generative Model Using Positive-incentive Noise
-
提出 Rectified Noise(ΔRN),通过正向激励噪声(π-noise)框架学习一组有益噪声并注入预训练 Rectified Flow 模型的速度场中,以仅 0.39% 的额外参数在 ImageNet-1k 上将 FID 从 10.16 降低到 9.05。
- TRACE: A Generalizable Drift Detector for Streaming Data-Driven Optimization
-
提出TRACE,一种基于注意力序列学习的可迁移概念漂移检测器,通过统计特征标记化和双注意力编码器学习跨任务可迁移的漂移模式,能泛化到未见过的数据集,并作为即插即用模块嵌入流式数据驱动优化算法。
✏️ 知识编辑 (4)¶
- Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing
-
提出MMQAKE基准和Hybrid-DMKG框架,在动态多模态知识图谱上构建"关系链接预测 + RAG增强LVLM推理"双通道混合推理机制,配合背景反思决策模块,在2-5跳多模态知识编辑问答中显著超越现有方法(LLaVA上H-Acc达29.90%,超IKE 13.52个百分点)。
- Is the Information Bottleneck Robust Enough? Towards Label-Noise Resistant Information Bottleneck Learning
-
本文揭示了信息瓶颈(IB)原理在标签噪声下的固有脆弱性,提出 LaT-IB 方法,通过将表征解耦为干净标签空间和噪声标签空间两部分,结合"最小-充分-干净"(MSC)准则和三阶段训练框架,在多种噪声条件下实现了对现有 IB 方法的显著超越。
- Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior
-
将 Agent 伦理行为引导建模为模型编辑任务(Behavior Editing),提出基于心理学道德理论的三层 BehaviorBench 基准,在 9 个开源模型和 20 个闭源模型上验证了模型编辑可以精确地将 Agent 引导向善意或恶意方向,且单次编辑可导致全局道德对齐偏移。
- Multiplicative Orthogonal Sequential Editing for Language Models (MOSE)
-
提出 MOSE(乘法正交序列编辑),用正交矩阵左乘(而非加法更新)参数矩阵来注入新知识,严格保持编辑后矩阵的范数和条件数不变,在序列编辑中实现 12.08% 的性能提升并保留 95.73% 通用能力。
💬 LLM 其他 (29)¶
- A Content-Preserving Secure Linguistic Steganography
-
提出首个内容保持型语言隐写术范式CLstega,通过微调掩码语言模型(MLM)来可控地变换预测分布,将秘密信息嵌入到不做任何修改的原始文本中,实现了100%提取成功率和近乎完美的安全性(隐写分析检测准确率接近随机猜测的0.5)。
- An Invariant Latent Space Perspective on Language Model Inversion
-
提出不变潜空间假说(ILSH),将LLM反演问题重新建模为复用LLM自身潜空间,设计Inv²A框架通过轻量级逆编码器将输出映射到去噪伪表示,再由冻结的LLM解码恢复隐藏prompt,在9个数据集上BLEU平均提升4.77%且仅需20%数据量即可达到可比性能。
- Blue Teaming Function-Calling Agents
-
系统评估了四个开源function-calling LLM在三种攻击下的鲁棒性,并测试了八种防御方案的效果,揭示了当前模型默认不安全、防御方案在实际场景中仍难以部署的现状。
- CoEvo: Continual Evolution of Symbolic Solutions Using Large Language Models
-
提出CoEvo框架,结合LLM与进化搜索方法论,通过动态知识库和多表示空间(自然语言/数学公式/代码)实现符号解的持续开放式进化,在AI Feynman基准上大幅超越现有符号回归方法。
- Collaborative LLM Numerical Reasoning with Local Data Protection
-
提出一种大小模型协作框架,通过对本地查询进行"主题迁移+数值替换"的两阶段匿名化来保护敏感数据,同时让远端 GPT-4 以可执行 Python 代码(即插即用工具)形式返回推理方案,本地仅需做数值回代即可获得答案,在 FinQA 和 MultiHiertt 上准确率提升 16-44% 且数据泄露降低 2-45%。
- Control Illusion: The Failure of Instruction Hierarchies in Large Language Models
-
系统性揭示了当前 LLM 中 system/user 提示分离机制无法有效建立指令优先级,并发现预训练习得的社会层级先验(权威、专业、共识)比显式的 system/user 角色对模型行为有更强的控制力。
- Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs
-
在 LLM 注意力权重上训练 CNN 来评估记忆化分类法与实际注意力机制的对齐程度,提出新的三类分类法(Guess/Recall/Non-Memorized),最小 F1 从 64.7% 提升至 89.0%,并定位了不同记忆类型分别依赖低层(Guess)和高层(Recall)注意力。
- ICL-Router: In-Context Learned Model Representations for LLM Routing
-
提出 ICL-Router,通过两阶段训练(查询重建 + ICL模型路由)将 LLM 的能力画像编码为 in-context 向量,实现可扩展的动态模型路由——新增模型无需重训路由器,在分布内和分布外任务上均达到 SOTA。
- Identifying and Analyzing Performance-Critical Tokens in Large Language Models
-
通过representation-level和token-level两种消融实验,发现LLM在ICL中直接依赖的"性能关键token"是模板和停用词token(如"Answer:"),而非人类会关注的内容token(如实际文本),并揭示了LLM通过将内容信息聚合到这些关键token的表示中来间接利用内容。
- IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization
-
提出 IROTE,一种基于信息瓶颈理论的上下文自我反思优化方法,通过迭代生成并优化紧凑且富有唤起力的文本"自我反思"(self-reflection),无需微调即可稳定地激发 LLM 在多种下游任务中表现出目标人类特质(价值观、道德、人格),一致性超越现有基线。
📖 NLP 理解 (1)¶
- Language Models and Logic Programs for Trustworthy Tax Reasoning
-
将税法推理重新定义为语义解析任务,让LLM将法规文本和纳税案例翻译为Prolog逻辑程序,由符号求解器执行计算,通过金标准法规+智能检索案例示例+自一致性检查,在SARA数据集上实现86/100的正确率,并将预计部署成本降至15.78美元/人(低于美国人均报税成本的6%)。
✍️ 文本生成 (3)¶
- AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research
-
提出 AutoMalDesc 自动化静态分析框架,通过迭代自步学习流水线——从 900 个专家标注种子样本出发,经 LoRA 微调 Llama-3.3-70B 生成伪标签,多阶段质量过滤后进行 V2 训练——实现 5 种脚本语言的恶意软件自动分类和行为描述,Batch 脚本检测准确率从 52.7% 提升到 82.4%。
- C3TG: Conflict-aware, Composite, and Collaborative Controlled Text Generation
-
提出 C3TG 框架,通过两阶段方法实现多维度细粒度可控文本生成:生成阶段用加权 KL 散度融合属性分布调整 token 概率,优化阶段用能量函数(分类器分数 + 冲突惩罚项)结合 Feedback Agent 迭代重写,在 17 个属性子类上达到 90.4% 属性准确率且大幅降低毒性。
- Structured Language Generation Model: Loss Calibration and Formatted Decoding for Efficient Text
-
提出 SLGM 框架,通过结构化输入格式、格式损失和格式感知解码三大组件,将生成式语言模型的结构化预测任务重构为分类问题,在不增加模型参数的前提下显著提升 <1B 模型在 NER、RE、SRL 等 5 类 13 个数据集上的结构预测性能。
🗣️ 对话系统 (5)¶
- Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation
-
提出 Auto-PRE 框架,通过自动资格考试从一致性、相关性、自信度三个维度筛选合格的 LLM 评估者,在无需人工标注的前提下实现了 SOTA 评估性能并大幅降低成本。
- Chatsparent: An Interactive System for Detecting and Mitigating Cognitive Fatigue in LLMs
-
本文提出 Chatsparent 交互系统,通过实时监测 LLM 推理过程中的三种 token 级疲劳信号(注意力衰减、嵌入漂移、熵坍缩),构建统一疲劳指数并在疲劳阈值触发时自动应用轻量级干预措施(提示重注入、注意力重置、熵正则化解码、自反思检查点),将被动的聊天交互转变为主动的诊断体验。
- Emergent Persuasion: Will LLMs Persuade Without Being Prompted?
-
研究 LLM 在未被提示说服的情况下是否会自发产生说服行为:发现激活引导(steering)无法可靠诱发说服倾向,但在良性说服数据上的 SFT 微调会导致模型在有害话题上产生涌现性说服行为,揭示了后训练安全风险。
- TalkSketch: Multimodal Generative AI for Real-time Sketch Ideation with Speech
-
提出TalkSketch系统,将手绘草图与实时语音输入相结合,嵌入多模态AI聊天机器人,使设计师在早期构思阶段能够边画边说、流畅地与AI协作,解决了现有GenAI工具中文字提示打断创作流程的问题。
- Canoe: Teaching LLMs to Maintain Contextual Faithfulness via Synthetic Tasks and RL
-
提出 Canoe 框架,通过从 Wikidata 三元组合成四类可验证的短形式 QA 数据,配合 Dual-GRPO(含准确率奖励、长形式代理奖励和格式奖励)同时优化短/长形式生成的忠实度,使 Llama-3-8B 在 11 个下游任务上平均提升 22.6%,超越 GPT-4o。
🌐 多语言/翻译 (9)¶
- Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages
-
本文综合多项实证研究,揭示LLM安全机制在低资源语言和代码混合场景下的严重失效,并提出基于参数高效安全引导、文化驱动偏好数据和社区参与式对齐的资源感知蓝图。
- Focusing on Language: Revealing and Exploiting Language Attention Heads in Multilingual Large Language Models
-
本文提出LAHIS方法,仅需一次前向-后向传播即可高效识别多语言LLM中的语言特异性和语言通用性注意力头,并展示了通过调控这些头来实现跨语言注意力转移、缓解非目标语言生成问题,以及仅用14-20个可训练参数就能提升多语言QA性能的能力。
- GloCTM: Cross-Lingual Topic Modeling via a Global Context Space
-
提出GloCTM,通过双路径VAE架构(局部语言路径+全局上下文路径)结合Polyglot Augmentation(跨语言近邻词扩充输入)、KL散度内部对齐、统一解码器结构对齐和CKA语义对齐四重机制,在3个跨语言数据集上全面超越现有方法的主题质量和跨语言对齐度。
- How Does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective
-
提出三元神经元分类(语言特定/语言相关/通用),将 LLM 多语言推理分为四阶段分析,发现多语言对齐通过增加语言相关神经元(减少语言特定神经元)来提升性能,且在未训练语言上也产生"自发多语言对齐"效应。
- MIDB: Multilingual Instruction Data Booster for Enhancing Cultural Equality in Multilingual Instruction Synthesis
-
提出 MIDB(多语言指令数据增强器),通过 36.8k 人类语言专家标注的修订样本训练一个统一模型,自动修复多语言合成指令数据中的内容错误、机器翻译缺陷和本地化不足问题,显著提升 16 种语言的指令数据质量和下游 LLM 的多语言/文化理解能力。
- Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
-
通过激活转向(activation steering)技术缓解 LLM 中的内容效应偏见——模型将内容可信度与形式逻辑有效性混淆的问题,提出 K-CAST(基于 kNN 的条件激活转向)方法,在不响应静态转向的模型上实现高达 15% 的形式推理准确率提升。
- NADIR: Differential Attention Flow for Non-Autoregressive Transliteration in Indic Languages
-
提出 NADIR,一种结合差分 Transformer 和混合专家(MoE)的非自回归(NAR)多语言音译架构,在印度语言音译任务上实现了 13× 以上的推理加速,同时将 NAR 模型的幻觉错误(重复、替换、遗漏、插入)大幅降低,缩小了与自回归模型之间的精度差距。
- ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation
-
ViDia2Std 构建了首个覆盖越南全部 63 个省份的手工标注越南语方言-标准语平行语料库(13,000+ 句对),并评估了多种 seq2seq 模型在方言归一化任务上的表现,证明方言归一化作为预处理步骤能显著提升机器翻译和情感分析等下游任务的性能。
- X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
-
本文提出X-MuTeST框架,结合LLM语义推理和n-gram attention增强的两阶段训练方法,用于可解释的多语言仇恨言论检测,并提供了印地语和泰卢固语的首个token级人工标注理据基准数据集。
🔍 信息检索/RAG (21)¶
- "As Eastern Powers, I Will Veto." : An Investigation of Nation-Level Bias of Large Language Models in International Relations
-
系统性地研究 LLM 在国际关系领域的国家级偏见,基于联合国安理会真实数据设计三种偏见测试(直接问答、关联测试、投票模拟),揭示偏见的多维性——随模型和评知上下文变化,并提出 RAG+Reflexion 去偏框架。
- Beyond Perplexity: Let the Reader Select Retrieval Summaries via Spectrum Projection Score
-
提出 Spectrum Projection Score (SPS) 这一无需训练的指标,通过衡量摘要 token 嵌入与 reader LLM 主子空间的对齐程度来评估检索摘要质量,替代传统困惑度指标。结合 xCompress 推理时控制器,在 5 个 QA 数据集上显著优于基于困惑度的方法(HotpotQA EM +3.6)。
- Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation
-
提出 Cog-RAG,用主题超图和实体超图构建双超图索引,模拟人类"自顶向下"的认知过程进行两阶段检索(先主题后细节),实现从全局语义到局部信息的对齐生成。
- ComLQ: Benchmarking Complex Logical Queries in Information Retrieval
-
构建了首个面向复杂逻辑查询的信息检索基准 ComLQ(含合取、析取、否定等 14 种查询类型),并提出子图引导的 LLM 数据合成方法和否定一致性评估指标 LSNC,揭示现有检索器在逻辑推理尤其是否定建模上的严重不足。
- ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning
-
受人脑前额叶皮层元认知调控机制启发,提出 ComoRAG 框架,通过动态记忆工作空间和迭代探测查询实现有状态的多步推理,在长篇叙事理解(200K+ tokens)任务上显著超越现有 RAG 方法。
- ConvMix: A Mixed-Criteria Data Augmentation Framework for Conversational Dense Retrieval
-
提出 ConvMix 混合准则数据增强框架,从查询和文档双方向用 LLM 进行可扩展的相关性标注增强,并通过聚类多样性选择和 Fisher 信息近分布监督筛选,系统性提升对话式稠密检索性能。
- Do Retrieval Augmented Language Models Know When They Don't Know?
-
系统分析RAG模型的拒绝校准问题,发现RALM在检索文档全部不相关时过度拒绝率超过55%(即使模型内部知识足够回答),提出结合不确定性估计和拒绝感知微调的机制来平衡拒绝与回答质量。
- Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-Based Machine Translation
-
开发受控噪声注入框架系统评估检索增强翻译(REAL-MT),引入Fidelity和CAR两个新指标,在10语言对×4种噪声类型上揭示模型即使面对矛盾上下文仍盲目采纳(CAR保持65-78%),大推理模型(LRM)反而更脆弱(会"合理化"错误上下文),且噪声鲁棒性与干净上下文利用率存在根本性trade-off。
- Magnitude Matters: A Superior Class of Similarity Metrics for Holistic Semantic Understanding
-
提出两种无参数、幅度感知的向量相似度度量——Overlap Similarity (OS) 和 Hyperbolic Tangent Similarity (HTS),在 4 个句子嵌入模型和 8 个 NLP 基准上,对分类任务(释义、推理)的 MSE 显著低于 Cosine Similarity 和 Dot Product,且无需任何额外训练开销。
- Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction
-
提出H2Memory四层分层异构记忆结构(日志图/背景记忆/主题大纲/原则),通过PAL-Set数据集(100用户×8.4个月交互)验证,在需求重述和方案建议任务上将BLEU-1从13.59提升至26.67。
💻 代码智能 (10)¶
- DiffBench Meets DiffAgent: End-to-End LLM-Driven Diffusion Acceleration Code Generation
-
提出DiffBench(604个扩散模型加速任务的评估基准,分5个难度等级)和DiffAgent(集成规划-编码-调试三Agent + 遗传算法选择器的闭环框架),在Claude Sonnet 4上将扩散加速代码生成通过率从54.30%提升到81.59%,复杂优化任务达成率68.27%。
- EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion
-
提出EquaCode多策略越狱方法,将恶意查询分解为方程求解(B+C+x=A)和代码补全(补全Solver类的solve()方法)的跨域组合,在GPT系列上平均攻击成功率92.78%,在最新模型(Gemini/DeepSeek/Grok)上接近100%。
- Extracting Events Like Code: A Multi-Agent Programming Framework for Zero-Shot Event Extraction
-
提出 Agent-Event-Coder (AEC),将零样本事件抽取类比为软件工程流程,用4个专职Agent(Retrieval→Planning→Coding→Verification)协作完成抽取,并将事件schema编码为可执行Python类实现编译器式确定性验证与双循环迭代修正,在5个领域、6个LLM上全面超越零样本基线。
- MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings
-
提出 ModularStarEncoder(MoSE),一个 10 亿参数的多出口编码器,通过新颖的自蒸馏机制(高层引导低层训练)显著增强早期层表示,在 CodeSearchNet 等代码理解任务上超越所有开源模型,同时支持灵活的计算-精度权衡部署。
- ReCode: Updating Code API Knowledge with Reinforcement Learning
-
提出 ReCode 框架,通过基于规则的强化学习(而非 SFT)训练 LLM 在 prompt 中正确利用 API 更新文档完成代码版本迁移,使 7B 模型在 CodeUpdateArena 上超越 32B 模型。
- SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models
-
提出SPAN跨日历时间推理基准(6种日历×10推理方向×100年范围×37380实例),发现基础LLM平均仅34.5%准确率(无一超过80%),揭示Future-Date Degradation和Calendar Asymmetry Bias两种系统性失败模式,工具增强的Time Agent达95.31%——证明跨日历推理需要外部工具而非参数化知识。
- TAPA: Training-Free Adaptation of Programmatic Agents via LLM-Guided Program Synthesis in Dynamic Environments
-
TAPA 将 LLM 定位为符号动作空间的"智能调制器"而非直接决策者,通过 LLM 引导的程序合成动态适配程序化 Agent 的符号动作,无需重新训练即可适应动态环境,在网络安全 DDoS 防御(77.7% 网络正常运行率)和群体智能编队控制中表现优异。
- Towards Better Code Understanding in Decoder-Only Models with Contrastive Learning
-
提出CL4D对比学习框架,通过继续预训练将decoder-only代码生成模型适配到代码理解任务(代码搜索、克隆检测),在不重新训练encoder模型的前提下实现了与同等规模encoder-only模型相当甚至更优的性能。
- Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation
-
本文揭示了在良性 Agent 数据上微调 LLM 会导致意外的安全对齐偏移(攻击成功率增加 32-38%),并提出 PING(Prefix Injection Guard)——通过迭代生成+评估自然语言前缀来引导微调后的 Agent 拒绝有害请求,平均提升拒绝率 66%(Web)和 44%(代码),同时保持任务性能(仅降 1.8%)。
- Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
-
系统研究了开源 LLM 在数据分析任务中的能力瓶颈,将数据分析分解为数据理解、代码生成和战略规划三个维度,发现战略规划是决定性因素而非编码或数据理解;并提出了一种策略引导的数据合成方法,使微调后的 7B/14B 模型达到与 GPT-4o 竞争的性能。
🎨 图像生成 (79)¶
- AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction
-
提出一种基于自编码器双重重建损失比值的免训练图像归因方法,通过图像均匀度校准消除纹理复杂度偏差,在8个主流扩散模型上平均准确率达95.1%,比最强基线高24.7%,且速度快约100倍。
- Aggregating Diverse Cue Experts for AI-Generated Image Detection
-
提出Multi-Cue Aggregation Network (MCAN),通过混合编码器适配器(MoEA)将原始图像、高频信息和新提出的色度不一致性(CI)三种互补线索统一融合,实现跨生成模型的鲁棒AI生成图像检测。
- Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation
-
提出Cool-SD,一种有理论支撑的退火松弛speculative decoding框架:通过推导TV距离上界得到最优重采样分布,并证明接受概率递减调度比均匀调度产生更小的分布偏移,在LlamaGen和Lumina-mGPT上实现了比LANTERN++更优的速度-质量权衡。
- Backdoors in Conditional Diffusion: Threats to Responsible Synthetic Data Pipelines
-
揭示了 ControlNet 条件分支的后门攻击漏洞:仅需 1–5% 的投毒数据即可在不修改扩散主干的前提下植入后门,触发时无视文本 prompt 生成攻击者指定内容,并提出 clean fine-tuning (CFT) 作为实用防御。
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images
-
揭示扩散模型在生成图像中嵌入 NSFW 文字的新威胁,提出基于文本生成层定向 LoRA 微调的 NSFW-Intervention 方法,并发布 ToxicBench 基准。
- Beyond Semantic Features: Pixel-Level Mapping for Generalized AI-Generated Image Detection
-
提出像素级映射(pixel-level mapping)预处理方法,通过打破像素值的单调排列来抑制低频语义偏差、增强高频生成伪影,将 AI 生成图像检测的跨模型泛化准确率提升至 98.4%。
- Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra
-
提出 GLMR 两阶段框架(对比学习预检索 + 生成式语言模型重排),通过生成与输入质谱对齐的分子结构将跨模态检索转化为单模态检索,在 MassSpecGym 上 Recall@1 提升超 40%。
- CAD-VAE: Leveraging Correlation-Aware Latents for Comprehensive Fair Disentanglement
-
提出 CAD-VAE 引入相关性感知潜编码(correlated latent code)捕获目标属性与敏感属性的共享信息,通过直接最小化条件互信息实现解纠缠,配合相关性驱动优化策略精确调控共享编码,在公平表示学习、反事实生成和公平图像编辑上取得 SOTA。
- CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images
-
提出 CausalCLIP,通过 Gumbel-Softmax 掩码 + HSIC 约束将 CLIP 特征解耦为因果/非因果子空间,结合对抗掩码和反事实干预保留稳定取证线索,跨生成器泛化准确率提升 6.83%。
- Conditional Diffusion Model for Multi-Agent Dynamic Task Decomposition
-
提出 CD3T,一个两层层次化 MARL 框架:用条件扩散模型学习动作语义表示(以观测和他人动作为条件,预测下一观测和奖励),通过 k-means 聚类得到子任务划分,高层选择子任务、低层在受限动作空间执行策略,在 SMAC 的 Super Hard 场景上显著超越所有基线。
🎬 视频生成 (11)¶
- 3D4D: An Interactive Editable 4D World Model via 3D Video Generation
-
提出 3D4D,一个集成 WebGL 和 Supersplat 渲染的交互式 4D 可视化框架,通过四个后端模块(3D重建、图像生视频、视频分帧、4D场景生成)将静态图片和文本转化为可实时交互的 4D 场景,并引入 VLM 引导的注视点渲染策略在保持语义一致性的同时实现 60fps 实时交互。
- DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
-
提出 DreamRunner 框架,通过 LLM 双层规划 + 检索增强运动先验学习 + 时空区域3D注意力模块(SR3AI),实现细粒度可控的多角色多事件故事视频生成。
- FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion
-
提出 FilmWeaver 框架,通过双层缓存(Shot Cache + Temporal Cache)引导自回归扩散模型,实现任意长度、跨镜头一致性的多镜头视频生成。
- GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection
-
提出 GenVidBench——首个 678 万级 AI 生成视频检测数据集,具备跨源(cross-source)和跨生成器(cross-generator)特性,覆盖 11 种 SOTA 视频生成器,并提供丰富的语义标注。
- Mask2IV: Interaction-Centric Video Generation via Mask Trajectories
-
提出 Mask2IV,一个两阶段解耦框架——先预测交互者和物体的 mask 运动轨迹,再基于轨迹生成视频——实现了无需密集 mask 标注的、以交互为中心的可控视频生成,支持人-物交互和机器人操作两个场景。
- MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation
-
提出 MoFu,通过 Scale-Aware Modulation(LLM 引导的尺度感知调制)和 Fourier Fusion(基于 FFT 的排列不变特征融合)两个核心模块,同时解决多主体视频生成中的尺度不一致和排列敏感性两大挑战,并构建了 MoFu-1M 训练数据集和 MoFu-Bench 评测基准。
- MotionCharacter: Fine-Grained Motion Controllable Human Video Generation
-
提出 MotionCharacter 框架,通过将运动解耦为动作类型和运动强度两个独立可控维度,实现高保真人体视频生成中的细粒度运动控制和身份一致性保持。
- OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
-
提出 OmniVDiff,一个统一的可控视频扩散框架,通过将多种视觉模态(RGB、深度、分割、Canny)在颜色空间中联合建模,并引入自适应模态控制策略(AMCS),在单一扩散模型中同时支持文本条件生成、X 条件生成和视频理解三种任务,在 VBench 上达到 SOTA。
- Phased One-Step Adversarial Equilibrium for Video Diffusion Models
-
提出 V-PAE(Video Phased Adversarial Equilibrium),通过稳定性预热 + 统一对抗均衡两阶段蒸馏框架,将大规模视频扩散模型(如 Wan2.1-I2V-14B)压缩至单步生成,实现 100 倍加速,在 VBench-I2V 上平均质量超越已有加速方法 5.8%。
- Seeing the Unseen: Zooming in the Dark with Event Cameras
-
提出首个事件驱动低光视频超分(LVSR)框架 RetinexEVSR,通过 Retinex 启发的双向融合策略(RBF)——先用光照图引导事件特征去噪(IEE),再用增强后的事件特征恢复反射率细节(ERE),在 SDSD 基准上实现 2.95dB 增益且运行时间减少 65%。
🧩 多模态 VLM (74)¶
- Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
-
提出 CDDS 算法,通过双路径 UNet 将嵌入解耦为语义和模态分量,并利用分布采样方法间接实现跨模态语义对齐,避免直接调整嵌入导致的分布扭曲,在 Flickr30K 和 MS-COCO 上超越 SOTA 6.6%~14.2%。
- anyECG-chat: A Generalist ECG-MLLM for Flexible ECG Input and Multi-Task Understanding
-
构建anyECG数据集(含报告生成、波形定位、多ECG比较三大任务)并提出anyECG-chat模型,通过动态ECG输入机制支持变长/少导联/多ECG输入,采用三阶段课程学习训练,在报告生成的OOD泛化、秒级异常波形定位和多ECG对比分析上全面超越现有ECG-MLLM。
- "Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents
-
提出基于 VLM 的自主任务完成评估框架,通过截图+任务描述判断 CUA 是否完成任务,并将评估反馈回传给 Agent 实现自我纠正,在 macOS 环境上达到 73% 评估准确率和 27% 的任务成功率相对提升。
- BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
-
提出 BiPrompt,一种双边 prompt 优化框架,在测试时同时缓解 CLIP 等 VLM 中视觉侧(结构化注意力擦除)和文本侧(平衡 prompt 归一化)的虚假偏差,无需重训练即可提升 OOD 鲁棒性。
- BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning
-
提出BOFA框架,仅微调CLIP已有的跨模态投影层(bridge-layer),通过正交低秩融合(Orthogonal Low-Rank Fusion)将参数更新约束在与旧任务特征正交的低秩"安全子空间"中,配合跨模态混合原型分类器,在不增加任何额外参数和推理开销的前提下实现了SOTA的无样本存储类增量学习。
- Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models
-
本文系统探索了零阶(ZO)优化在基于PEFT的视觉-语言持续学习(VLCL)中的应用,发现全ZO替换会导致训练不稳定,提出从分支级(branch-wise)到层级(layer-wise)的渐进式ZO-FO混合策略,并基于视觉模态方差更大的理论发现提出MoZO策略(梯度符号归一化+视觉扰动约束),在四个benchmark上达到SOTA。
- Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation (BriMPR)
-
提出 BriMPR 框架,通过"分而治之"策略将多模态测试时自适应(MMTTA)分解为多个单模态特征对齐子问题,先用 prompt tuning 校准各模态全局特征分布实现初始跨模态语义对齐,再通过跨模态掩码嵌入重组和实例级对比学习精细化对齐。
- Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?
-
首次系统评估 LVLM 在多模态上下文中对版权内容的识别和遵守能力,构建了 50,000 对多模态查询-内容的大规模 benchmark,发现 11/12 个 SOTA LVLM 即使面对明确版权声明也无法有效拒绝侵权请求,并提出 CopyGuard 工具增强框架将侵权拒绝率从 ~3% 提升至 ~62%。
- ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration
-
受人类视觉感知(HVP)启发,提出一种从粗到细的统一图像复原框架 ClearAIR,通过 MLLM 质量评估 → 语义区域感知 → 退化类型识别 → 内部线索复用四阶段逐步恢复图像质量,在多种退化任务上取得 SOTA。
- Conditional Information Bottleneck for Multimodal Fusion: Overcoming Shortcut Learning in Sarcasm Detection
-
揭示多模态讽刺检测中三类捷径学习问题(角色标签偏见、罐头笑声标签泄漏、情感不一致捷径)并重构了无捷径的 MUStARD++R 数据集,提出基于条件信息瓶颈的多模态融合框架 MCIB,通过压缩主模态冗余同时保留辅助模态的互补信息来实现有效融合。
🧠 VLM Reasoning (10)¶
- AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs
-
受人类认知中"语言溯因+图像想象"双模式启发,提出 AbductiveMLLM,通过 Reasoner(因果对比学习筛选假设)和 Imaginer(扩散模型图像化推理)两个协同组件增强 MLLM 的视觉溯因推理能力,在 VAR 和 YouCookII 基准上取得 SOTA。
- AStar: Boosting Multimodal Reasoning with Automated Structured Thinking
-
提出AStar,一种training-free的多模态推理范式,通过从500个种子样本中构建高层"thought cards"推理模板库,在推理时自适应检索最优模板引导MLLM结构化推理,7B模型在MathVerse上达53.9%准确率(超越GPT-4o的50.2%),仅需50分钟预处理时间且无需训练。
- Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models
-
提出Concept-RuleNet——一个三智能体协作的神经符号推理框架,通过从训练图像中提取视觉概念来条件化符号生成和规则构建,解决了现有方法(如Symbol-LLM)仅依赖标签导致的符号幻觉和不代表性问题,在5个OOD基准上平均提升~5%准确率,幻觉符号减少达50%。
- CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
-
提出首个系统评估多模态大语言模型(MLLM)跨视频推理(Cross-Video Reasoning, CVR)能力的综合基准CrossVid,涵盖4个维度10个任务、5,331个视频和9,015个QA对,实验揭示当前最佳模型Gemini-2.5-Pro仅达50.4%准确率,远低于人类89.2%。
- FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
-
本文提出FinMMDocR,一个面向真实金融场景的双语多模态推理基准,包含1200道专家标注的数值推理题目,涵盖12类隐式金融情景、9类长文档(平均50.8页)和平均11步推理链,最强MLLM (o4-mini-high) 仅达58%准确率,揭示现有模型在复杂金融推理中的严重不足。
- Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
-
提出 Graph-of-Mark (GoM),一种无需训练的像素级视觉提示方法,通过在输入图像上直接叠加深度感知的场景图(包含节点和有向边),显式编码物体间的空间关系,使多模态语言模型在 VQA 和定位任务中的零样本空间推理准确率最高提升 11 个百分点。
- Leveraging Textual Compositional Reasoning for Robust Change Captioning
-
提出 CORTEX 框架,通过引入 VLM 生成的组合推理文本作为显式线索,结合图像-文本双重对齐模块(ITDA),增强纯视觉变化描述方法对物体关系和空间配置等结构化语义的理解能力。
- SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios
-
SToLa 提出首个基于混合专家(MoE)的触觉-语言框架,通过动态路由机制管理触觉和语言两种模态的差异,并构建了覆盖8种物理属性、4种交互特征的开放式触觉常识推理数据集 TactileBench,在 PhysiCLeAR 基准上以 7B 参数量超越 13B 的 Octopi 取得 SOTA。
- Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference
-
Tri-Bench 是一个包含400张实拍三角形图像的紧凑基准,通过控制相机姿态(平面/倾斜)和物体干扰两个因素,系统测试了四个领先VLM的空间几何推理能力,发现模型默认依赖2D图像平面线索而非3D真实几何(即使提供了明确的参考框架提示),在非多数类形状上准确率降至接近0%。
- Yes FLoReNce, I Will Do Better Next Time! Agentic Feedback Reasoning for Humorous Meme Detection
-
提出 FLoReNce 框架,将幽默 meme 理解建模为闭环控制系统,通过 Judge 反馈+PID 控制器+非参数知识库的闭环学习,在推理时通过检索相似经验调制 prompt,使冻结的 VLM 实现自适应推理,无需微调即可显著提升预测和解释质量。
⚡ VLM Efficiency (5)¶
- EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens
-
提出EM-KD框架,通过Hungarian算法解决teacher-student间视觉token数量不平衡问题,结合视觉语义蒸馏(VSD)和视觉-语言亲和力蒸馏(VLAD)将vanilla teacher的知识迁移到高效student MLLM,在11个benchmark上以144 token/patch达到50.4均分,超越576 token的LLaVA-NeXT(49.4)同时推理速度提升近2倍。
- Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration
-
提出FiCoCo三阶段框架(Filter-Correlate-Compress),通过集成视觉感知+语义感知冗余度量筛选丢弃token,利用token间相关性自适应回收信息,实现training-free的MLLM加速。在LLaVA-NeXT上达14.7×FLOPs压缩同时保留93.6%性能,在5种MLLM架构上全面超越FastV、SparseVLM等SOTA。
- Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models
-
提出GlobalCom²,一个即插即用、无需训练的token压缩框架,专为动态裁剪(dynamic cropping)结构的高分辨率VLM设计:利用全局缩略图(thumbnail)作为"指挥官"引导局部裁剪区域(crop)的差异化压缩,在压缩90%视觉token的同时保持>90%原始性能。
- Rethinking Visual Token Reduction in LVLMs under Cross-Modal Misalignment
-
揭示了 LVLM 中文本引导视觉token重要性评估的三种跨模态失配问题(因果、语义、空间),提出 VisionDrop——一个仅依赖视觉自注意力的免训练渐进式token剪枝框架,跨视觉编码器和 LLM 解码器多阶段压缩,在保留 5.6% token 时仍能维持 91%+ 原始性能。
- TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks
-
TinyChemVL 是一个仅4B参数的化学领域VLM,通过自适应token合并与剪枝策略将视觉token压缩至原来的1/16,并引入反应级别任务和基准ChemRxn-V,在分子和反应级别的视觉化学任务上达到SOTA性能,同时显著提升推理和训练速度。
🎵 音频/语音 (31)¶
- A Mind Cannot Be Smeared Across Time
-
本文从形式化角度证明,机器是否具有意识不仅取决于计算什么,还取决于何时计算——严格顺序执行的系统不满足意识统一性所需的时间共现(co-instantiation)条件,因此纯软件意识在严格顺序硬件上是不可能的。
- DeepDebater: A Superpersuasive Autonomous Policy Debating System
-
提出DeepDebater,首个能参与并赢得完整美式策略辩论赛(八轮发言+交叉质询)的自主多Agent系统,基于层级式Agent工作流分工完成正方(Advantage)/反方(DA+CP+Kritik)论证构建,以OpenDebateEvidence的300万+张证据卡做检索增强,辅以GPT-4o TTS语音合成和EchoMimic数字人动画,在专家评估中各项指标显著超越人类编写案例(Quality 4.32 vs 3.65),模拟对局胜率达85%。
- AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
-
通过对大音频语言模型(LALM)Transformer 骨干中的注意力头进行二值掩码(AHAMask),无需文本指令即可可靠触发特定声学任务功能,同时揭示了 LALM 内部存在"声学功能通路"。
- Aligning Generative Music AI with Human Preferences: Methods and Challenges
-
综述/立场论文,系统梳理偏好对齐技术在音乐生成中的三条路线——MusicRL(大规模 RLHF,~30 万偏好对)、DiffRhythm+(扩散模型多偏好 DPO)、Text2midi-InferAlign(推理时树搜索,CLAP +29.4%),深入分析音乐领域独有的对齐挑战(多尺度时间连贯性、和声一致性、文化主观性、评估悖论),并给出未来路线图。
- CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
-
提出 CCFQA——首个覆盖 8 种语言、14,400 条完全平行语音-文本事实问答样本的跨语言跨模态基准,支持 QA/XQA/SQA/XSQA 四种任务设定,系统揭示了现有 MLLM 在语言和模态切换下的事实不一致性;同时提出 LLM-SQA,以英语为桥接语言、仅 5-shot 即实现跨语言语音问答迁移,在 XSQA 上 F1 达 51.4 超越 GPT-4o-mini-Audio(45.7)。
- Characterizing AI Manipulation Risks in Brazilian YouTube Climate Discourse
-
通过心理语言学框架分析巴西 YouTube 上 22.6 万条气候变化视频和 275 万条评论,揭示情感/道德修辞显著驱动用户互动,并展示微调 LLM 可自动生成高互动性的气候否认评论,警示生成式 AI 在舆论操控中的潜在风险。
- Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
-
提出 Cross-Space Synergy(CSS)框架,通过表示空间的协同多项式融合(SPF)和梯度空间的 Pareto 梯度调节器(PGM)双管齐下,同时解决多模态对话情感识别中融合表达力不足和多目标梯度冲突两大难题。
- DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization
-
提出 DeformTrace,将可变形动态感受野和中继令牌机制引入状态空间模型,结合 Transformer 的全局建模与 SSM 的高效推理,实现时序伪造定位的 SOTA 精度与显著效率提升。
- Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
-
提出 Diff-V2M,一个基于层次条件扩散 Transformer 的视频到音乐生成框架,通过显式节奏建模(低分辨率 ODF)和层次交叉注意力机制整合情感/语义/节奏特征,在域内和域外数据集上均达到 SOTA。
- DiffA: Large Language Diffusion Models Can Listen and Understand
-
提出 DIFFA——首个基于扩散语言模型的大型音频-语言模型,通过冻结 LLaDA-8B 骨干网络 + 轻量双适配器架构 + 两阶段训练管线,仅用 960 小时 ASR 数据和 127 小时合成指令数据就在 MMSU、MMAU、VoiceBench 上达到与自回归 baseline 竞争的性能。
🔎 AIGC 检测 (2)¶
- BAID: A Benchmark for Bias Assessment of AI Detectors
-
提出 BAID 基准数据集(20.8万样本对,覆盖7类偏见维度、41个子群体),系统评估4个开源 AI 文本检测器在不同人口统计和语言学子群体上的公平性表现,揭示检测器对方言、非正式英语和少数群体文本存在显著的召回率差异。
- Optimized Algorithms for Text Clustering with LLM-Generated Constraints
-
提出 LSCK-HC 框架,利用 LLM 生成集合形式的 must-link/cannot-link 约束(而非传统成对约束),配合带惩罚项的局部搜索聚类算法,在5个短文本数据集上实现与 SOTA 可比的聚类精度,同时将 LLM 查询次数减少 20 倍以上。
🧊 3D 视觉 (79)¶
- 3D-ANC: Adaptive Neural Collapse for Robust 3D Point Cloud Recognition
-
将Neural Collapse(NC)机制引入3D点云对抗鲁棒性,用固定的ETF分类头+自适应训练框架(RBL+FDL)构建解耦的特征空间,在ModelNet40上将DGCNN的对抗准确率从27.2%提升到80.9%,超出最佳baseline 34个点。
- 3D-Free Meets 3D Priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance
-
提出将 3D-free 方法(HawkI 风格的 test-time optimization)与 3D-based 先验(Zero123++ 的弱引导图)结合的框架,无需额外 3D 数据或训练即可从单张图片生成指定仰角/方位角的相机控制视图,在复杂场景下 LPIPS、CLIP-Score 等指标全面超越 Zero123++、HawkI 和 Stable Zero123。
- 3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation
-
将SAM2基础模型迁移到3D牙齿分割任务,通过多视角渲染将3D mesh转为2D图像、设计三个轻量适配器(Prompt生成器、Mask精化器、Mask分类器)和可变形全局注意力插件(DGAP)来解决自动提示、边界精化和语义分类问题,在Teeth3DS上以91.90% T-mIoU刷新SOTA。
- 4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation
-
提出4DSTR框架,通过基于Mamba的时序关联校正(修正高斯点的尺度和旋转)以及逐帧自适应稠密化与裁剪策略,显著提升4D高斯生成的时空一致性和对快速时序变化的适应能力。
- Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models
-
提出 Uni-Adapter,一种面向3D视觉-语言基础模型(VLFM)的无训练在线测试时适应框架,通过基于聚类的动态原型缓存和图正则化标签平滑来应对分布偏移,在多个3D损坏基准上取得SOTA。
- AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation
-
揭示 SDS 中源分布是动态演化而非静态的关键问题,提出 AnchorDS,通过将当前渲染图像作为图像条件输入双条件扩散模型来锚定源分布,解决了 SDS 的语义过度平滑和多视角不一致问题,在 T3Bench 上全面超越 SDS/VSD/SDS-Bridge。
- AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation
-
提出 AnchorHOI,通过锚点NeRF和锚点关键点两种中间桥梁,分别从图像/视频扩散模型中蒸馏交互先验和运动先验,实现零样本的文本驱动4D人物-物体交互生成,在静态3D和动态4D HOI生成上均超越已有方法。
- Arbitrary-Scale 3D Gaussian Super-Resolution
-
提出Arbi-3DGSR集成框架,通过尺度感知渲染、生成先验引导优化和渐进超分三个核心组件,首次实现单个3DGS模型支持任意(包括非整数)倍率的高分辨率渲染,在×5.7倍率下PSNR比3DGS提升6.59dB,且保持85 FPS实时速度。
- ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation
-
提出 ASSIST-3D 合成数据流水线,通过异构物体选择、LLM 引导的场景布局生成和仿真实点云构建三个阶段,为 class-agnostic 3D 实例分割生成高质量标注数据,显著提升模型泛化能力。
- Can Protective Watermarking Safeguard the Copyright of 3D Gaussian Splatting?
-
首次系统性地揭示了 3DGS 水印框架的脆弱性,提出 GSPure 框架通过视角感知权重累积和几何特征聚类精准分离并去除水印相关的 Gaussian 原语,在水印 PSNR 最高降低 16.34dB 的同时保持原始场景损失不足 1dB。
🎯 目标检测 (29)¶
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios
-
构建了首个面向无人机场景的大规模 Referring Multi-Object Tracking(RMOT)基准数据集 AerialMind,并提出 HawkEyeTrack(HETrack)方法,通过视觉-语言共进化融合编码器和尺度自适应上下文精炼模块,在无人机航拍场景中实现语言引导的多目标跟踪。
- An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice
-
提出一个实时大米品质评估整体机制,整合改进的 YOLO-v5(品种检测)、改进的 ConvNeXt-Tiny(完整度分级)和 K-means(垩白区域量化)三个模块,在自建的六品种两万张图像数据集上实现了 99.14% mAP 和 97.89% 检测准确率。
- AnoStyler: Text-Driven Localized Anomaly Generation via Lightweight Style Transfer
-
将零样本异常生成建模为文本引导的局部风格迁移问题,通过轻量级U-Net + CLIP损失将正常图像的掩码区域风格化为语义对齐的异常图像,在MVTec-AD和VisA上以263M参数(仅0.61M可训练)超越扩散模型基线,同时显著提升下游异常检测性能。
- AquaSentinel: Next-Generation AI System Integrating Sensor Networks for Urban Underground Water Pipeline Anomaly Detection via Collaborative MoE-LLM Agent Architecture
-
提出AquaSentinel,一个物理信息驱动的AI系统,通过稀疏传感器部署+物理增强虚拟传感器+MoE时空GNN集成+双阈值RTCA检测算法+因果流定位+LLM报告生成,仅用20-30%节点覆盖即可实现全网管道泄漏检测,在110个泄漏场景中达到100%检测率。
- Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection
-
提出利用VFM(DINOv2+Grounding DINO)增强无源域自适应目标检测(SFOD)的框架,通过全局特征对齐(PGFA)、实例级原型对比学习(PIFA)和双源伪标签融合(DEPF)三个模块,在6个跨域检测基准上取得SOTA,例如Cityscapes→Foggy Cityscapes达47.1% mAP(比DRU高3.5%),Sim10k→Cityscapes达67.4% AP(比DRU高8.7%)。
- CASL: Curvature-Augmented Self-supervised Learning for 3D Anomaly Detection
-
发现点云曲率本身就是强大的异常检测线索,提出曲率增强的自监督学习框架 CASL,通过多尺度曲率提示引导坐标重建来学习通用 3D 表征,无需任何异常检测专用机制即可在 Real3D-AD 上以 5.6% O-AUROC 优势刷新 SOTA。
- Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory
-
提出 CIF,利用超图(hypergraph)提取少量训练样本的类内结构共性,指导 memory bank 的构建与搜索,在少样本多模态工业异常检测中取得 SOTA。
- Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning
-
提出 GroundingAgent,一个完全不需要任务特定微调的视觉定位框架,通过组合预训练的开放词汇检测器(YOLO World)、MLLM(Llama-3.2-11B-Vision)和 LLM(DeepSeek-V3)进行结构化迭代推理,在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率,大幅超越之前的 zero-shot 方法。
- Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time
-
提出 TUNE,一个即插即用的测试时适应框架,通过图对齐器变换节点特征来解决图异常检测中因新正常类别出现导致的"正常性偏移"问题,利用聚合污染程度作为无监督适应信号,在 10 个真实数据集上显著增强多种预训练 GAD 模型的泛化能力。
- CountSteer: Steering Attention for Object Counting in Diffusion Models
-
提出 CountSteer,一种免训练的推理时方法,通过在扩散模型的 cross-attention 隐状态中注入自适应 steering vector,将物体计数准确率提升约 4%,且不损害图像质量。
✂️ 语义分割 (29)¶
- A²LC: Active and Automated Label Correction for Semantic Segmentation
-
提出 A²LC 框架,在传统主动标签校正(人工逐一纠错)的基础上增加一个自动校正阶段(Label Correction Module),利用标注员的反馈自动修正相似的错误mask,并设计自适应平衡采集函数缓解类别不平衡,在 Cityscapes 上仅用 20% 预算即超越前 SOTA,同等预算下 mIoU 提升 27.23%。
- Adaptive Morph-Patch Transformer for Aortic Vessel Segmentation
-
提出 Morph-Patch Transformer (MPT),通过基于速度场的自适应 patch 划分策略生成形态感知 patch(保持血管拓扑完整性),并引入语义聚类注意力(SCA)动态聚合语义相似 patch 的特征,在 AVT、AortaSeg24 和 TBAD 三个主动脉分割数据集上均达 SOTA。
- Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization
-
提出 Generative Clean-Image Backdoors (GCB),通过 Conditional InfoGAN (C-InfoGAN) 自动发现图像中天然存在且与分类任务无关的特征作为后门触发器,以极低投毒率(≤0.5%)实现高攻击成功率(≥90% ASR)且几乎不损伤干净准确率(CA drop ≤1%),首次打破了 clean-image backdoor 中隐蔽性与攻击力的固有矛盾。
- Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-Domain Few-Shot Segmentation
-
提出 HSL 框架,通过双重风格随机化 (DSR)、层次语义挖掘 (HSM) 和原型置信度调制阈值 (PCMT) 三个模块,解决跨域少样本分割中源域和目标域之间的分割粒度差异问题,在四个目标域数据集上达到 SOTA。
- Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation
-
本文提出Causal-Tune,一种基于因果机制的VFM微调策略,通过DCT频域变换和高斯带通滤波器将VFM特征分离为因果(域不变)和非因果(域特定)成分,仅对因果成分施加可学习token精炼,在域泛化语义分割中有效抑制VFM伪影并提升泛化性能。
- CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion
-
提出 CtrlFuse,通过 mask prompt 引导 SAM 微调,实现红外-可见光图像的交互式可控融合,在融合质量和下游分割/检测任务上同时取得提升。
- Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation
-
提出 FLEX-Seg 框架,将扩散模型合成数据中图像与语义掩码之间固有的边界不对齐(misalignment)转化为学习鲁棒表示的机会,通过粒度自适应原型 (GAP)、不确定性边界强调 (UBE) 和难度感知采样 (HAS) 三个模块,在域泛化语义分割任务上取得 SOTA。
- EAGLE: Episodic Appearance- and Geometry-Aware Memory for Unified 2D-3D Visual Query Localization
-
提出 EAGLE 框架,借鉴鸟类记忆巩固机制,通过外观感知元学习记忆 (AMM) 驱动的分割分支与几何感知定位记忆 (GLM) 驱动的跟踪分支协同工作,结合 VGGT 实现高效的 2D-3D 统一视觉查询定位,在 Ego4D-VQ 基准上达到 SOTA。
- Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter
-
首次将 DINOv2 引入水下实例分割任务,通过 AquaStyle Aligner(傅里叶频域风格注入)和 ObjectPrior Prompter(二值掩码先验提示)两个模块实现高效领域适配,在 UIIS 和 USIS10K 数据集上以更少参数大幅超越 SAM 基方法。
- From Attribution to Action: Jointly ALIGNing Predictions and Explanations
-
提出 ALIGN 框架,通过联合训练可学习掩码生成器(masker)和分类器,迭代对齐模型归因图与任务相关区域掩码,同时提升预测准确性和可解释性,在 VLCS 和 Terra Incognita 域泛化基准上超越 6 个强基线。
🖼️ 图像恢复 (10)¶
- Blur-Robust Detection via Feature Restoration: An End-to-End Framework for Prior-Guided Infrared UAV Target Detection
-
提出 JFD3 端到端双分支框架,在特征域而非图像域进行去模糊,并利用频率结构先验引导检测网络,实现运动模糊条件下红外无人机目标的高精度实时检测。
- Clear Nights Ahead: Towards Multi-Weather Nighttime Image Restoration
-
首次定义并探索多天气夜间图像复原任务,构建 AllWeatherNight 数据集(8K 训练 + 1K 合成测试 + 1K 真实测试),提出 ClearNight 统一框架通过 Retinex 双先验引导和天气感知动态专一性-共性协作,一阶段同时移除雾/雨条/雨滴/雪/flare 复合退化,仅 2.84M 参数全面超越 SOTA。
- Depth-Synergized Mamba Meets Memory Experts for All-Day Image Reflection Separation
-
提出 DMDNet,通过深度感知扫描策略(DAScan)引导 Mamba 关注显著结构,结合深度协同状态空间模型(DS-SSM)抑制模糊特征传播,并引入记忆专家补偿模块(MECM)利用跨图像历史知识,实现全天候(白天+夜间)的图像反射分离。
- ICLR: Inter-Chrominance and Luminance Interaction for Natural Color Restoration in Low-Light Image Enhancement
-
针对HVI色彩空间中色度和亮度分支分布差异大导致互补特征提取不足、以及色度分支间弱相关导致梯度冲突的问题,提出ICLR框架,通过双流交互增强模块(DIEM)和协方差校正损失(CCL)分别从融合增强和统计分布优化两个角度解决,在LOL系列数据集上取得SOTA。
- MFmamba: A Multi-function Network for Panchromatic Image Resolution Restoration Based on State-Space Model
-
提出MFmamba多功能网络,基于UNet++骨架结合Mamba上采样模块(MUB)、双池化注意力(DPA)和多尺度混合交叉块(MHCB),仅使用全色(PAN)图像输入即可同时实现超分辨率、光谱恢复及联合SR与着色三种任务。
- RefiDiff: Progressive Refinement Diffusion for Efficient Missing Data Imputation
-
提出 RefiDiff 四阶段框架(预处理→warm-up→扩散→polish),首次将 predictive 和 generative 缺失值填补范式渐进统一,结合 Mamba-based denoising 在 9 个数据集上取得 SOTA,速度比 DIFFPUTER 快 4 倍。
- SD-PSFNet: Sequential and Dynamic Point Spread Function Network for Image Deraining
-
提出基于动态 PSF 机制的级联 CNN 去雨网络 SD-PSFNet,通过多尺度可学习 PSF 字典建模雨滴光学效应,配合自适应门控融合的序列化修复架构,在 Rain100H 达 33.12 dB、RealRain-1k-L 达 42.28 dB 均为 SOTA,对比基线 MPRNet 累计提升 5.04 dB(13.5%)。
- SpatioTemporal Difference Network for Video Depth Super-Resolution
-
基于视频深度超分辨率(VDSR)中空间非光滑区域和时间变化区域呈长尾分布的统计发现,提出 STDNet,通过空间差异分支(学习空间差异表示进行帧内 RGB-D 自适应聚合)和时间差异分支(利用时间差异表示在变化区域进行运动补偿),在 TarTanAir 数据集上 ×16 超分 RMSE 从 112.04cm 降至 96.80cm,平均超越 SOTA 方法 27.6%-32.6%。
- Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment
-
提出 TIG-SVQA 框架,首次将时间不一致性(temporal inconsistency)作为显式引导信号融入超分辨率视频质量评估,设计了不一致性高亮空间模块(IHSM)和不一致性引导时间模块(IGTM),在 SFD、MFD 和 Combined-VSR 三个数据集上 SRCC 分别达到 0.950、0.942、0.939,全面超越现有 IQA/VQA 方法。
- TMDC: A Two-Stage Modality Denoising and Complementation Framework for Multimodal Sentiment Analysis
-
提出 TMDC 两阶段框架,第一阶段在完整数据上学习去噪的 modality-specific 和 modality-common 表示,第二阶段利用可用模态的去噪表示补全缺失模态,首次同时处理 MSA 中的噪声和缺失问题。
🛰️ 遥感 (7)¶
- Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments
-
将多个预训练感知模型在新环境中的冲突预测建模为一致性溯因推理问题,通过逻辑程序编码各模型的错误检测规则和领域约束,寻找在保持不一致率低于阈值的同时最大化预测覆盖率的最优假设,在15个航拍测试集上平均F1提升13.6%。
- Debiasing Machine Learning Predictions for Causal Inference Without Additional Ground Truth Data
-
针对ML卫星贫困预测因均值回归导致因果处理效应衰减的问题,提出两种无需新标注数据的后处理校正方法——线性校准校正(LCC)和Tweedie局部去收缩——使同一预测地图可在多个下游因果试验中复用("一图多试"范式),Tweedie校正在模拟和DHS真实数据上实现近无偏的处理效应估计。
- M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction
-
提出 M3SR,一种基于 Mamba 的多尺度多感知架构,通过空间-频率-光谱三分支并行融合结合 U-Net 多尺度结构,以 2.17M 参数和 100.9G FLOPs 的低计算代价在四个光谱重建基准上超越现有 SOTA 方法。
- Machine Learning for Sustainable Rice Production: Region-Scale Monitoring of Water-Saving Practices in Punjab, India
-
提出维度分类方法将水稻节水实践识别解耦为播种维度(DSR vs PTR)和灌溉维度(AWD vs CF)两个独立二分类任务,仅使用Sentinel-1 SAR影像实现播种F1=0.80和灌溉F1=0.74,并在旁遮普邦300万+地块上进行大规模推理,地区级采纳率与政府统计高度相关(Spearman ρ=0.69)。
- Perceive, Act and Correct: Confidence Is Not Enough for Hyperspectral Classification
-
提出 CABIN 框架,通过认知感知-行动-纠正的闭环学习机制,利用认识论不确定性(epistemic uncertainty)替代单纯的置信度来指导半监督高光谱图像分类中的样本选择与伪标签管理,在仅用 75% 标注的情况下显著超过全标注基线。
- TDCNet: Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving IRSTD
-
提出 TDCNet,将时间差分和 3D 卷积融合为统一的时间差分卷积 (TDC),通过重参数化实现推理零额外开销,配合 TDC 引导的时空注意力,在自建 IRSTD-UAV 数据集上 F1 达 97.12%(AP50 93.83%),同时发布 15,106 帧真实红外无人机数据集。
- UniABG: Unified Adversarial View Bridging and Graph Correspondence for Unsupervised Cross-View Geo-Localization
-
提出双阶段无监督跨视角地理定位框架 UniABG,通过对抗式视角桥接 (VAAB) 消除无人机/卫星视角域差距,再用异构图过滤校准 (HGFC) 净化跨视角关联,在 University-1652 上 Satellite→Drone AP 达 93.29%,超过多数有监督方法。
🧑 人体理解 (20)¶
- AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification
-
针对同卵双胞胎人脸验证这一极端细粒度识别挑战,提出 AHAN 多流架构,通过层次交叉注意力 (HCA) 对语义面部区域做多尺度分析、面部不对称注意力模块 (FAAM) 捕获左右脸差异签名、以及双胞胎感知配对交叉注意力 (TA-PWCA) 训练正则化,在 ND_TWIN 数据集上将双胞胎验证精度从 88.9% 提升至 92.3%(+3.4%)。
- CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning
-
首次利用 CLIP 提取面部细粒度语义属性嵌入来辅助人脸模板反演(FTI),通过跨模态特征交互网络将泄露模板与属性嵌入融合并投影到 StyleGAN 潜空间,生成身份一致且属性细节更丰富的人脸图像,在识别准确率、属性相似度和跨模型攻击迁移性上均超越 SOTA。
- CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation
-
提出 CoordAR,将单参考视图 6D 位姿估计中的 3D-3D 对应关系建模为离散 token 的自回归生成问题,通过坐标图 token 化、模态解耦编码和自回归 Transformer 解码器,在多个基准上显著超越现有单视图方法,并对对称、遮挡等挑战场景展现强鲁棒性。
- Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis
-
提出 Facial-R1,一个三阶段对齐训练框架(SFT → RL → 数据合成),通过将 AU 和情绪标签作为可验证奖励信号来对齐 VLM 的推理过程与情绪识别结果,在 8 个基准上达到 SOTA,并构建了 FEA-20K 数据集。
- GazeInterpreter: Parsing Eye Gaze to Generate Eye-Body-Coordinated Narrations
-
提出 GazeInterpreter,一种基于 LLM 的层次化框架,通过符号化眼动解析器将原始注视信号转化为文本叙述,再与身体运动叙述整合生成眼-体协调描述,并通过自我纠正循环迭代优化,显著提升文本驱动的运动生成、动作预测和行为摘要等下游任务的性能。
- Generating Attribute-Aware Human Motions from Textual Prompt
-
提出 AttrMoGen 框架,通过基于结构因果模型(SCM)的因果信息瓶颈将动作语义与人体属性(年龄、性别等)解耦,生成属性感知的人体运动,并构建了首个包含广泛属性标注的大规模文本-运动数据集 HumanAttr。
- Improving Sparse IMU-based Motion Capture with Motion Label Smoothing
-
提出 Motion Label Smoothing,将经典 label smoothing 从分类任务适配到稀疏IMU运动捕捉中,通过融合骨骼结构感知的Perlin噪声作为平滑标签,在不修改模型架构的前提下以即插即用方式提升三种SOTA方法在四个数据集上的精度,GlobalPose在TotalCapture上SIP误差降低20.41%。
- KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals
-
提出 KineST,一种运动学引导的状态空间模型,通过运动学树双向扫描策略和混合时空表征学习,从头显稀疏信号高效重建全身运动,在精度和时序一致性上均超越 SOTA。
- mmPred: Radar-based Human Motion Prediction in the Dark
-
首次将毫米波雷达引入人体运动预测(HMP)任务,提出mmPred——基于扩散模型的框架,通过双域历史运动表示(时域姿态细化TPR + 频域主导运动FDM)和全局骨骼关系Transformer(GST),有效抑制雷达特有的噪声和时序不一致性,在mmBody和mm-Fi数据集上分别超越SOTA方法8.6%和22%。
- Modality-Aware Bias Mitigation and Invariance Learning for Unsupervised Visible-Infrared Person Re-Identification
-
针对无监督可见光-红外行人重识别(USVI-ReID)中跨模态关联不可靠的核心问题,提出模态感知的 Jaccard 距离修正和"分裂-对比"不变性学习策略,通过消除模态偏差实现可靠的全局跨模态聚类和特征对齐,在 SYSU-MM01 和 RegDB 上达到 SOTA。
📹 视频理解 (27)¶
- APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
-
提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。
- BAT: Learning Event-based Optical Flow with Bidirectional Adaptive Temporal Correlation
-
提出双向自适应时序相关性(BAT)框架,将事件相机的时序密集运动线索转化为空间密集线索,实现高精度事件光流估计,在 DSEC-Flow 基准上排名第一。
- Causality Matters: How Temporal Information Emerges in Video Language Models
-
通过系统性消融实验揭示VideoLM的时序理解能力并非来源于位置编码(PE),而是由因果注意力掩码的序列敏感性产生——时序信息沿"帧间交互→末帧聚合→query融合"的因果路径逐层构建,并据此提出两种无损推理加速策略。
- EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
-
提出 EmoVid,首个面向艺术化/非写实内容的大规模多模态情绪视频数据集(22,758 个视频片段),覆盖动画、电影和表情贴纸三种类型,并通过微调 Wan2.1 模型展示了情绪条件化视频生成的有效性,在情绪准确率指标上显著优于基线。
- Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction
-
本文提出 CACMI 框架,通过显式时序-语义建模解决密集视频描述任务中的两个基本限制(时序建模不足和模态鸿沟),使用跨模态帧聚合(CFA)提取时序一致的事件语义,再用上下文感知特征增强(CFE)桥接视觉-文本模态差距,在 ActivityNet Captions 和 YouCook2 上达到 SOTA。
- FineTec: Fine-Grained Action Recognition Under Temporal Corruption via Skeleton Decomposition and Sequence Completion
-
提出 FineTec 框架,通过上下文感知序列补全、基于生物先验的骨架空间分解、物理驱动的加速度建模三个模块,在时序损坏条件下实现鲁棒的细粒度骨架动作识别。
- FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
-
本文提出FineVAU基准,将视频异常理解 (VAU) 分解为事件(What)、实体(Who)、地点(Where)三个维度,设计了与人类感知高度对齐的FV-Score评估指标,并通过全自动LVLM辅助管线构建了FineW³数据集,实验揭示当前LVLM在细粒度异常事件感知上的关键短板。
- HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection
-
本文提出 HeadHunt-VAD,通过在冻结的多模态大模型(MLLM)内部系统性地搜索出对异常敏感且稳定的稀疏注意力头集合,绕过文本输出的信息损失,用轻量级分类器实现无需微调的高效视频异常检测,在 UCF-Crime 和 XD-Violence 上取得 tuning-free 方法 SOTA。
- Learning Time in Static Classifiers
-
提出 Support-Exemplar-Query (SEQ) 学习框架,通过损失函数设计(而非架构修改)为标准前馈分类器注入时序推理能力,利用软DTW将预测序列与类别时序原型对齐,在细粒度图像分类和视频异常检测上均取得提升。
- Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment
-
本文提出DSANet,通过自引导正常模式建模(SG-NM,粗粒度)和解耦对比语义对齐(DCSA,细粒度)从两个层面增强弱监督视频异常检测中正常与异常特征的可区分性,在XD-Violence上AP达86.95%(+1.14%),在UCF-Crime细粒度mAP达13.01%(+3.39%),均为SOTA。
🚗 自动驾驶 (56)¶
- A Data-Driven Model Predictive Control Framework for Multi-Aircraft TMA Routing Under Travel Time Uncertainty
-
提出闭环 MPC 框架用于樟宜机场 50 海里半径终端区(TMA)的多飞机无冲突路径规划与调度,集成 XGBoost 预测 TMA 边界到达时间、MILP 优化(含路径选择/速度调整/等待控制/安全间隔约束)和滚动时域仿真器,在峰值 36 架/小时拥堵场景下实现 7 倍计算加速且 Monte Carlo 鲁棒性验证中可行性远优于 Dijkstra 基线。
- AI-based Traffic Modeling for Network Security and Privacy: Challenges Ahead
-
一篇面向网络安全与隐私(NetS&P)任务的 AI 流量建模综述与展望,系统梳理了异常检测、攻击分类、IoT 设备识别、网站指纹攻击等任务的 AI 方案,并深入讨论了数据质量、实际部署、可解释性和基础模型四大前沿挑战。
- Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning
-
首次研究开放词汇目标检测器(OVOD)的后门攻击,提出 TrAP(Trigger-Aware Prompt tuning),通过联合优化视觉和文本分支的 learnable prompt 与可学习触发器,在不修改模型权重的前提下注入高成功率后门。
- Beta Distribution Learning for Reliable Roadway Crash Risk Assessment
-
提出基于 Beta 分布学习的地理空间深度学习框架,利用多尺度卫星图像预测道路致命事故风险的完整概率分布(而非点估计),在 Recall 上提升 17-23%,并通过分布形状自然表达不确定性。
- CaTFormer: Causal Temporal Transformer with Dynamic Contextual Fusion for Driving Intention Prediction
-
提出 CaTFormer,通过因果时序 Transformer 显式建模驾驶员行为与环境上下文之间的因果交互,在 Brain4Cars 数据集上以 98.6% F1 达到 SOTA。
- CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking
-
提出CompTrack——首个同时解决LiDAR点云中空间冗余和信息冗余双重挑战的3D单目标跟踪框架:空间前景预测器(SFP)基于信息熵过滤背景噪声,信息瓶颈引导的动态Token压缩(IB-DTC)模块利用在线SVD估计有效秩并将前景压缩为紧凑代理token;在nuScenes和Waymo上达到SOTA,同时以90 FPS实时运行。
- Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification
-
系统识别出行人ReID对抗防御的两大独特挑战(模型偏差和复合泛化需求),提出去偏双不变防御框架:数据平衡阶段用扩散模型重采样缓解偏差,双对抗自元防御阶段通过最远负样本扩展软化的度量对抗训练和对抗增强的自元学习实现对未见ID和未见攻击的双重泛化。
- AdaptiveAD: Decoupling Scene Perception and Ego Status for End-to-End Autonomous Driving
-
识别出端到端自动驾驶中ego status过度依赖的架构根源(BEV编码器中ego status的过早融合),提出AdaptiveAD双分支架构:场景驱动分支(去除ego status)和自我驱动分支独立生成决策,再通过场景感知融合模块自适应整合,配合路径注意力、BEV单向蒸馏和自回归在线建图辅助任务,在nuScenes上达到SOTA规划性能。
- Differentiable Semantic Meta-Learning Framework for Long-Tail Motion Forecasting in Autonomous Driving
-
提出 SAML 框架,首次给出运动预测中"长尾性"的可微语义定义——通过 5 类内在/交互属性量化稀有度,经贝叶斯尾部感知器融合为连续 Tail Index 驱动 MAML 元学习适配,在 nuScenes worst-case top 1% 上 minADE 比次优低 17.2%。
- Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection
-
提出 MonoDLGD,通过根据实例级检测难度自适应扰动并重建 ground-truth 标签,为单目 3D 检测提供显式几何监督,在 KITTI 上取得 SOTA。
🤖 机器人/具身智能 (30)¶
- 10 Open Challenges Steering the Future of Vision-Language-Action Models
-
系统梳理 VLA 模型面临的 10 大开放挑战——多模态感知、鲁棒推理、高质量训练数据、评估、跨机器人动作泛化、资源效率、全身协调、安全保障、Agent 框架、人机协作——并讨论空间理解、世界动力学建模、后训练和数据合成四大新兴趋势。
- A Computable Game-Theoretic Framework for Multi-Agent Theory of Mind
-
提出基于 Poisson 认知层次(cognitive hierarchy)的博弈论框架,通过 Gamma-Poisson 共轭贝叶斯更新实现可计算的多智能体 Theory of Mind,在避免 POMDP 不可判定性的同时支持递归式有限理性决策与在线信念修正。
- Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward
-
AC3 提出了一个直接学习连续动作序列(action chunk)的 actor-critic 框架,通过"仅从成功轨迹更新 actor"的非对称更新规则和基于自监督锚点的内在奖励来稳定稀疏奖励下的长时域机器人操作学习,在 BiGym 和 RLBench 的 25 个任务上取得优于现有方法的成功率。
- Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation
-
针对开放词汇移动操控中机器人基座选位问题,提出一种零样本框架,通过构建跨模态表征(Affordance RGB + Obstacle Map+)将语义affordance线索投射到障碍物地图上,再用粗到细迭代优化平衡语义和几何约束,在5个操控任务上达到85%成功率,大幅超越几何规划器和纯VLM方法。
- Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning
-
提出CCoL框架,通过NeuralODE驱动的多模态连续协同学习(MCC)和双向交叉注意力的语义-物理对齐(CSA),在Behavioral Cloning中同时解决动作序列的物理不连续性和语义-物理失配问题,在三个仿真平台上平均相对提升8.0%,双臂插入任务最高达19.2%。
- Coordinated Humanoid Robot Locomotion with Symmetry Equivariant Reinforcement Learning Policy
-
提出 SE-Policy,将严格的对称等变性(actor)和对称不变性(critic)直接嵌入神经网络架构,无需额外超参数即可使人形机器人产生时空协调的自然运动,速度跟踪误差相比 DreamWaQ 降低 40%,并成功部署到 Unitree G1 实体机器人。
- Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling
-
提出 GRM 框架,通过模态内显著性/粒度感知适配器和基于高斯混合的区域级不确定性建模,实现鲁棒的细粒度图文对齐,在 Flickr30K 和 MS-COCO 上取得 SOTA。
- Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment
-
提出 PKDA 框架,通过渐进式运动学-动力学对齐,将人手操作视频自动转化为多指灵巧手的高质量操作轨迹,平均迁移成功率达 73%。
- Distributionally Robust Online Markov Game with Linear Function Approximation
-
本文研究具有线性函数近似的在线分布鲁棒马尔可夫博弈,首次识别了该设定下的学习困难性,并提出 DR-CCE-LSI 算法,在特定特征映射条件下实现了关于特征维度 \(d\) 的极小极大最优样本复杂度。
- From Woofs to Words: Towards Intelligent Robotic Guide Dogs with Verbal Communication
-
本文提出了一套面向导盲机器犬的对话系统,利用 LLM 和任务规划器实现 计划语言化(Plan Verbalization) 和 场景语言化(Scene Verbalization),通过多轮自然语言对话辅助视障用户完成导航决策,并通过真人用户研究和仿真实验验证了系统的有效性。
🎮 强化学习 (58)¶
- A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs
-
本文提出了一个基于多维目标空间的 LLM 可操控性(steerability)评估框架,将 steering error 分解为校准偏差(miscalibration)和副作用(side effects/orthogonality),在文本改写任务上发现即使是最强的 LLM 也会产生严重副作用,prompt engineering 无效、best-of-N 采样代价高、RL 微调有改善但仍未彻底解决。
- A Learning Framework For Cooperative Collision Avoidance of UAV Swarms Leveraging Domain Knowledge
-
提出 reMARL 框架,利用图像处理领域知识(active contour model)设计多智能体强化学习奖励函数,实现无人机集群的协作避碰,相比传统元启发式方法反应时间缩短 98.75%、能耗降低 85.37%。
- A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses
-
提出 MACO(Multi-Agent Conversational Online Learning),将 LLM 回复选择建模为多 Agent 对话式赌博机问题,通过本地 Agent 淘汰低质量回复 + 云端自适应关键词对话收集偏好,实现近似最优的在线回复评估和用户偏好对齐。
- Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping
-
提出一种测试时策略塑形方法,通过轻量级伦理属性分类器在推理阶段插值修改预训练 RL 智能体的动作概率分布,无需重训练即可实现对多种伦理属性的细粒度行为引导。
- Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning
-
提出 Behaviour Policy Optimization (BPO),通过优化一个专用行为策略来采集离策略数据,使得回报估计的方差可证明低于在策略采集,从而提升 REINFORCE 和 PPO 的样本效率与稳定性。
- Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning
-
通过动力系统分析证明:在近似贪心探索策略下,非单调值分解Q学习中所有违反IGM一致性的零损失解都是不稳定鞍点,只有IGM一致解才是稳定吸引子,因此无需单调性约束即可可靠收敛到最优解。
- Beyond the Lower Bound: Bridging Regret Minimization and Best Arm Identification in Lexicographic Bandits
-
提出两种消除式算法 LexElim-Out 和 LexElim-In,首次在词典序多目标赌博机中同时解决遗憾最小化(RM)和最优臂识别(BAI)问题,其中 LexElim-In 通过跨目标信息共享突破了单目标问题的已知下界。
- Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback
-
提出 MetaCUB——一种双层上下文赌博机框架,在延迟反馈、动态人群、冷却约束和公平性要求下实现个体化资源分配,元层优化子群预算分配保证公平,基层利用 UCB 策略选择最有潜力的个体。
- ChartEditor: A Reinforcement Learning Framework for Robust Chart Editing
-
提出 ChartEditVista 基准(7,964 样本、31 种图表类型)和 ChartEditor 模型,通过 GRPO 强化学习框架结合新颖的 rendering reward,仅用 3B 参数即在图表编辑任务上超越 GPT-4o 和多个 72B 级模型。
- CHDP: Cooperative Hybrid Diffusion Policies for RL in Parametric Environments
-
将混合动作空间问题建模为两个agent的全合作博弈,分别用离散和连续扩散策略生成动作,通过顺序更新和Q引导码本解决策略冲突与高维可扩展性问题,成功率最高提升19.3%。
🎁 推荐系统 (27)¶
- Align³GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation
-
提出统一三层对齐框架 Align³GR,在 token 级(双端 SCID)、行为建模级(多任务 SFT)和偏好级(渐进式 DPO)系统性弥合 LLM 与推荐系统之间的语义-行为鸿沟。
- AutoPP: Towards Automated Product Poster Generation and Optimization
-
提出 AutoPP,首个将商品海报自动生成与基于 CTR 反馈的自动优化统一到一个框架中的流水线,通过 unified design module 联合设计背景/文字/排版,element rendering module 高效可控地生成海报,并利用 Isolated DPO (IDPO) 实现元素级别的点击率优化。
- Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary
-
提出 BEAT 框架,通过向量量化自编码将用户/物品的行为表征离散化为可解释的 behavior tokens,结合多层级语义监督将协同过滤信号对齐到冻结 LLM 的语义空间,实现零样本可解释推荐。
- Bid Farewell to Seesaw: Towards Accurate Long-tail Session-based Recommendation via Dual Constraints of Hybrid Intents
-
提出HID框架,通过属性感知的谱聚类构建混合意图来区分会话相关与无关的尾部物品,并设计针对长尾和准确性的双约束损失(ICLoss),实现长尾推荐与准确性的"双赢",打破传统方法中两者此消彼长的"跷跷板"困境。
- CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
-
提出 CroPS 数据引擎,通过 query 改写行为、推荐系统交互、LLM 世界知识三个视角扩充正样本集合,配合分层标签分配(HLA)和 H-InfoNCE 损失函数,打破工业级稠密检索系统中的信息茧房效应,已在快手搜索全量部署。
- Evaluating LLMs for Police Decision-Making: A Framework Based on Police Action Scenarios
-
提出 PAS(Police Action Scenarios)评估框架,一个面向警务场景的 LLM 评估体系,涵盖场景定义、参考答案构建、LLM 响应生成、核心指标提取和性能解读五个阶段,基于 8000+ 韩国警察官方文件构建评估数据集,发现商用 LLM(GPT-4、Gemini、Claude)在警务任务上显著低于参考答案,尤其在事实性和逻辑正确性方面。
- FreqRec: Exploiting Inter-Session Information with Frequency-enhanced Dual-Path Networks for Sequential Recommendation
-
提出FreqRec双路径架构,通过batch维和时间维两条频域路径分别捕获跨session群体节律和用户个体细粒度兴趣,并引入频域一致性损失显式对齐预测与真实频谱,在三个Amazon数据集上NDCG@10最高提升7.38%。
- From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization
-
提出 GenCDR 框架,通过领域自适应语义分词和跨域自回归推荐两大模块,首次将生成式语义 ID 范式引入 LLM 驱动的跨域推荐,有效解决传统方法中 item ID 不可迁移和领域个性化建模不足的问题。
- Generalization Bounds for Semi-supervised Matrix Completion with Distributional Side Information
-
提出首个半监督矩阵补全学习范式:假设采样分布 \(P\) 和真实矩阵 \(G\) 共享低秩子空间,给定大量未标注数据 \(M\) 和少量标注数据 \(N\),证明泛化误差可分解为 \(\tilde{O}(\sqrt{nd/M}) + \tilde{O}(\sqrt{dr/N})\) 两个独立项,在 Douban 和 MovieLens 数据集上显著优于仅用显式反馈的基线。
- Hard vs. Noise: Resolving Hard-Noisy Sample Confusion in Recommender Systems via Large Language Models
-
提出 LLMHNI 框架,利用 LLM 产生的语义相关性和逻辑相关性两类辅助信号,解决推荐系统中困难样本与噪声样本难以区分的问题,显著提升去噪推荐性能。
🔄 自监督/表示学习 (16)¶
- BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition
-
提出 BCE3S,一种基于二元交叉熵(BCE)的三方协同学习框架,将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起,通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应,在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。
- CATFormer: When Continual Learning Meets Spiking Transformers With Dynamic Thresholds
-
提出 CATFormer,一种基于脉冲视觉 Transformer 的无数据重放持续学习框架,通过上下文自适应的动态放电阈值实现任务特定的神经元兴奋性调节,在长达 100 个任务序列中不仅不遗忘反而准确率提升("逆向遗忘"现象)。
- Expandable and Differentiable Dual Memories with Orthogonal Regularization for Exemplar-free Continual Learning
-
提出 EDD(Expandable and Differentiable Dual Memory),一种无需存储旧样本的持续学习方法,通过可微分的共享记忆和任务特定记忆将数据分解为可复用的子特征,结合记忆扩展-剪枝和正交正则化机制,在 CIFAR-10/100 和 Tiny-ImageNet 上超越 14 种 SOTA 方法,最终准确率分别达到 55.13%、37.24% 和 30.11%。
- Explanation-Preserving Augmentation for Semi-Supervised Graph Representation Learning
-
提出EPA-GRL(Explanation-Preserving Augmentation),利用少量标签训练的GNN explainer识别图的语义子图(explanation subgraph),增强时只扰动非语义部分(marginal subgraph),实现语义保持的图增强,在6个benchmark上显著优于语义无关的随机增强方法。
- FedGRPO: Privately Optimizing Foundation Models with Group-Relative Rewards from Domain Clients
-
提出 FedGRPO,将大模型优化重新定义为基于奖励的评估过程,通过能力感知的专家选择和联邦组相对策略优化(仅传输标量奖励信号),实现了隐私保护且通信效率极高的联邦基础模型优化,在数学推理和问答任务上性能接近甚至超越集中式 GRPO。
- FineXtrol: Controllable Motion Generation via Fine-Grained Text
-
提出 FineXtrol 框架,利用带时间标注的细粒度身体部位文本描述作为控制信号,通过双分支 ControlNet 架构和层级对比学习增强文本编码器的区分能力,实现高效、用户友好且精确的可控人体动作生成,在 HumanML3D 上多身体部位控制性能显著优于现有方法。
- From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models without Finetuning
-
提出 Transferable Video Attack (TVA),仅利用开源视频基础模型(VFM)的嵌入空间即可生成对抗扰动,无需任何下游任务知识便能有效攻击24个视频任务上的下游模型和多模态LLM。
- GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery
-
基于 Neural Collapse 理论,使用固定等角紧框架(ETF)分类器替代动态分类器,通过监督对齐和置信度引导的无监督对齐实现持续泛化类别发现,在四个基准上遗忘率降低 16.1%、新类发现提升 3.2%。
- HiLoMix: Robust High- and Low-Frequency Graph Learning Framework for Mixing Address Association
-
提出 HiLoMix,一种针对混币地址关联任务的鲁棒图学习框架,通过异质属性混合交互图(HAMIG)、频率感知图对比学习和基于置信度的标签加权监督学习,分别解决图稀疏、标签稀缺和标签噪声三大挑战,在 F1、AUC、MRR 上分别超越次优基线 5.69%、7.34% 和 15.61%。
- Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision
-
提出 UrbanLN 框架,通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制,改善基于 LLM 生成描述的城市区域表征学习。
📐 优化/理论 (21)¶
- A Distributed Asynchronous Generalized Momentum Algorithm Without Delay Bounds
-
提出一种完全异步(totally asynchronous)的广义动量(Generalized Momentum)分布式优化算法,无需假设通信/计算延迟的上界即可保证线性收敛,在 Fashion-MNIST 分类任务上比梯度下降快 71%、比 Heavy Ball 快 41%、比 Nesterov 加速梯度法快 19%。
- A Unified Convergence Analysis for Semi-Decentralized Learning: Sampled-to-Sampled vs. Sampled-to-All Communication
-
本文在统一的收敛分析框架下,首次系统比较了半去中心化联邦学习中两种服务器-设备通信原语(S2S仅返回被采样设备 vs. S2A广播给所有设备),揭示了S2S在高组间异质性下更优、S2A在低异质性下更优的不同regime,并给出了实用的系统配置指南。
- Beyond the Mean: Fisher-Orthogonal Projection for Natural Gradient Descent in Large Batch Training
-
提出 Fisher-Orthogonal Projection (FOP),通过在 Fisher 度量下对子批次梯度差做正交投影来补充方差信息,使二阶优化器 KFAC 在超大 batch 训练中保持有效,实现最高 ×7.5 的加速。
- Bridging Synthetic and Real Routing Problems via LLM-Guided Instance Generation and Progressive Adaptation
-
提出 EvoReal 框架,利用 LLM 驱动的进化搜索生成结构上接近真实世界的 VRP 合成实例,再通过两阶段渐进微调策略将预训练神经求解器适配到真实基准,在 TSPLib (1.05% gap) 和 CVRPLib (2.71% gap) 上大幅超越已有神经求解器。
- Co-Layout: LLM-driven Co-optimization for Interior Layout
-
提出 Co-Layout 框架,利用 LLM 从自然语言需求中提取结构化约束,再通过基于网格的整数规划(IP)联合优化房间布局与家具摆放,辅以粗到精求解策略提升效率,显著优于现有两阶段方案。
- Convex Clustering Redefined: Robust Learning with the Median of Means Estimator
-
本文将 Median of Means (MoM) 估计器融入凸聚类框架,提出 COMET 算法,通过随机分箱与中位数聚合实现对噪声和离群点的鲁棒性,同时无需预知簇数 \(k\),理论上证明了弱一致性,实验在多个真实数据集上显著超越 k-means、MoM k-means、凸聚类等六种基线方法。
- Cost-Minimized Label-Flipping Poisoning Attack to LLM Alignment
-
首次从理论上分析了在 RLHF/DPO 对齐过程中,通过翻转偏好标签来引导 LLM 策略走向攻击者目标所需的最小成本,将其形式化为凸优化问题并推导了成本的上下界,进而提出 PCM(Poisoning Cost Minimization)后处理方法,可在保持投毒效果的同时显著减少标签翻转数量。
- Data Heterogeneity and Forgotten Labels in Split Federated Learning
-
系统研究了 Split Federated Learning 中数据异构导致的灾难性遗忘现象(尤其是 server 端处理顺序造成的 intra-round 遗忘),并提出基于 multi-head 的 Hydra 方法,将 part-2 的最后层分组训练再聚合,显著降低标签间性能差距(PG 最高降低 75.4%)。
- ECPv2: Fast, Efficient, and Scalable Global Optimization of Lipschitz Functions
-
提出ECPv2算法,通过三项创新(自适应下界、Worst-\(m\) memory、固定随机投影),将Lipschitz函数全局优化的运行时从\(\Omega(n^2 d)\)降至\(\Omega(n(m+d)\log n)\),同时保持与minimax下界匹配的\(O(n^{-1/d})\) regret收敛速率。
- Efficient and Reliable Hitting-Set Computations for the Implicit Hitting Set Approach
-
针对隐式击中集框架中击中集组件依赖商用IP求解器带来的数值不稳定问题,提出基于伪布尔推理和随机局部搜索的替代方案及混合策略,实现了首个可认证的IHS计算并在1786个基准实例上展示了效率与可靠性的有效权衡。
📐 学习理论 (3)¶
- A Switching Framework for Online Interval Scheduling with Predictions
-
针对不可撤销的在线区间调度问题,提出 SemiTrust-and-Switch 框架和 SmoothMerge 随机算法,通过在信任预测和经典贪心算法之间切换/融合,在预测准确时趋近最优(一致性),预测错误时性能优雅退化(鲁棒性和平滑性),并证明了该框架在特定实例上的紧性。
- Generalizing Analogical Inference from Boolean to Continuous Domains
-
从基础理论层面重新审视类比推理:首先构造反例证明布尔域上经典泛化界失效,然后提出基于参数化广义均值的统一类比推理框架,将离散分类扩展到连续回归域。
- Streaming Generated Gaussian Process Experts for Online Learning and Control: Extended Version
-
提出 SkyGP(Streaming Kernel-induced Progressively Generated Expert GP),通过核距离驱动的渐进式专家生成和时间感知可配置聚合处理流数据,继承精确 GP 的学习保证同时保持有界计算复杂度,在基准测试和实时控制实验中全面超越 SOTA。
🔗 因果推理 (7)¶
- Causal Inference Under Threshold Manipulation: Bayesian Mixture Modeling and Heterogeneous Treatment Effects
-
提出 BMTM/HBMTM 贝叶斯混合模型框架,在消费者策略性操纵消费额以达到奖励阈值的场景下,通过将观测分布拆解为 bunching 与 non-bunching 两个子分布,准确估计阈值因果效应及跨子群的异质性处理效应。
- CaDyT: Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis
-
提出 CaDyT,结合高斯过程连续时间动力学建模(Adams-Bashforth 积分器实现精确推断)和 MDL 最小描述长度原则进行结构搜索,同时解决不规则采样和因果结构识别两个挑战,在双质点弹簧/菱形图/Rössler 振荡器上大幅超越所有基线(AUPRC 0.79 vs 次优 0.39)。
- From Theory of Mind to Theory of Environment: Counterfactual Simulation of Latent Environmental Dynamics
-
本文提出"环境理论"(Theory of Environment)概念,认为人类可能通过与心智理论(Theory of Mind)共享的计算机制来推断环境中隐含的动态规律,从而扩展运动探索的维度空间并促进行为创新。
- I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables
-
提出 I-CAM-UV 方法,通过对多个变量集不同的 CAM-UV 因果图结果进行一致性约束枚举,恢复因未观测变量而丢失的因果关系,并设计基于不一致代价单调性的最优优先搜索算法高效求解。
- KTCF: Actionable Recourse in Knowledge Tracing via Counterfactual Explanations for Education
-
提出 KTCF,一种面向知识追踪(KT)的反事实解释生成方法,通过考虑知识概念间关系生成稀疏且可操作的反事实解释,并将其后处理为顺序化的教学指令,在有效性、稀疏性和可操作性指标上全面超越基线方法。
- Learning Subgroups with Maximum Treatment Effects without Causal Heuristics
-
在 SCM 框架下证明最大处理效应子群必须具有同质点效应(定理1),在分区模型假设下证明最优子群发现可化简为标准监督学习(定理2),用 CART+Gini 指数即可实现——在 77 个 ACIC-2016 半合成数据集上均值处理效应 10.54(vs 次优 7.84),51.9% 排名第一。
- Sparse Additive Model Pruning for Order-Based Causal Structure Learning
-
提出 SARTRE 框架,利用随机化树嵌入与组稀疏回归学习稀疏加性模型,替代 CAM-pruning 中基于假设检验的冗余边修剪,在基于拓扑序的因果结构学习中实现显著加速且精度不降。
🔬 可解释性 (37)¶
- A Coherence-Based Measure of AGI
-
指出现有 AGI 评分用算术平均隐含"可补偿"假设(强项弥补弱项),提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\):在补偿性参数 \(p \in [-1, 1]\) 上积分,惩罚能力不均衡,暴露被算术平均掩盖的瓶颈。
- Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval
-
提出 DEMR 框架,将深度证据回归(DER)引入视频时刻检索任务,通过 Reflective Flipped Fusion 模块缓解模态不平衡、通过 Geom-regularizer 修复原始 DER 中不确定性估计的反直觉偏差,在标准和去偏数据集上均取得了显著提升。
- Attention as Binding: A Vector-Symbolic Perspective on Transformer Reasoning
-
本文提出将Transformer自注意力机制重新解释为向量符号架构(VSA)中的软绑定/解绑定算子——Query/Key定义角色空间、Value编码填充项、注意力权重实现可微解绑定、残差连接实现叠加——从而以代数视角统一解释LLM在符号推理中的能力与脆弱性,并提出显式绑定头、超维记忆层等VSA启发的架构改进方向。
- Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT
-
通过机械可解释性方法逆向工程 Video Vision Transformer(ViViT)的内部电路,揭示注意力头负责"收集证据"、MLP 模块负责"组合概念"的分工机制,证明模型在简单分类任务中隐藏了超越训练目标的语义知识。
- Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution
-
提出首个系统对比框架,在配对的冲突调解场景中直接比较人类与人格提示LLM的策略行为差异,发现LLM在人格-行为映射上与人类存在显著偏差,挑战了"人格提示即可代理人类行为"的假设。
- Concepts from Representations: Post-hoc Concept Bottleneck Models via Sparse Decomposition of Visual Representations
-
提出 PCBM-ReD,通过从预训练视觉编码器中自动提取概念、MLLM 标注/过滤、重建引导选择,再利用 CLIP 视觉-文本对齐将图像表示稀疏分解为概念嵌入的线性组合,构建事后概念瓶颈模型,在 11 个分类任务上达到 SOTA 精度且保持可解释性。
- CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution
-
构建包含15k对抗性QA样本的三级层次基准CrossCheck-Bench,通过7种原子能力和15个任务诊断VLM在多模态冲突解决中的组合推理失败,揭示从感知(L1)到推理(L3)的系统性性能衰退以及传统提示策略的局限性。
- Data Whitening Improves Sparse Autoencoder Learning
-
本文将经典稀疏编码中的 PCA 白化(whitening)引入现代稀疏自编码器(SAE)训练,通过理论分析和仿真证明白化能使优化景观更凸更各向同性,在 SAEBench 上的实验表明白化显著提升可解释性指标(Sparse Probing +7.3%、SCR +54%、TPP +372%),尽管重构质量略有下降。
- Distribution-Based Feature Attribution for Explaining the Predictions of Any Classifier
-
提出首个基于数据分布的特征归因方法 DFAX,通过比较目标实例在目标类与非目标类条件概率之差来量化特征重要性,首次给出特征归因的形式化定义,在10个数据集上显著优于SHAP/LIME等基线且速度快数个数量级。
- DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment
-
提出DR.Experts框架,利用DA-CLIP获取失真类型先验,通过差分精炼注意力机制(DSDM)将失真注意力与语义注意力分离以纯化失真特征,再通过动态失真加权模块(DDWM)按感知影响自适应加权各类失真特征,在5个BIQA基准上达到SOTA。
📦 模型压缩 (60)¶
- A Closer Look at Knowledge Distillation in Spiking Neural Network Training
-
针对ANN→SNN知识蒸馏中教师ANN连续特征/logits与学生SNN离散稀疏spike特征/logits之间分布差异被忽视的问题,提出基于显著性缩放激活图蒸馏(SAMD)和噪声平滑logits蒸馏(NLD)的CKDSNN框架,在CIFAR-10/100、ImageNet-1K和CIFAR10-DVS上均取得SNN训练的新SOTA。
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization
-
针对动态MoE-LoRA适配器推理延迟暴增(250%-950%)的问题,提出了一种token级预门控架构,只在第一层做一次全局路由决策,配合自研的SGMM融合CUDA内核将所有激活的LoRA适配器一次性合并进骨干网络,在保持精度的同时将解码延迟降低2.4倍。
- Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency
-
提出 Asymmetric Cross-modal Knowledge Distillation (ACKD) 新范式,通过 SemBridge 框架(包含自监督语义匹配 + 最优传输对齐两个即插即用模块)实现弱语义一致性条件下的跨模态知识蒸馏,使不同地理位置采集的多光谱(MS)图像能有效指导 RGB 图像的遥感场景分类。
- BD-Net: Has Depth-Wise Convolution Ever Been Applied in Binary Neural Networks?
-
本文提出 BD-Net,通过引入 1.58-bit 卷积和 pre-BN 残差连接,首次成功将深度可分离卷积(depth-wise convolution)应用于二值神经网络(BNN),在 ImageNet 上以 33M OPs 的极低计算量实现了 BNN 领域的新 SOTA,多个数据集上精度提升最高达 9.3 个百分点。
- Beyond Sharpness: A Flatness Decomposition Framework for Efficient Continual Learning
-
提出 FLAD 框架,将 sharpness-aware 扰动方向分解为梯度对齐分量与随机噪声分量,仅保留噪声分量进行正则化,结合零阶与一阶 sharpness 以极低额外开销提升持续学习的泛化能力。
- CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis
-
提出"micro-expert"概念将MoE层的输出分解为跨矩阵(up/gate/down_proj)的微专家线性组合,基于能量排序进行结构化剪枝(Camera-P)和混合精度量化(Camera-Q),在Deepseek-MoE-16B/Qwen2-57B/Qwen3-30B上20%-60%剪枝率全面超越NAEE和D²-MoE,且分析Qwen2-57B仅需单卡A100不到5分钟。
- Can You Tell the Difference? Contrastive Explanations for ABox Entailments
-
提出对比式ABox解释(Contrastive ABox Explanations)的形式化框架,用于回答"为什么a是C的实例而b不是"的问题,在描述逻辑知识库中同时考虑正向蕴涵和缺失蕴涵,并分析不同描述逻辑和优化准则下的计算复杂度。
- Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers
-
提出 Sequential Learning with Drift Compensation (SLDC),通过学习潜在空间转换算子(线性/弱非线性)来补偿预训练 ViT 在类增量学习中因序列微调导致的分布漂移,结合知识蒸馏后性能接近联合训练上界。
- Condensed Data Expansion Using Model Inversion for Knowledge Distillation
-
提出用浓缩数据集作为原型指导模型反演(MI)过程,通过特征对齐判别器使生成的合成数据与浓缩样本分布一致,从而扩展浓缩数据集用于知识蒸馏,在 CIFAR/ImageNet 上比标准 MI 蒸馏提升高达 11.4%。
- Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation
-
提出 CANEFT,通过互信息(MI)识别 LLM 中跨域一致对齐的神经元(consensus-aligned neurons),仅微调这些神经元即可实现多域机器翻译的高效适应,在 3 个 LLM、10 个翻译域上超越 LoRA 等 PEFT 基线,且无需额外参数。
🕸️ 图学习 (37)¶
- Adaptive Initial Residual Connections for GNNs with Theoretical Guarantees
-
提出自适应初始残差连接(Adaptive IRC),允许每个节点拥有基于初始特征学习的个性化残差强度,首次证明带激活函数的初始残差连接的 Dirichlet 能量有正下界(保证不过平滑),并提出基于 PageRank 的启发式变体在避免学习额外参数的同时达到可比甚至更优性能。
- Adaptive Riemannian Graph Neural Networks
-
提出 ARGNN 框架,为图上每个节点学习一个连续的、各向异性的对角黎曼度量张量,从而自适应地捕获图中不同区域(层级结构 vs 密集社区)的局部几何特性,统一并超越了固定曲率和离散混合曲率的几何 GNN 方法。
- Are Graph Transformers Necessary? Efficient Long-Range Message Passing with Fractal Nodes in MPNNs
-
提出分形节点(Fractal Nodes)增强 MPNN 的长距离消息传递:通过 METIS 图划分生成子图级聚合节点,结合低通+高通滤波器(LPF+HPF)与可学习频率参数 \(\omega\),使用 MLP-Mixer 实跨子图通信,在保持 \(O(L(|V|+|E|))\) 线性复杂度的同时达到甚至超越图 Transformer 的性能,获 AAAI Oral。
- Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing
-
提出 SerenQA 框架,首次形式化定义知识图谱问答中的"意外发现"(serendipity)任务,包含基于信息论的 RNS 度量、专家标注的药物重定位基准数据集和三阶段评估流水线,揭示当前 LLM 在检索任务上表现尚可但在意外发现探索上仍有巨大改进空间。
- Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
-
提出 Generative Semantic Workspace (GSW),一种神经科学启发的生成式记忆框架,为 LLM 构建结构化的情景记忆表示,在 EpBench 上 F1 达到 0.85,同时减少 51% 的查询时上下文 token。
- Beyond Fixed Depth: Adaptive Graph Neural Networks for Node Classification Under Varying Homophily
-
提出 AD-GNN,通过理论分析节点级别的同配/异配特性,为每个节点自适应分配不同的聚合深度,在统一框架中同时处理同配和异配图上的节点分类任务。
- BugSweeper: Function-Level Detection of Smart Contract Vulnerabilities Using Graph Neural Networks
-
提出 BugSweeper,通过构建函数级抽象语法图 (FLAG) 并设计两阶段 GNN 架构,实现无需专家规则的端到端智能合约漏洞检测,在重入攻击检测上 F1 达 98.57%。
- EchoLess: Label-Based Pre-Computation for Memory-Efficient Heterogeneous Graph Learning
-
Echoless-LP 通过分区聚焦的无回声传播(PFEP)消除标签预计算中多跳消息传递导致的训练标签泄露(回声效应),结合非对称分区方案(APS)和 PostAdjust 机制解决分区造成的信息损失和分布偏移,在保持内存高效的同时兼容任意消息传递方法,在多个异构图数据集上取得 SOTA 性能。
- Enhancing Logical Expressiveness in GNNs via Path-Neighbor Aggregation
-
PN-GNN 提出在条件消息传递的基础上聚合推理路径上的邻居节点嵌入,以即插即用的方式增强 GNN 的逻辑规则表达力(严格超越 C-GNN),同时避免标注技巧(labeling trick)对泛化能力的损害,在合成数据集和真实知识图谱推理任务上均取得提升。
- Feature-Centric Unsupervised Node Representation Learning Without Homophily Assumption
-
提出 FUEL 方法,通过以节点特征为中心的聚类方案自适应学习图卷积的使用程度,无需同配性假设即可在同配和非同配图上均获得高质量的无监督节点表示。
📈 时间序列 (31)¶
- A Theoretical Analysis of Detecting Large Model-Generated Time Series
-
首次提出时间序列大模型(TSLM)生成内容检测理论框架,通过收缩假说(Contraction Hypothesis)揭示TSLM生成序列在递归预测下不确定性指数级衰减的本质特征,据此设计UCE检测器,在32个数据集上In-Distribution AUROC达0.855,显著超越10种文本检测baseline。
- A Unified Shape-Aware Foundation Model for Time Series Classification
-
提出 UniShape——一个面向时间序列分类的基础模型,通过 shape-aware adapter 自适应聚合多尺度判别性子序列(shapelet),并结合原型对比预训练在实例和 shape 两个层面学习可迁移的 shapelet 表示,在 128 个 UCR 数据集上以 3.1M 参数达到 SOTA(平均准确率 87.08%),同时提供良好的分类可解释性。
- AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting
-
首个将神经延迟微分方程(NDDE)引入空气质量预测的框架,通过记忆增强注意力模块和物理引导的延迟演化函数,对污染物连续时间传播中的延迟效应进行建模,在三个数据集上平均 MAE 降低 8.79%。
- iTimER: Reconstruction Error-Guided Irregularly Sampled Time Series Representation Learning
-
提出 iTimER,利用模型自身的重建误差分布作为学习信号——从观测点估计误差分布后采样生成未观测时刻的伪观测值,通过 Wasserstein 距离对齐观测/伪观测区域的误差分布 + 对比学习,在不规则采样时序的分类、插值、预测任务上全面超越 SOTA。
- C3RL: Rethinking the Combination of Channel-independence and Channel-mixing from Representation Learning
-
提出 C3RL,基于 SimSiam 对比学习框架将通道独立(CI)和通道混合(CM)策略视为同一数据的两个转置视图构建正样本对,通过孪生网络联合表示学习和预测学习,将 CI 模型的最佳性能率从 43.6% 提升到 81.4%,CM 模型从 23.8% 提升到 76.3%。
- Coherent Multi-Agent Trajectory Forecasting in Team Sports with CausalTraj
-
提出CausalTraj——一种时序因果、基于似然的多智能体轨迹预测模型,通过逐步自回归建模智能体间时空交互,在NBA、篮球和橄榄球数据集上实现了联合指标(minJADE/minJFDE)的最优结果,同时保持有竞争力的单智能体精度。
- CometNet: Contextual Motif-guided Long-term Time Series Forecasting
-
提出 CometNet,通过从完整历史序列中提取循环出现的"上下文 motif"构建 motif 库,再用 motif 引导的 MoE 架构动态关联当前窗口与相关motif进行预测,突破了有限回看窗口的感受野瓶颈,在8个数据集上显著超越 TimeMixer++、iTransformer 等 SOTA。
- Counterfactual Explainable AI (XAI) Method for Deep Learning-Based Multivariate Time Series Classification
-
提出 CONFETTI,一种面向多变量时间序列(MTS)分类的多目标反事实解释方法,通过结合类激活图(CAM)引导的子序列提取与 NSGA-III 多目标优化,在预测置信度、稀疏性和接近度三个目标间实现最优平衡,在 7 个 UEA 数据集上全面超越现有方法。
- DeepBooTS: Dual-Stream Residual Boosting for Drift-Resilient Time-Series Forecasting
-
提出 DeepBooTS,通过偏差-方差分解理论证明加权集成可降低方差从而缓解概念漂移,设计双流残差递减 boosting 架构,每个 block 的输出修正前一个 block 的残差,在多个数据集上平均提升 15.8%。
- Detecting the Future: All-at-Once Event Sequence Forecasting with Horizon Matching
-
提出DEF(Detection-based Event Forecasting),借鉴目标检测中DETR的匹配思想,通过匈牙利算法对齐预测与真实事件序列,实现高精度和高多样性的长程事件预测,在5个数据集上达到SOTA。
🏥 医学图像 (75)¶
- A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation
-
提出一种两阶段疾病感知框架,通过学习14个与病理类别对应的疾病感知语义token(DASTs)实现显式的疾病表征,再利用疾病-视觉注意力融合(DVAF)和双模态相似性检索(DMSR)机制辅助LLM生成临床准确的胸部X光报告,在CheXpert Plus、IU X-Ray和MIMIC-CXR三个数据集上取得SOTA。
- Advancing Safe Mechanical Ventilation Using Offline RL With Hybrid Actions and Clinically Aligned Rewards
-
针对ICU机械通气(MV)设置优化问题,提出混合动作空间的离线RL方法(HybridIQL/HybridEDAC),避免传统离散化导致的分布偏移,同时引入基于无通气天数(VFD)和生理参数安全范围的临床对齐奖励函数,通过多目标优化选择最优奖励,将可优化的通气参数从2-3个扩展到6个,HybridIQL在性能和策略覆盖率间取得最佳平衡。
- Ambiguity-aware Truncated Flow Matching for Ambiguous Medical Image Segmentation
-
提出 ATFM 框架,通过数据层级推理范式将预测精度和多样性解耦到分布级和样本级分别优化,结合高斯截断表示(GTR)和分割流匹配(SFM)两个模块,在模糊医学图像分割任务中同时提升预测的精度、保真度和多样性。
- Bayesian Meta-Analyses Could Be More: A Case Study in Trial of Labor After a Cesarean-section Outcomes and Complications
-
提出一种层次贝叶斯 meta-analysis 方法,通过对未记录的决策变量(Bishop 分数)建模为截断隐变量,纠正传统固定效应 meta-analysis 中因忽略混杂因子而导致的偏差结论,在 TOLAC(剖宫产后试产)场景中证明机械扩张与 Pitocin 无显著差异。
- Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation
-
提出 BCSI 框架,通过通道选择路由器动态筛选关键特征通道,在标注和未标注数据流之间进行双向通道级交互,结合语义-空间扰动的弱到强一致性学习,显著提升半监督医学图像分割性能。
- Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
-
提出首个大规模多模态手术点追踪数据集 VL-SurgPT,结合视觉坐标与文本状态描述,并设计文本引导追踪方法 TG-SurgPT,通过语义信息显著提升复杂手术场景下的追踪精度和鲁棒性。
- CAT-Net: A Cross-Attention Tone Network for Cross-Subject EEG-EMG Fusion Tone Decoding
-
提出 CAT-Net(Cross-Attention Tone Network),通过空间-时间特征提取分支 + 交叉注意力融合机制 + 域对抗训练,仅用 20 个 EEG 通道和 5 个 EMG 通道实现中文四声调分类,在有声/无声语音条件下分别达到 87.83%/88.08% 准确率,跨被试评估下达到 83.27%/85.10%,全面超越 8 种基线方法。
- CD-DPE: Dual-Prompt Expert Network Based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution
-
提出 CD-DPE 网络,通过迭代卷积字典特征解耦模块(CD-FDM)将多对比度 MRI 特征分离为跨对比度共有和模态特有成分,再利用双提示特征融合专家模块(DP-FFEM)进行自适应融合重建,在多个公开数据集上超越现有 SOTA 方法。
- Coarse-to-Fine Open-Set Graph Node Classification with Large Language Models
-
提出 Coarse-to-Fine Classification (CFC) 框架,利用 LLM 的零样本推理能力为图节点开放集分类提供语义化 OOD 样本和潜在 OOD 标签空间,实现不仅检测 OOD 还能将其分类到具体未知类别的能力。
- CoCoLIT: ControlNet-Conditioned Latent Image Translation for MRI to Amyloid PET Synthesis
-
提出 CoCoLIT 框架,基于 ControlNet 条件化的潜在扩散模型,从结构 MRI 合成淀粉样蛋白 PET 图像,通过加权图像空间损失(WISL)和潜在平均稳定化(LAS)显著超越现有方法。
🩺 医疗 LLM (12)¶
- A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment
-
针对老年认知障碍患者的群体认知刺激治疗(CST)场景,提出GCSD系统:通过多说话人上下文控制、动态参与者状态建模(soft prompt)、认知刺激注意力损失和多维奖励策略优化四个模块,基于Qwen-2.5-3B微调,在500+小时真实粤语CST对话和1万+模拟对话上训练,BLEU-4达27.93超越GPT-4o等大模型,A/B测试胜率50% vs GPT-4o的39%。
- BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives
-
提出利用 PubMed 引文链构建多跳语义图并进行随机游走的 hard negative 挖掘方法,仅用 20k 训练样本和极少微调步数,即让 33M/110M 小模型在 BEIR 和 LoTTE 上超越数十亿参数的检索基线。
- CliCARE: Grounding Large Language Models in Clinical Guidelines for Decision Support over Longitudinal Cancer Electronic Health Records
-
提出 CliCARE 框架,将非结构化的纵向癌症电子病历(EHR)转化为时序知识图谱(TKG),并与临床指南知识图谱对齐融合,为 LLM 提供循证依据的临床决策支持,同时设计了与专家评估高度相关的 LLM-as-a-Judge 评估协议。
- Expert-Guided Prompting and Retrieval-Augmented Generation for Emergency Medical Service Question Answering
-
构建首个EMS急救领域多选QA数据集EMSQA(24.3K题、10个临床主题、4个认证等级),提出Expert-CoT和ExpertRAG框架将领域专业属性注入LLM推理与检索,比标准RAG最高提升4.59%准确率。
- GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs
-
GEM 提出了一种生成式熵引导偏好建模方法,通过认知过滤(基于熵的 CoT 评分)和 SEGA 算法(自评估组优势策略优化),在仅 3000 个偏好对的低资源场景下实现高效的 LLM 对齐。
- Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling
-
本文提出 CHMR 框架,通过结构感知传播解决生物模态缺失问题,引入树状向量量化(Tree-VQ)建模分子-细胞-基因间的层次依赖关系,在9个基准728个任务上分类提升3.6%、回归提升17.2%,实现鲁棒的细胞感知分子表征学习。
- LUCID: Learning-Enabled Uncertainty-Aware Certification of Stochastic Dynamical Systems
-
本文提出 LUCID,首个可为黑盒随机动力系统提供量化安全保证的验证引擎,通过数据驱动的控制障碍证书方法、条件均值嵌入和有限傅里叶核展开,将半无限非凸优化问题重构为可处理的线性规划。
- Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology
-
系统评估了6个小型开源医学LLM(<10B参数)在儿科内分泌领域的表现,揭示仅靠准确率不足以衡量模型可靠性:语义无关的提示微调导致模型输出显著变化(Stuart-Maxwell p<10⁻⁴),高一致性不等于正确,甚至CUDA版本差异也能引发统计显著的输出偏移。
- MIRAGE: Scaling Test-Time Inference with Parallel Graph-Retrieval-Augmented Reasoning Chains
-
提出MIRAGE框架,将传统的线性推理链扩展为并行多链推理范式,结合结构化医学知识图谱的自适应检索(邻域扩展和多跳遍历),通过跨链验证解决矛盾,在三个医学QA基准上持续优于GPT-4o、ToT和Search-o1等方法。
- Real-Time Trust Verification for Safe Agentic Actions Using TrustBench
-
提出TrustBench双模式框架:(1) 基准模式——结合传统指标和LLM-as-a-Judge评估8个信任维度,学习Agent置信度与实际正确率的校准映射;(2) 验证模式——在Agent制定行动后、执行前实时计算信任分数,阻止87%的有害行动,延迟低于200ms,通过领域插件(医疗/金融/QA)实现专业化验证。
🧬 计算生物 (20)¶
- Apo2Mol: 3D Molecule Generation via Dynamic Pocket-Aware Diffusion Models
-
提出Apo2Mol,一个基于扩散的全原子框架,从蛋白质apo(未结合)构象出发,同时生成3D配体分子和对应的holo(结合态)口袋构象,使用24K实验解析的apo-holo结构对训练,在结合亲和力(Vina min -7.86)和药物类似性上达到SOTA。
- BeeRNA: Tertiary Structure-Based RNA Inverse Folding Using Artificial Bee Colony
-
提出 BeeRNA,将人工蜂群(ABC)优化算法应用于 RNA 三级结构逆折叠问题,通过碱基对距离预筛选 + RMSD 两阶段适应度评估,在短/中长度 RNA(<100 nt)上超越深度学习方法 gRNAde 和 RiboDiffusion。
- CellStream: Dynamical Optimal Transport Informed Embeddings for Reconstructing Cellular Trajectories from Snapshots Data
-
提出 CellStream,一种将自编码器与非平衡动态最优传输(unbalanced dynamical OT)联合学习的深度学习框架,从离散时间点的单细胞快照数据中同时学习低维嵌入和连续细胞动态轨迹,在时间一致性和速度一致性上显著优于现有方法。
- Constrained Best Arm Identification with Tests for Feasibility
-
提出带可行性约束的最优臂识别新框架,允许决策者分别测试臂的性能或可行性约束,设计了渐近最优算法,可自适应地选择通过性能或可行性中更容易的方式淘汰次优臂。
- ConSurv: Multimodal Continual Learning for Survival Analysis
-
本文提出 ConSurv,首个面向生存分析的多模态持续学习方法,通过多阶段混合专家(MS-MoE)和特征约束回放(FCR)两个核心组件,在整合全切片病理图像和基因组数据的场景下有效缓解灾难性遗忘,并在新构建的 MSAIL 基准上全面超越现有方法。
- Distributional Priors Guided Diffusion for Generating 3D Molecules in Low Data Regimes
-
本文提出 GODD(Geometric OOD Diffusion Model),通过等变非对称自编码器捕捉分布结构先验来引导扩散模型的生成过程,使得在数据丰富的分子分布上训练的模型能够泛化到数据稀缺的分布,在 OOD 结构偏移基准上成功率提升 12.6%。
- Dual-Path Knowledge-Augmented Contrastive Alignment Network for Spatially Resolved Transcriptomics
-
提出 DKAN,一个双路径知识增强对比对齐网络,通过整合外部基因数据库的语义信息作为跨模态协调器,结合统一的一阶段对比学习范式和自适应加权机制,从病理组织切片图像(H&E WSI)预测空间分辨率的基因表达,在三个公开ST数据集上全面超越SOTA。
- Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows
-
提出三种互补的染色体级基因组并行化调度方案——静态调度(优化处理顺序)、动态调度(背包问题式批处理+在线RAM预测)和符号回归RAM预测器,在模拟和真实精准医学流水线中显著降低了内存溢出和执行时间。
- EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization
-
提出EPO(Energy Preference Optimization),将反向SDE采样与listwise能量排序偏好优化结合,用能量信号对齐预训练蛋白质生成器与目标Boltzmann分布,在Tetrapeptides/ATLAS/Fast-Folding三个基准9个指标上达到SOTA,完全消除了昂贵的分子动力学(MD)模拟需求。
- Gene Incremental Learning for Single-Cell Transcriptomics
-
本文提出了基因增量学习(GIL)框架,利用单细胞转录组学数据的无序性特点,将类增量学习(CIL)的范式扩展到 token(基因)维度,设计了基因回放和基因蒸馏两种基线方法,并建立了包含基因级回归和基因级分类两种评估方式的完整基准。
⚛️ 物理/科学计算 (15)¶
- Adaptive Fidelity Estimation for Quantum Programs with Graph-Guided Noise Awareness
-
提出 QuFid 框架,将量子电路建模为有向无环图,通过控制流感知的随机游走刻画噪声传播,利用算子谱特征量化电路复杂度,实现自适应测量预算分配,在保持保真度精度的同时大幅减少测量次数。
- Catastrophic Forgetting in Kolmogorov-Arnold Networks
-
首个系统性研究KAN(Kolmogorov-Arnold Networks)中灾难性遗忘行为的工作:建立了遗忘与激活支持重叠和数据内禀维度之间的理论框架,并提出KAN-LoRA用于语言模型的持续微调知识编辑。
- Data Verification is the Future of Quantum Computing Copilots
-
这是一篇 position paper,提出量子计算 AI 助手(Copilot)必须将数据验证从事后过滤提升为架构级基础——通过三个立场论证:(1) 验证数据是最低要求,(2) 先验约束优于后验过滤,(3) 受物理定律约束的科学领域需要验证感知架构。实验表明无验证数据的 LLM 在电路优化上最高仅达 79% 准确率。
- Fast 3D Surrogate Modeling for Data Center Thermal Management
-
本文开发了基于视觉的 3D 代理建模框架,通过将数据中心的服务器负载、风扇速度和空调温度设定点编码为 3D 体素表示,利用 3D CNN U-Net、3D 傅里叶神经算子和 3D Vision Transformer 等架构实现实时温度场预测,速度比传统 CFD 求解器快 20000 倍,同时实现 7% 的能耗节约。
- FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer
-
深入分析 KAT(Kolmogorov-Arnold Transformer)训练慢 123 倍的根因,发现瓶颈并非 FLOPs 而是反向传播中梯度累积的内存停顿(atomic add 导致全局内存竞争),提出 FlashKAT 通过重构 GPU 核函数将训练加速 86.5 倍并降低近一个数量级的梯度舍入误差。
- Just Few States are Enough: Randomized Sparse Feedback for Stability of Dynamical Systems
-
提出随机稀疏反馈控制框架:控制器在每个时间步仅访问状态向量的随机子集,通过 LMI 联合设计反馈增益矩阵和 Bernoulli 稀疏化参数,在保证渐近均方稳定性(AMSS)的同时最小化所需传感器数量,实验中仅用 0.3% 的状态分量即可达到与全状态反馈可比的性能。
- Knowledge-Guided Masked Autoencoder with Linear Spectral Mixing and Spectral-Angle-Aware Reconstruction
-
提出 KARMA 框架,在 ViT-MAE 解码器中嵌入线性光谱混合模型 (LSMM) 作为物理约束,结合 Spectral Angle Mapper (SAM) 损失,提升高光谱遥感图像的重建保真度和下游任务迁移性能。
- Learning Fair Representations with Kolmogorov-Arnold Networks
-
提出将Kolmogorov-Arnold网络(KAN)引入对抗去偏框架,利用KAN的样条函数架构提供理论上的Lipschitz连续性和平滑性保证,并设计自适应 \(\lambda\) 更新机制动态平衡公平性与准确率,在UCI大学录取数据集上实现了公平性指标的显著提升。
- Phys-Liquid: A Physics-Informed Dataset for Estimating 3D Geometry and Volume of Transparent Deformable Liquids
-
构建了 Phys-Liquid 数据集(97,200 张物理仿真图像 + 3D mesh),基于 Navier-Stokes 方程模拟透明容器内液体的动态形变,并提出四阶段重建管线(分割→多视角 mask 生成→3D 重建→缩放),在仿真和真实场景中实现高精度液体几何与体积估计。
- PhysicsCorrect: A Training-Free Approach for Stable Neural PDE Simulations
-
提出 PhysicsCorrect,一种无需训练的校正框架,通过将 PDE 残差校正建模为线性化逆问题并预计算伪逆缓存,在推理时以 <5% 计算开销实现最高 100× 误差降低,适用于 FNO/UNet/ViT 等任意预训练神经算子。
🌍 地球科学 (2)¶
- MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics
-
提出 MdaIF 框架,利用视觉语言模型(VLM)提取退化感知语义先验来引导混合专家(MoE)路由和通道注意力调制,实现无需退化类型标注的一站式多退化场景红外-可见光图像融合。
- RENEW: Risk- and Energy-Aware Navigation in Dynamic Waterways
-
提出 RENEW 全局路径规划器,为水面自主航行器 (ASV) 在动态水流 (洋流) 环境中引入统一的风险感知和能量感知策略,通过自适应不可导航区域识别、最佳努力应急策略和基于约束 Delaunay 三角化的分层架构实现安全高效导航,应急碰撞测试中实现零碰撞。
📡 信号/通信 (3)¶
- Balancing Multimodal Domain Generalization via Gradient Modulation and Projection
-
提出 Gradient Modulation Projection (GMP) 策略,通过解耦分类与域不变梯度的调制(IGDM)以及冲突自适应梯度投影(CAGP),解决多模态域泛化中模态间优化不平衡和任务间梯度冲突问题,在多个基准上达到 SOTA。
- Task Aware Modulation Using Representation Learning for Upscaling of Terrestrial Carbon Fluxes
-
提出 TAM-RL 框架,将陆地碳通量升尺度问题建模为零样本回归迁移学习任务,用 BiLSTM 任务编码器+FiLM 调制结合碳平衡方程知识引导损失,在 150+ 通量塔站点上将 GPP RMSE 降低 9.6%、NEE R² 提升 43.8%(相较 FLUXCOM-X-BASE)。
- Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion
-
提出 UP-Fusion 统一多模态图像融合框架,通过语义感知通道剪枝 (SCPM)、几何仿射调制 (GAM) 和 CLIP 文本引导通道扰动 (TCPM) 三个模块,用单组权重(仅在红外-可见光数据上训练)同时处理 IVIF 和医学图像融合,在两类任务上均达到 SOTA。
👥 社会计算 (10)¶
- Argumentative Debates for Transparent Bias Detection
-
提出 ABIDE(Argumentative BIas Detection by DEbate),通过基于邻域属性的论证方案(argument schemes)构建量化双极论证框架(QBAF),将偏见检测过程建模为结构化辩论,实现从单邻域到全局的透明偏见推理,并形式化证明 QBAF 语义与偏见检测期望行为之间的对应关系。
- Bias Association Discovery Framework for Open-Ended LLM Generations
-
提出偏见关联发现框架 BADF,通过分析 LLM 开放式故事生成中的叙事内容,系统性地提取人口统计身份与描述性概念之间的已知和未知偏见关联,突破了以往依赖预定义偏见概念的局限。
- Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition
-
提出 Cross-modal Prompting (ComP) 方法,通过渐进式提示生成+跨模态知识传播+动态调度器来解决不完整多模态情感识别中的模态不平衡问题,在 4 个数据集、 7 种缺失率下均达到 SOTA。
- Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
-
提出 Fact2Fiction,首个针对 Agent 化事实核查系统(如 DEFAME、InFact)的投毒攻击框架:通过 Planner Agent 模拟声明分解生成子问题,利用系统的 justification 反向工程关键推理点来制作定向恶意证据,并按重要性分配投毒预算,在仅 1% 投毒率下比 SOTA PoisonedRAG 高 8.9%-21.2% 的攻击成功率。
- FactGuard: Event-Centric and Commonsense-Guided Fake News Detection
-
提出 FactGuard 框架,利用 LLM 提取事件核心内容(去风格化)并生成常识推理,通过 Rationale Usability Evaluator 动态评估 LLM 建议的可信度,并通过知识蒸馏获得无需 LLM 的轻量版 FactGuard-D,在假新闻检测中兼顾鲁棒性和效率。
- From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
-
提出 CAPO(Curriculum Advantage Policy Optimization),一种基于优势信号的自适应课程机制,通过先模仿(仅正向优势样本)再判别(引入负向信号)的两阶段策略,稳定且显著提升 LLM 在数学推理和多模态 GUI 推理任务上的表现。
- Multi-modal Dynamic Proxy Learning for Personalized Multiple Clustering
-
本文提出Multi-DProxy框架,通过门控跨模态融合、双约束代理优化和动态候选词管理三大创新机制,利用可学习的文本代理实现个性化多重聚类,在全部公开基准上达到SOTA。
- Reasoning About the Unsaid: Misinformation Detection with Omission-Aware Graph Inference
-
提出OmiGraph,首个基于"遗漏感知"的虚假信息检测框架,通过构建遗漏感知图、利用LLM推理遗漏意图、以及遗漏导向的消息传递与聚合机制,从"未说出的内容"中提取欺骗模式,在双语数据集上平均提升+5.4% F1和+5.3% ACC。
- SceneJailEval: A Scenario-Adaptive Multi-Dimensional Framework for Jailbreak Evaluation
-
提出SceneJailEval,一个场景自适应的多维度越狱评估框架,定义14个越狱场景和10个评估维度,通过场景分类→维度动态选择→多维检测→加权危害评分的流程,在自建数据集上F1达0.917(超SOTA 6%),在JBB上达0.995(超SOTA 3%),同时支持危害程度量化而非仅二分类。
- T2Agent: A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search
-
提出 T2Agent,一个集成可扩展工具集与蒙特卡洛树搜索(MCTS)的虚假信息检测智能体,通过多源验证机制将检测任务分解为针对不同伪造源的子任务,在 MMfakebench 上以 GPT-4o 为骨干将基线 MMDAgent 的准确率提升 28.7%,达到新 SOTA。
🛡️ AI 安全 (45)¶
- Alternative Fairness and Accuracy Optimization in Criminal Justice
-
本文系统综述了算法公平性的三大维度(群体公平、个体公平、过程公平),提出了一种基于容差约束的改进群体公平性优化公式,并构建了面向公共决策系统的"公平三支柱"部署框架。
- An Improved Privacy and Utility Analysis of Differentially Private SGD with Bounded Domain and Smooth Losses
-
在仅假设损失函数L-光滑(不需要凸性)的条件下,为DPSGD推导出了更紧的闭式RDP隐私界,并首次在有界域场景下给出了完整的收敛性/效用分析,揭示了较小的参数域直径可以同时改善隐私和效用。
- An Information Theoretic Evaluation Metric for Strong Unlearning
-
揭示现有黑盒遗忘评估指标(MIA/JSD等)的根本缺陷——仅修改最后一层即可满足所有黑盒指标但中间层完整保留遗忘数据信息,提出IDI白盒指标通过InfoNCE估计各层与遗忘标签的互信息差异来量化遗忘效果,并提出COLA方法在CIFAR-10/100和ImageNet-1K上实现接近Retrain的IDI得分。
- Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks
-
提出Angular Gradient Sign Method (AGSM),将双曲空间中的梯度分解为径向(层次深度)和角度(语义)分量,仅沿角度方向施加扰动来生成对抗样本,在图像分类和跨模态检索任务上比标准FGSM/PGD多降低5-13%的准确率。
- Authority Backdoor: A Certifiable Backdoor Mechanism for Authoring DNNs
-
提出 Authority Backdoor,将硬件指纹作为后门触发器嵌入 DNN,使模型仅在授权设备上正常工作,并通过随机平滑实现可认证鲁棒性,抵御自适应触发器逆向攻击。
- Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification
-
提出 Manifold-Correcting Causal Flow (MC²F) 框架,通过分层黎曼连续正则化流 (SR-CNF) 学习干净数据嵌入的流形密度进行对抗样本检测,再用测地线净化求解器 (Geodesic Purification Solver) 将被检测为对抗的嵌入沿最短路径投影回干净流形,在 SST-2/AGNews/YELP 三个数据集上对抗鲁棒性全面超越 SOTA,同时完全不损失(甚至略微提升)干净数据精度。
- Breaking the Dyadic Barrier: Rethinking Fairness in Link Prediction Beyond Demographic Parity
-
本文揭示了链接预测中二元公平性(dyadic fairness)和 Demographic Parity(ΔDP)的三大根本缺陷——GNN 表达力不足、子群偏差被掩盖、对排序不敏感——并提出基于 NDKL 的排序感知公平度量和后处理算法 MORAL,在六个数据集上实现了 SOTA 的公平性-效用权衡。
- CoRe-Fed: Bridging Collaborative and Representation Fairness via Federated Embedding Distillation
-
提出 CoRe-Fed 框架,通过嵌入级对比对齐与贡献感知聚合两个协同模块,同时解决联邦学习中的表示公平性和协作公平性问题,在异构数据分布下显著提升全局模型的公平性与泛化能力。
- Credal Ensemble Distillation for Uncertainty Quantification
-
提出Credal Ensemble Distillation(CED)框架,将深度集成教师蒸馏为单模型CREDIT,该模型预测类别概率区间(定义credal集)而非单一softmax分布,在OOD检测任务上实现了优于或可比的不确定性估计,同时大幅降低推理开销(推理时间从5×降为1×)。
- DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks
-
提出DeepTracer鲁棒水印框架,通过自适应源类选择(K-Means聚类覆盖特征空间)+ 同类耦合损失(拉近水印样本与目标类在输出空间的距离)+ 两阶段关键样本过滤,使水印任务与主任务深度耦合,在6种模型窃取攻击(含hard-label和data-free)下水印成功率平均达77-100%,远超现有方法。
📂 其他 (117)¶
- A Fast Heuristic Search Approach for Energy-Optimal Profile Routing for Electric Vehicles
-
提出基于多目标A搜索的label-setting方法(Pr-A),在初始电量未知时高效求解电动车能耗最优路径(profile搜索),通过profile支配关系剪枝避免传统方法中复杂的profile合并操作,在大规模路网上性能接近已知初始电量的标准A*搜索。
- A New Strategy for Verifying Reach-Avoid Specifications in Neural Feedback Systems
-
提出FaBRe(Forward and Backward Reachability)策略,首次开发了针对ReLU神经网络控制器的后向可达集过近似和欠近似算法(GSS/ICH/LEB),并将其与前向可达性分析结合,构成统一的reach-avoid验证框架,旨在突破纯前向分析的可扩展性瓶颈。
- A Phase Transition for Opinion Dynamics with Competing Biases
-
在有向随机图上建模两种对立力量(外部颠覆性偏差 vs 个体顽固性)对二元观点传播的影响,证明系统存在尖锐相变:偏差超过临界阈值 \(p_c\) 时群体快速达成新共识,低于阈值则长期处于亚稳极化状态,且临界点仅由度序列的两个简单统计量决定。
- A Topological Rewriting of Tarski's Mereogeometry
-
在 Coq 定理证明器中扩展 λ-MM 库,将基于 Leśniewski 部分学(mereology)的 Tarski 固体几何重写为具备完整拓扑结构的形式化系统,证明部分学类对应正则开集、满足 Kuratowski 内部公理且具有 Hausdorff(T2)性质,从而为定性空间推理提供了统一的部分学-几何-拓扑理论框架。
- Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration
-
揭示了人机协作中"互补性"(complementarity)与"对齐性"(alignment)之间存在根本性权衡——单一模型无法同时优化二者,提出自适应AI集成框架,通过Rational Routing Shortcut(RRS)机制在对齐模型和互补模型之间动态切换,团队准确率较标准AI提升最高9%。
- An Epistemic Perspective on Agent Awareness
-
本文首次将 agent awareness(智能体感知/意识)视为一种知识形式,区分了 de re(关于物理对象的)和 de dicto(关于概念/描述的)两种感知模态,并基于 2D 语义学提出了一个可靠且完备的逻辑系统来刻画这两种模态与标准"事实知识"模态之间的相互作用。
- Approximation Algorithm for Constrained k-Center Clustering: A Local Search Approach
-
研究带 cannot-link (CL) 和 must-link (ML) 实例级约束的 k-center 聚类问题,提出基于支配匹配集(dominating matching set, DMS)转化的局部搜索框架,在不相交 CL 集条件下首次通过局部搜索达到最优近似比 2,解决了该领域一个开放问题。
- Area-Optimal Control Strategies for Heterogeneous Multi-Agent Pursuit
-
研究异构速度下多追逐者-单逃避者的追逃博弈——定义逃避者安全可达集为所有追逐者-逃避者对的 Apollonius 圆的交集,将捕获策略建模为追逐者最小化/逃避者最大化该交集面积的零和博弈,推导出闭式瞬时最优航向控制律,仿真验证追逐者可系统性缩小安全区域实现保证捕获。
- Automated Reproducibility Has a Problem Statement Problem
-
提出基于科学方法的可复现性形式化问题定义,将经验性AI研究表示为假设-实验-解释的图结构,并用LLM自动从20篇论文中提取该结构,经原作者评审验证其有效性。
- Autonomous Concept Drift Threshold Determination
-
证明了固定阈值不可能在所有场景下最优、动态阈值严格优于静态阈值,并提出DTD算法:在漂移检测信号触发后启动三模型比较阶段,根据候选模型表现自适应调整检测阈值。