跳转至

🤖 机器人/具身智能

🤖 AAAI2026 · 38 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (7) · 📷 CVPR2026 (49) · 🔬 ICLR2026 (47) · 🧠 NeurIPS2025 (59) · 📹 ICCV2025 (26) · 🧪 ICML2025 (16)

🔥 高频主题: 机器人 ×11 · 导航 ×6 · 多模态 ×5 · Agent ×5 · 对齐/RLHF ×5

10 Open Challenges Steering the Future of Vision-Language-Action Models

系统梳理 VLA 模型面临的 10 大开放挑战——多模态感知、鲁棒推理、高质量训练数据、评估、跨机器人动作泛化、资源效率、全身协调、安全保障、Agent 框架、人机协作——并讨论空间理解、世界动力学建模、后训练和数据合成四大新兴趋势。

A Computable Game-Theoretic Framework for Multi-Agent Theory of Mind

提出基于 Poisson 认知层次(cognitive hierarchy)的博弈论框架,通过 Gamma-Poisson 共轭贝叶斯更新实现可计算的多智能体 Theory of Mind,在避免 POMDP 不可判定性的同时支持递归式有限理性决策与在线信念修正。

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

提出自适应心智理论智能体(A-ToM),将ToM阶数对齐建模为在线专家建议问题,通过FTL或Hedge算法实时估计伙伴的ToM阶数并动态调整自身推理深度,在重复矩阵博弈、网格导航和Overcooked等4类任务上实现鲁棒的零样本多智能体协作。

Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation

针对开放词汇移动操控中机器人基座选位问题,提出一种零样本框架,通过构建跨模态表征(Affordance RGB + Obstacle Map+)将语义affordance线索投射到障碍物地图上,再用粗到细迭代优化平衡语义和几何约束,在5个操控任务上达到85%成功率,大幅超越几何规划器和纯VLM方法。

Attention as Binding: A Vector-Symbolic Perspective on Transformer Reasoning

本文提出将Transformer自注意力机制重新解释为向量符号架构(VSA)中的软绑定/解绑定算子——Query/Key定义角色空间、Value编码填充项、注意力权重实现可微解绑定、残差连接实现叠加——从而以代数视角统一解释LLM在符号推理中的能力与脆弱性,并提出显式绑定头、超维记忆层等VSA启发的架构改进方向。

Causal Inference Under Threshold Manipulation: Bayesian Mixture Modeling and Heterogeneous Treatment Effects

提出 BMTM/HBMTM 贝叶斯混合模型框架,在消费者策略性操纵消费额以达到奖励阈值的场景下,通过将观测分布拆解为 bunching 与 non-bunching 两个子分布,准确估计阈值因果效应及跨子群的异质性处理效应。

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning

提出CCoL框架,通过NeuralODE驱动的多模态连续协同学习(MCC)和双向交叉注意力的语义-物理对齐(CSA),在Behavioral Cloning中同时解决动作序列的物理不连续性和语义-物理失配问题,在三个仿真平台上平均相对提升8.0%,双臂插入任务最高达19.2%。

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling

提出 GRM 框架,通过模态内显著性/粒度感知适配器和基于高斯混合的区域级不确定性建模,实现鲁棒的细粒度图文对齐,在 Flickr30K 和 MS-COCO 上取得 SOTA。

Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment

提出 PKDA 框架,通过渐进式运动学-动力学对齐,将人手操作视频自动转化为多指灵巧手的高质量操作轨迹,平均迁移成功率达 73%。

Do LLMs Really Struggle at NL-FOL Translation? Revealing Their Strengths via a Novel Benchmarking Strategy

本文批判性审视了现有NL到一阶逻辑(FOL)翻译的评估方法(FOLIO和MALLS),揭示其数据集与评估协议的根本缺陷,提出了一种将翻译任务分解为本体提取(OE)和逻辑翻译(LT)、并辅以"最相似选择"和"排序"子任务的新型基准测试策略,实验表明对话式LLM(o3-mini、GPT-4o-mini、Qwen3系列)展现出强大的NL-FOL翻译能力与真正的逻辑语义理解,而嵌入式模型表现显著较差。

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

提出 EvoEmpirBench(EEB),包含两个动态交互式 benchmark(局部可观测迷宫导航 + 消消乐),以及 Agent-ExpVer 三智能体在线学习框架(GeoLink 交互 + InsightForce 经验抽象 + TruthWeaver 知识管理),通过"经验→验证→真理归纳"的认知循环实现无参数更新的持续策略进化,使 GPT-4.1 成功率提升 5.6%、Qwen-32B 提升 29%。

From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations

提出 BoxPromptIML,一种基于粗粒度框标注的弱监督图像篡改定位(IML)框架,通过冻结的 SAM 教师模型将粗糙边界框转化为高质量伪掩码,结合记忆引导门控融合模块(MGFM)训练轻量级学生模型,仅需 7 秒/张的标注成本即可媲美甚至超越全监督方法。

From Woofs to Words: Towards Intelligent Robotic Guide Dogs with Verbal Communication

本文提出了一套面向导盲机器犬的对话系统,利用 LLM 和任务规划器实现 计划语言化(Plan Verbalization)场景语言化(Scene Verbalization),通过多轮自然语言对话辅助视障用户完成导航决策,并通过真人用户研究和仿真实验验证了系统的有效性。

Gaming the Answer Matcher: Examining the Impact of Text Manipulation on Automated Judgment

本文系统性地测试了三种文本操控策略(冗长、策略性多答案嵌入、正确答案前置+矛盾)对 LLM 答案匹配评判器的影响,发现这些操控不会提升分数甚至降低分数,且二值评分比连续评分更鲁棒,证明答案匹配是一种对低成本文本操控具有鲁棒性的评估方法。

Sketch-HARP: 分层自回归草图生成实现灵活笔画级绘制操控

提出 Sketch-HARP 分层自回归草图生成框架,通过三阶段层次化过程(预测笔画嵌入→确定画布位置→生成绘制动作序列),首次实现草图绘制过程中的灵活笔画级操控,在替换/擦除/扩展等任务上显著优于 SketchEdit。

GRIM: Task-Oriented Grasping with Conditioning on Generative Examples

本文提出 GRIM(Grasp Re-alignment via Iterative Matching),一种免训练的任务导向抓取(TOG)框架,通过 retrieve–align–transfer 流水线结合视频生成模型和多源记忆库,利用基于 DINO 特征的语义 3D 对齐实现跨物体的功能性抓取迁移,仅用 210 个记忆实例即超越了在 379K 样本上训练的 GraspMolmo。

H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation

提出层次化目标驱动框架 H-GAR,通过先预测目标观测再合成中间观测、并利用历史动作记忆库细化粗粒度动作,实现了观测与动作的显式双向交互,在仿真和真实机器人操控任务上取得 SOTA。

Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search

本文提出并形式化了人类中心开放未来任务发现(HOTD)问题——在人类意图并发且动态变化的场景中,发现那些在多种可能未来中都能减少人类负担的任务。同时构建了 HOTD-Bench 基准(2K+ 真实视频),并提出 CMAST 框架(协作多智能体搜索树),通过多智能体系统和可扩展搜索树显著超越现有 LMM 方法。

Human Cognitive Biases in Explanation-based Interaction: The Case of Within and Between Session Order Effect

本文通过两项大规模用户研究(总计 713 名参与者)系统评估了顺序效应(order effect)对解释性交互学习(XIL)的影响,发现顺序效应对用户反馈质量的影响有限且不一致,且仅在 session 内(而非 session 间)有显著但微弱的影响——总体结论是顺序效应不构成 XIL 实际应用的重大障碍。

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

提出 iSeal——首个在模型窃取者完全控制推理过程的黑盒场景下仍能可靠验证 LLM 所有权的主动指纹方法,通过外部加密编码器 + RSC 纠错 + 相似度匹配三重机制,在 12 个 LLM、10+ 种攻击下均保持 100% 指纹成功率(FSR),而已有方法降至 0%。

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

提出 LaF-GRPO 框架,利用 LLM 模拟视障用户对导航指令的响应作为奖励信号,通过 GRPO 后训练 VLM 来生成更精确、更安全的视障导航指令,并构建了 27k 样本的 NIG4VI 基准数据集。

More Than Irrational: Modeling Belief-Biased Agents

提出一种计算理性(CR)用户模型框架,将人类看似"不理性"的行为解释为在有限记忆(信念偏差)下的最优决策,通过嵌套粒子滤波(NPF)在线推断用户的潜在记忆界限参数 \(\theta\) 和偏差信念状态 \(\tilde{b}\),PM误差在45步内降低90%,并在辅助POMDP中展示自适应AI助手策略。

Neural Graph Navigation for Intelligent Subgraph Matching

提出 NeuGN(Neural Graph Navigation)框架,首次将生成式神经导航集成到子图匹配的核心枚举阶段,通过 QSExtractor 提取查询图结构信号 + GGNavigator 将暴力枚举转为结构感知的候选节点优先排序,在保证完备性的同时将 First Match Steps 最高减少 98.2%。

PanoNav: Mapless Zero-Shot Object Navigation with Panoramic Scene Parsing and Dynamic Memory

提出 PanoNav,一个仅使用 RGB 图像的无地图零样本目标导航框架,通过全景场景解析(Panoramic Scene Parsing)释放 MLLM 的空间推理能力,并引入动态有界记忆队列(Dynamic Bounded Memory Queue)避免局部死锁问题。

Realistic Synthetic Household Data Generation at Scale

提出一个基于 LLM 的双向耦合生成框架,通过人物画像驱动环境生成、环境语义引导行为生成的迭代循环过程,大规模生成包含家庭环境配置、人类行为和人机交互的合成数据集,用于训练家用机器人。

Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation

提出基于隐式场景表征(ISR)的VLN策略,通过递归视觉想象(RVI)将历史轨迹压缩为固定大小的紧凑神经网格学习高层场景先验,并通过自适应语言对齐(ALG)将指令的不同语义组件与不同网格精细匹配,在R2R-CE和ObjectNav两个连续环境导航任务上取得SOTA。

RENEW: Risk- and Energy-Aware Navigation in Dynamic Waterways

提出 RENEW 全局路径规划器,为水面自主航行器 (ASV) 在动态水流 (洋流) 环境中引入统一的风险感知和能量感知策略,通过自适应不可导航区域识别、最佳努力应急策略和基于约束 Delaunay 三角化的分层架构实现安全高效导航,应急碰撞测试中实现零碰撞。

Robust Out-of-Order Retrieval for Grid-Based Storage at Maximum Capacity

针对满载 2D 网格存储系统中检索顺序不确定的问题,提出 k-bounded perturbation 不确定性模型,证明 Θ(k) 列宽是零重定位的充要条件,并给出高效鲁棒存储求解器与贪心检索策略,当 k ≤ 0.5c 时几乎消除重定位,k 到达 c 时仍减少 50%+ 重定位。

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

提出 SemanticVLA 框架,通过语义引导的双视觉编码器剪枝(SD-Pruner)、语义互补层次融合(SH-Fuser)和语义条件动作耦合(SA-Coupler)三个模块,在大幅减少视觉冗余的同时增强指令-视觉-动作对齐,在 LIBERO 基准上以 97.7% 成功率超越 OpenVLA 达 21.1%,同时训练成本和推理延迟分别降低 3.0× 和 2.7×。

Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems

首次系统分析 LLM 多 Agent 软件开发系统(ChatDev/MetaGPT/AgentVerse)的安全风险:提出 IMBIA 攻击框架覆盖两种威胁场景(恶意用户+良性Agent / 良性用户+恶意Agent)和 12 种恶意行为(5 大恶意软件家族),攻击成功率高达 93%(ChatDev),并设计 Adv-IMBIA 对抗性防御将 ASR 降低 40-73%。

SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation

提出 SpatialActor 框架,通过将语义与几何表征显式解耦,并设计语义引导几何模块(SGM)自适应融合深度噪声特征与预训练深度估计专家先验、以及空间 Transformer(SPT)编码低级空间位置线索,在 RLBench 50+ 任务上达到 87.4% 成功率(SOTA +6.0%),且在重噪声条件下比 RVT-2 高出 19.4%。

Theory of Mind for Explainable Human-Robot Interaction

提出将心智理论(ToM)视为可解释AI(XAI)的一种形式,使用VXAI框架的七个评价标准系统评估现有HRI中的ToM研究,发现关键缺陷(特别是忠实度缺失),并主张将ToM整合到XAI框架中以实现用户导向的解释。

To Align or Not to Align: Strategic Multimodal Representation Alignment for Optimal Performance

通过引入可控对比学习模块系统调节对齐强度 \(\lambda\),结合偏信息分解(PID)框架量化模态间冗余-独特-协同信息结构,揭示显式对齐的效用高度依赖于数据特性:冗余主导时对齐有益,独特主导时有害,混合场景存在最优 \(\lambda^*\)

TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception

提出 TouchFormer,一个鲁棒的多模态融合框架,通过模态自适应门控(MAG)、模态内/模态间注意力机制和跨实例嵌入正则化(CER)三个互补模块,在视觉受损条件下实现可靠的材质感知,并在火灾场景机器人分拣实验中验证有效性。

Towards Reinforcement Learning from Neural Feedback: Mapping fNIRS Signals to Agent Performance

提出 NEURO-LOOP 框架,利用 fNIRS(功能性近红外光谱)脑信号作为隐式神经反馈评估 RL agent 表现,发布 25 名被试 × 3 领域 × 6 条件的 fNIRS 数据集,分类 F1 达 67%(二分类)/ 46%(多分类),跨被试 fine-tuning 分别提升 17% 和 41%,奠定 Reinforcement Learning from Neural Feedback (RLNF) 基础。

Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation

本文揭示了在良性 Agent 数据上微调 LLM 会导致意外的安全对齐偏移(攻击成功率增加 32-38%),并提出 PING(Prefix Injection Guard)——通过迭代生成+评估自然语言前缀来引导微调后的 Agent 拒绝有害请求,平均提升拒绝率 66%(Web)和 44%(代码),同时保持任务性能(仅降 1.8%)。

UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

提出 UrbanNav,利用网络规模的城市步行视频(YouTube 上 1500+ 小时、300 万条指令-轨迹-地标三元组),通过自动化标注管线和鲁棒过滤机制训练语言引导的城市导航策略,在真实世界部署中达到 83.3% 的导航成功率。

When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets

提出 CAIA 基准测试,通过加密货币市场作为天然对抗性实验室,评估 17 个 SOTA 大模型在高风险对抗环境中的 agent 能力,揭示前沿模型仅达 67.4% 准确率(GPT-5)vs 人类 80%,并发现系统性工具选择灾难。