🤖 机器人/具身智能¶
🧠 NeurIPS2025 · 75 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (146) · 🔬 ICLR2026 (162) · 💬 ACL2026 (11) · 🧪 ICML2026 (53) · 🤖 AAAI2026 (30) · 📹 ICCV2025 (26)
🔥 高频主题: 强化学习 ×14 · 机器人 ×12 · 多模态 ×9 · Agent ×7 · 推理 ×6
- A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning
-
首次将数据归因(data attribution)引入在线强化学习,提出局部归因框架量化每条训练记录对策略更新的贡献,并基于此设计了迭代影响力过滤算法(IIF),在经典RL基准和LLM的RLHF上均显著提升了样本效率和最终性能。
- Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies
-
提出 DP-AG(Action-Guided Diffusion Policy),通过将扩散策略的噪声预测的 Vector-Jacobian Product (VJP) 作为结构化随机力驱动隐观测特征在扩散步骤间动态演化,并用循环一致对比损失闭合感知-动作环路,在 Push-T 上提升 6%、Dynamic Push-T 上提升 13%、真实 UR5 机器人上成功率提升 23%+。
- Adaptive Frontier Exploration on Graphs with Applications to Network-Based Disease Testing
-
提出 Adaptive Frontier Exploration on Graphs (AFEG) 问题框架,设计基于 Gittins index 的策略,在图是森林时可证明最优,在实际性传播疾病检测网络上仅测试一半人口即可检出几乎全部 HIV 感染者,大幅超越贪心和 DQN 等基线。
- Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning
-
ALMI提出上下半身对抗训练框架:下半身策略在上半身动作干扰下学习鲁棒运动,上半身策略在下半身运动干扰下学习精确动作模仿,通过迭代对抗训练收敛到Nash均衡,实现Unitree H1-2真实机器人的稳定全身协调控制。
- Asymptotically Stable Quaternionic Hopfield Structured Neural Network with Supervised Projection-based Manifold Learning
-
提出四元数值监督学习 Hopfield 结构神经网络 (QSHNN),通过周期性投影策略保持权重矩阵的四元数结构一致性,并基于 Lyapunov 理论证明了不动点的存在唯一性和渐近稳定性,轨迹曲率有界保证机器人路径规划的平滑性。
- Automaton Constrained Q-Learning
-
提出 ACQL(Automaton Constrained Q-Learning),将线性时序逻辑(LTL)任务规范转化为自动机,结合目标条件学习和最小安全约束,首次在连续控制环境中可扩展地同时支持时序目标序列和非平稳安全约束。
- AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling
-
AutoToM 实现完全自动化的基于模型的心智理论推理——无需人工指定 agent 模型,自动提出贝叶斯网络结构并执行贝叶斯逆规划,通过推理不确定性驱动的迭代模型调整(添加心智变量或扩展时间步),在5个ToM benchmark上以82.43%平均准确率超越GPT-4o(63.39%)、o3-mini(73.94%)等SOTA模型。
- AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
-
AutoVLA 将物理动作 token 直接集成到预训练 VLM(Qwen2.5-VL-3B)中,通过 SFT 赋予模型快/慢双思维模式能力,再用 GRPO 强化微调实现自适应推理切换并优化规划性能,在 nuPlan、Waymo、nuScenes 和 CARLA 四大自动驾驶基准上取得有竞争力的端到端驾驶性能。
- BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning
-
BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token,实现 20× token 压缩(100 步→5 token)、数学保证的动作块间 \(C^0\) 连续过渡,在 LIBERO-Long 上成功率排名第 1(86.4%),推理吞吐量 617 Hz(比 π₀ 快 2.14×、比 OpenVLA 快 101×)。
- Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
-
Meta 提出 WAGIBench,一个针对可穿戴辅助智能体的多模态目标推断基准,包含 348 名参与者的 3,477 条第一视角录制(29小时),涵盖视觉/音频/数字/纵向四种模态,人类准确率 93% vs 最佳 VLM 84%(MCQ),生成式评估中模型仅 55% 时间产生相关目标,揭示了当前 VLM 在实际可穿戴场景中的显著差距。
- Beyond Parallelism: Synergistic Computational Graph Effects in Multi-Head Attention
-
将多头注意力重新建模为共享汇节点的多个前馈 DAG 系统,理论证明多头可通过跨头路径实现协同效应——降低混合时间(mixing time)并放大 minimax 保真度(fidelity),在序列操作任务上实验验证了该效应。
- Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots
-
本文首次将 VLA(Vision-Language-Action)模型部署到软体连续体机械臂 Embuddy 上,发现开箱即用的刚性机器人预训练策略因运动学和动力学差异完全失败,但通过在少量软体机器人示范数据上进行针对性微调,可以成功弥合刚性-软体之间的实体鸿沟,使软体平台在抓取和人机交互任务上达到与 UR5 刚性臂相当的任务完成率。
- C-NAV: Towards Self-Evolving Continual Object Navigation in Open World
-
提出 C-Nav 框架,通过双路径抗遗忘(特征蒸馏 + 特征回放)和自适应经验选择(LOF 异常检测选关键帧),让导航智能体在不断学习新物体类别时避免灾难性遗忘,在 4 种架构上均超越全量数据回放基线。
- Can Agents Fix Agent Issues?
-
本文首次系统地研究了 LLM-based Agent 系统的 issue 自动修复问题——通过人工分析 201 个真实 Agent issue 构建了涵盖 6 大类 20 个子类的 Agent issue 分类体系,耗费 500 人时构建了包含 50 个可复现任务的 AgentIssue-Bench 基准,并评估发现当前最先进的软件工程 Agent(如 SWE-agent、Agentless、AutoCodeRover)在 Agent issue 上的正确修复率仅为 3.33%–12.67%,远低于它们在传统软件上的 23%–51% 修复率。
- CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
-
CogVLA 提出模仿人类多模态认知的三阶段VLA架构(EFA-Routing视觉聚合压缩至25% + LFP-Routing LLM内指令感知剪枝50% + V-L-A耦合注意力),在LIBERO上以97.4%成功率和2.5×训练/2.8×推理加速超越OpenVLA-OFT等SOTA方法,真实机器人任务达70.0%成功率。
- COOPERA: Continual Open-Ended Human-Robot Assistance
-
提出 COOPERA 框架,首次实现持续、开放式的人机协作研究,通过LLM驱动具有心理特征和长期意图的模拟人类与机器人在3D环境中多天交互,机器人通过学习人类特征和上下文意图逐步提升个性化协作能力。
- DexFlyWheel: A Scalable Self-Improving Data Generation Framework for Dexterous Manipulation
-
提出 DexFlyWheel,一个从单个人类示教出发、通过 IL + 残差 RL + 数据增强组成的自改进循环逐步扩展数据多样性的灵巧操作数据生成框架,在 4 个任务上生成 2000+ 示教,策略平均成功率 81.9%,真实世界迁移成功率 78.3%。
- DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation
-
提出 DynaNav,通过可训练的硬特征选择器和基于贝叶斯优化的 early-exit 机制,根据场景复杂度动态调整特征与层的使用,在视觉导航中实现 2.26× FLOPs 降低、42.3% 推理时间减少,同时保持甚至提升导航性能。
- EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval
-
通过离散内存缓存(KV cache分组独立计算+选择性加载)、注意力驱动聚类(LLM浅层attention指导分组)和语义感知检索(CLIP+背包问题适配不同内存预算),首次在Jetson Orin上用LLaMA-3.2-11b实现零样本ObjNav,比GPT-4基线提升11.1% SR且实时延迟降低6.7×。
- EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data
-
提出 EgoBridge 框架,利用最优传输(OT)在策略潜在空间中对齐人类和机器人数据的联合分布(特征+动作),结合动态时间规整(DTW)构建伪配对,实现从第一人称人类数据到机器人的跨具身知识迁移,在真实世界任务中绝对成功率提升达 44%。
- EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT
-
EgoThinker 构建了 500 万级第一人称视频 QA 数据集 EgoRe-5M(含因果 CoT 标注和手-物体精细定位数据),并通过"先 SFT 学推理、后 GRPO 练定位"的两阶段训练范式,让 7B MLLM 首次同时具备第一人称因果推理和时空精细定位能力,在 8+ 个基准上刷新 SOTA,7B 参数量在时间定位上甚至超过 72B 模型。
- ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
-
提出 ESCA 框架,通过开放域场景图生成(SGClip 模型)为 MLLM 驱动的具身智能体提供结构化视觉理解上下文,显著降低了感知错误率并提升了任务完成率。
- Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
-
提出基于不平衡最优运输(UOT)的模拟-真实策略联合训练框架,通过对观察-动作联合分布进行对齐(而非仅对齐观察边际分布),结合时间对齐采样策略处理数据不平衡,在机器人操纵任务上实现30%的OOD泛化提升。
- HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data
-
提出自监督框架从无标注多模态机器人演示中学习层级操作概念,通过跨模态相关性网络和多时域子目标预测器组织表示,增强模仿学习策略在新物体、新障碍和新环境下的泛化能力。
- Human-assisted Robotic Policy Refinement via Action Preference Optimization
-
提出 Action Preference Optimization (APO),通过人机协作框架收集交互轨迹,利用基于前景理论的二元期望信号和自适应重加权方法对 VLA 模型进行偏好对齐优化,使其能从失败中学习并持续迭代改进。
- Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI Coordination
-
受维果茨基内心语言理论启发,提出 MIMIC 框架,利用语言作为感知与动作之间的中介表征,通过 VLM 提供语言脚手架训练 CVAE 生成内心语言,再以扩散策略在条件化于内心语言的情况下生成多样且可控的行为。
- Knolling Bot: Teaching Robots the Human Notion of Tidiness
-
将桌面物体整理(knolling)类比为 NLP 序列预测任务,用 Transformer 自回归生成每个物体的目标位置,结合 GMM 处理多解歧义,从 240 万组自动生成的示范中学习通用整洁概念,并通过输入排列顺序隐式编码用户偏好。
- LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents
-
提出 LabUtopia——面向科学实验室的高保真仿真与层级基准套件,包含支持化学反应建模的 LabSim 仿真器、可程序化生成实验室场景的 LabScene、以及从原子操作到长程移动操纵的五级 LabBench 基准,揭示现有模仿学习方法在长程实验流程和物体泛化方面的显著瓶颈。
- Learning Interactive World Model for Object-Centric Reinforcement Learning
-
提出 FIOC-WM,通过对象级和属性级的两层分解学习世界模型中的物体交互结构,并基于交互原语训练层级策略,在多个机器人控制任务上实现了更高效的策略学习和组合泛化能力。
- Learning Parameterized Skills from Demonstrations
-
提出 DEPS,一种端到端从专家示范中发现参数化技能的算法,通过三层层次策略(离散技能选择→连续参数选择→底层动作)和信息瓶颈设计,学习可解释且可泛化的技能抽象,在LIBERO和MetaWorld上显著优于基线。
- Learning Spatial-Aware Manipulation Ordering
-
提出 OrderMind 统一框架,通过空间上下文编码器和时序优先级结构化模块直接从 RGB-D 图像学习杂乱场景中物体的操作顺序,利用 VLM 蒸馏生成训练标注,在仿真和真实环境中均显著优于 VLM 基线,且支持实时推理(5.6 FPS,轻量版 21.3 FPS)。
- LLMscape
-
LLMscape 是一个投影映射沙盘交互装置,让多个独立 LLM 代理在共享的可变物理环境中接收多模态输入、相互对话和推测,探索人类与 AI 在认知不确定性下的共同意义构建过程。
- LUMIA: A Handheld Vision-to-Music System for Real-Time, Embodied Composition
-
提出Lumia——一个手持相机式设备,通过GPT-4 Vision分析拍摄画面生成结构化提示,再由Stable Audio合成音乐循环段,实现从视觉到音乐的实时、具身化即兴创作工作流。
- MaNGO: Adaptable Graph Network Simulators via Meta-Learning
-
提出 MaNGO(Meta Neural Graph Operator),通过元学习和条件神经过程(CNP)学习不同物理参数下仿真任务的共享潜在结构,实现对新物理参数的快速适应,无需重新训练。
- Massively Parallel Imitation Learning of Mouse Forelimb Musculoskeletal Reaching Dynamics
-
基于 MIMIC-MJX 平台构建小鼠前肢肌肉骨骼模拟学习流水线,通过 JAX 加速的大规模并行 PPO(120 万步/秒)训练物理感知模仿学习策略,证明控制成本正则化能使模拟肌肉活动更好地预测真实 EMG 信号,并用基于 Takens 定理的非线性动力学方法从关节运动学预测肌肉激活。
- Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
-
提出 Memo,一种基于 Transformer 的记忆增强框架,通过周期性生成摘要 token(summary tokens)压缩历史上下文,在保持甚至超越全上下文 Transformer 性能的同时,将推理时 KV 缓存缩小 8-10 倍,并展现出更好的长上下文泛化和流式推理鲁棒性。
- Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains
-
提出记忆增强势场理论(MAPFT),在随机最优控制中维护一个动态记忆模块来检测并编码状态空间的拓扑特征(局部最小值、低梯度区等),通过动态修改价值函数景观实现非凸环境下的自适应控制,在 Humanoid-v4 等任务上比最优 RL 方法(SAC)提升 27% 累积奖励,且局部最优逃逸率从 ~30% 提升到 ~72%。
- MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
-
提出 MesaTask 框架,通过 Spatial Reasoning Chain 将任务描述分解为对象推理→空间关系推理→场景图构建→3D 布局,结合 10K+ 人工标注数据集和 DPO 优化,生成物理合理且任务对齐的桌面操控场景。
- MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning
-
MindForge 为 LLM 驱动的具身智能体引入显式的心智理论(ToM)表征、自然语言通信和多组件记忆系统,使开源 LLM 智能体通过与专家协作对话(无需梯度更新)大幅提升任务完成率,在 Minecraft 中比 Voyager 多获得 3× 科技树里程碑和 2.3× 独特物品。
- MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents
-
基于 Minecraft 构建空间规划基准 MineAnyBuild,要求 AI Agent 根据多模态指令生成可执行的建筑蓝图矩阵,包含 4000 个任务和 500+ 建筑/装饰资产,从空间理解、空间推理、创造力和空间常识四个维度系统评估 MLLM 的空间规划能力,揭示即便 GPT-4o 整体得分仅 41.02/100,开源模型更差。
- NeSyPr: Neurosymbolic Proceduralization For Efficient Embodied Reasoning
-
NeSyPr提出了一种神经符号程序化框架,通过将符号规划器生成的任务计划转化为可组合的程序化表示,使紧凑的语言模型在无需外部符号引导的情况下实现高效的单步推理,类似人类的知识编译过程。
- Operation Veja: Fixing Fundamental Concepts Missing from Modern Roleplaying Training Paradigms
-
本文系统批判了现有角色扮演模型训练的四大范式(RAG、事实值设定、文学数据、合成数据)为何都无法产生有深度的角色,提出VEJA框架(Values-Experiences-Judgments-Abilities)作为角色定义和数据策化的结构化基础,在LLM评判A/B测试中VEJA指导的人工策化数据以43:28:29(胜:负:平)显著优于Gemini Pro 2.5生成的合成基线。
- Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning
-
提出 UEPO 框架,通过多种子动力学感知扩散策略、动态分歧正则化和基于扩散的数据增强三大核心组件,解决离线到在线强化学习中多模态行为覆盖不足和分布偏移问题,在 D4RL 基准上超越 Uni-O4。
- Periodic Skill Discovery
-
提出 Periodic Skill Discovery (PSD) 框架,通过将状态映射到圆形潜空间来自然编码周期性,实现无监督地发现具有不同周期的多样化运动技能。
- Policy Compatible Skill Incremental Learning via Lazy Learning Interface
-
提出SIL-C框架,通过双向惰性学习接口(bilateral lazy learning interface)实现技能增量学习中的技能-策略兼容性,使增量更新的技能能直接提升下游策略性能而无需重训练或结构调整。
- UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Task Planning
-
UniDomain 从 12,393 个真实机器人操作视频中预训练统一的 PDDL 规划域(含 3,137 个算子和 2,875 个谓词),通过层级融合构建元域,实现零样本跨任务符号规划,比最强基线高出 58% 成功率和 160% 计划最优性。
- PROFIT: A Specialized Optimizer for Deep Fine Tuning
-
PROFIT 将微调视为时间维度上的多任务学习问题,通过将新任务梯度对"回归平衡点"方向做正交化投影,实现了无需额外数据或参数的抗遗忘微调优化器。
- Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents
-
提出 AcTOL,通过视觉-语言排序损失和布朗桥约束来学习有序且连续的视觉-语言表征,无需刚性目标到达假设,在模拟和真实机器人操作任务上显著提升下游表现。
- RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
-
提出RDD(基于检索的演示分解器),通过将演示分解建模为最优分区问题,自动将长时域任务演示分解为与底层视觉运动策略训练数据对齐的子任务,从而协调层级VLA框架中高层规划器与低层策略,在RLBench上接近专家分解器的性能。
- Real-World Reinforcement Learning of Active Perception Behaviors
-
提出非对称优势加权回归(AAWR),在训练时利用额外特权传感器来估计更准确的优势函数,从而高效学习真实世界中的主动感知策略,在8个涵盖不同部分可观测程度的操控任务上均超越所有基线方法。
- Reinforcement Learning with Action Chunking
-
提出 Q-chunking,将动作分块技术从模仿学习推广到基于 TD 的强化学习方法中,通过在"分块"动作空间上直接运行 RL 来改善长horizon稀疏奖励任务的探索和学习效率。
- Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling
-
从认知神经科学视角挑战"模拟与渲染可分离"的传统观点:论证空间推理依赖于精细的感知表征而非粗粒度抽象,并指出AI空间世界模型同样需要保留丰富的感知细节——空间建模没有免费午餐。
- RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
-
提出RoboCerebra长程机器人操作基准,包含1000条人类示范轨迹(平均2972步,约为现有基准的6倍),通过分层规划与执行框架和多维评估协议,系统测评VLM在规划、反思和记忆三个System 2认知维度上的能力。
- Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
-
Robot-R1 提出利用强化学习(GRPO)训练大视觉语言模型(LVLM)进行具身推理,通过将下一关键状态预测转化为多选题并用 RL 优化推理路径,仅凭 7B 参数在低级控制推理任务上超越 GPT-4o。
- SAFE: Multitask Failure Detection for Vision-Language-Action Models
-
SAFE 发现 VLA 模型的内部特征空间存在跨任务一致的"失败区域",据此训练轻量 MLP/LSTM 失败检测器,配合功能保形预测(FCP)做阈值校准,在未见任务上达 78% ROC-AUC,计算开销 <1%,大幅优于 token 不确定性和一致性检测方法。
- SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
-
首次系统性地将安全强化学习(SafeRL)的 CMDP 框架应用于视觉-语言-动作模型(VLA)的安全对齐,通过建模-激发-约束-保证四阶段集成安全方法(ISA),在移动操作任务上实现 83.58% 的安全违规成本下降同时保持任务性能(+3.85%)。
- Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning
-
提出 RTZ-VI-LCB 算法用于离线鲁棒两人零和 Markov 博弈(RTZM G),通过乐观鲁棒值迭代 + Bernstein 风格惩罚,实现近最优样本复杂度 \(O(C_r^* \cdot H^4 \cdot S \cdot (A+B) / \varepsilon^2)\),较此前最优结果 \(O(H^5 \cdot S^2 \cdot AB / \varepsilon^2)\) 在状态空间和动作空间依赖上均有显著改善。
- Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning
-
首次为分布鲁棒平均奖励强化学习(DR-AMDP)建立了有限样本收敛保证,提出两种算法(折扣归约法和锚定法),在KL和\(f_k\)-散度不确定集下均达到\(\widetilde{O}(|S||A|t_{\mathrm{mix}}^2\varepsilon^{-2})\)的近最优样本复杂度。
- Self-Improving Embodied Foundation Models
-
本文提出一种面向具身基础模型的两阶段后训练方法:第一阶段通过行为克隆和 steps-to-go 预测进行监督微调,第二阶段利用 steps-to-go 预测生成的自奖励函数和成功检测器实现在线 RL 自我改进,仅需 1-3% 额外数据即可实现 1.5x 以上的成功率提升,并首次展示了机器人自主学习超出模仿数据分布之外的新技能。
- Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems
-
将神经科学中的环形吸引子模型集成到 DRL 的动作选择中,通过将动作映射到环上的空间位置并利用高斯信号注入 Q 值和不确定性,在 Atari 100K 上比基线提升 53%。
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data
-
提出 SpatialMind 结构化提示策略与 ScanForgeQA 合成QA数据集的双管齐下方案,在不修改VLM架构的前提下显著增强其从扫描视频进行3D空间推理的能力。
- STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning
-
发现并形式化了偏好强化学习(PbRL)中的"阶段错位"问题——比较不同阶段的行为片段会产生无效反馈,提出STAIR方法通过对比学习获取时间距离来近似阶段差异,用四边形距离选择阶段对齐的查询,在多阶段任务中显著超越现有PbRL方法。
- SutureBot: A Precision Framework & Benchmark for Autonomous End-to-End Suturing
-
提出SutureBot——首个针对da Vinci手术机器人端到端自主缝合的精度导向基准与目标条件框架,发布1890条高保真演示数据集,通过点标签目标条件将针刺精度提升59%-74%,并系统评估了π0、GR00T N1、OpenVLA-OFT和多任务ACT等SOTA VLA模型。
- Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras
-
Talk2Event 提出首个大规模事件相机视觉定位基准(30,690 条标注表达式 + 四种定位属性),并设计 EventRefer 框架通过混合事件-属性专家(MoEE)动态融合外观/状态/观察者关系/物体间关系特征,在纯事件、纯帧和融合三种设置下均超越现有方法。
- Task-Optimized Convolutional Recurrent Networks Align with Tactile Processing in the Rodent Brain
-
提出Encoder-Attender-Decoder(EAD)框架系统探索触觉任务优化的时序神经网络,发现卷积循环网络(ConvRNN,特别是IntersectionRNN)在触觉物体分类和啮齿类体感皮层神经对齐上均优于前馈和状态空间模型,且基于触觉特定增强的对比自监督学习能达到与监督学习相当的神经拟合,为触觉的大脑计算机制提供了首个定量刻画。
- The Impact of Scaling Training Data on Adversarial Robustness
-
系统评估 36 个 SOTA 视觉模型在 6 类黑盒攻击下的鲁棒性,发现攻击成功率(ASR)随数据量和模型规模按对数律下降,但 数据质量和模型规模比数据量本身更关键。
- ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
-
提出ThinkAct双系统框架,通过动作对齐的视觉奖励对MLLM进行强化学习微调以激发具身推理能力,并将推理计划压缩为视觉潜在表示来指导下游动作模型,实现"先思考再行动"的VLA推理范式。
- Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning
-
提出 TR-DRL 框架,利用机器人操作任务中的时间反转对称性——通过轨迹反转增强(完全可逆的转移)和时间反转引导的势函数奖励塑形(部分可逆的转移)——显著提升 DRL 在成对任务(如开门/关门)中的样本效率和最终性能。
- To Distill or Decide? Understanding the Algorithmic Trade-off in Partially Observable Reinforcement Learning
-
通过一个理论模型(perturbed Block MDP)和模拟运动控制实验,系统研究了部分可观测 RL 中特权专家蒸馏 (privileged expert distillation) 与标准 RL(无特权信息)之间的算法权衡,发现权衡关键取决于隐状态动力学的随机性。
- Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning
-
提出一种神经-符号具身任务规划框架,在 LLM 代码生成过程中引入显式的符号验证(检查前置条件是否满足)和交互式验证(主动探索获取缺失信息),使生成的代码在动态和部分可观测场景中更可靠——在 RLBench 上任务成功率从基线 38.5% 提升到 84.7%,可执行性达 86.8%。
- Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm
-
提出 TRRO 理论框架和 PIRO 实用算法,通过 Minorization-Maximization 过程保证 IRL 中奖励函数更新的单调改进,实现了逆强化学习领域类似于 TRPO/PPO 在正向 RL 中的稳定性保证。
- VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
-
构建了首个面向具身多智能体合作的层次化基准VIKI-Bench(含智能体激活、任务规划、轨迹感知三个层级),并提出两阶段框架VIKI-R(CoT示范微调+多级奖励RL),在多种机器人形态和多视角视觉观测下实现显著超越基线的合作表现,RL阶段涌现出组合式协作模式。
- VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
-
提出VLA-Cache,一种免训练的VLA推理加速方法,通过跨帧识别并缓存静态视觉token的KV表示、过滤任务相关token并按层自适应调整复用比例,实现1.7倍加速且几乎不损失任务成功率。
- VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play
-
本文提出 VolleyBots,一个多无人机排球竞技测试平台,融合了合作-对抗博弈、回合制交互与敏捷 3D 机动控制,基于 Isaac Sim 构建了从单体训练到多体竞技的任务课程体系,并通过分层策略在 3v3 任务中取得 69.5% 胜率,同时展示了零样本 sim-to-real 部署能力。
- Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts
-
提出 Context-Enhanced Bellman Equation (CEBE) 和 Context Sample Enhancement (CSE) 方法,通过利用环境动力学和奖励函数对上下文参数的一阶导数信息,在仅训练于单一上下文的情况下实现对未见上下文的零样本泛化。