🎮 强化学习¶

🎞️ ECCV2024 · 3 篇论文解读

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale: 提出AdaGlimpse，利用Soft Actor-Critic强化学习从连续动作空间中选择任意位置和尺度的glimpse，结合弹性位置编码的ViT编码器实现多任务（重建/分类/分割）的主动视觉探索，以仅6%像素超越了使用18%像素的SOTA方法。
Octopus: Embodied Vision-Language Programmer from Environmental Feedback: 提出 Octopus，一个具身视觉-语言编程模型，通过生成可执行代码来连接高层规划与底层操控，并引入 Reinforcement Learning with Environmental Feedback (RLEF) 训练方案来提升决策质量。
Visual Grounding for Object-Level Generalization in Reinforcement Learning: 利用视觉语言模型 (MineCLIP) 的 visual grounding 能力生成目标物体的 confidence map，通过奖励设计和任务表征两条路径将 VLM 知识迁移到强化学习中，实现对未见物体和指令的零样本泛化。