跳转至

Knolling Bot: Teaching Robots the Human Notion of Tidiness

会议: NeurIPS 2025
arXiv: 2310.04566
代码: https://github.com/yuhanghu/knolling (有,含数据集和基准)
领域: 机器人
关键词: knolling, 物体整理, Transformer, GMM, 自监督学习, 自回归生成

一句话总结

将桌面物体整理(knolling)类比为 NLP 序列预测任务,用 Transformer 自回归生成每个物体的目标位置,结合 GMM 处理多解歧义,从 240 万组自动生成的示范中学习通用整洁概念,并通过输入排列顺序隐式编码用户偏好。

研究背景与动机

现有痛点

现有痛点:家庭服务机器人的一个核心挑战是理解人类对"整洁"的主观概念。与工业场景的标准化不同,家庭环境的物体种类繁多、数量不定,且"什么是整齐"因人而异。

核心困难

领域现状

领域现状:主观性与多解性**:"整洁"没有唯一正确答案。同一组物体可以按颜色分组、按大小排列、按类别归类,都是合理的整理方案。这不是一个有标准答案的回归问题

解决思路

解决思路:回归方法的失败**:如果用简单回归模型预测每个物体的目标位置,在多个合理方案并存时,模型会学到这些方案的"平均"——可能导致物体被放在两个好位置的中间(比如放在另一个物体上方),产生完全不合理的结果。论文图 2A 形象展示了这一问题

核心矛盾

核心矛盾:可变输入**:物体数量不固定,从 2 个到 10+ 个不等,模型需要能处理任意长度的输入

补充说明

补充说明:规则方法的瓶颈**:传统规则方法在场景增多时复杂度爆炸,而学习方法可以从更多数据中持续获益

关键类比:物体整理 ≈ 语言生成。物体是"词",一种整理方案是"句子"——同一组词可以排列成多个有意义的句子。这一类比自然地引入了 NLP 中的 Transformer 自回归框架。

方法详解

整体框架

系统分为三个解耦模块:

  1. Knolling 模型(认知层):基于 Transformer 预测每个物体的目标位置坐标
  2. 视觉感知模型(感知层):定制 YOLOv8 检测物体并提取尺寸和位姿信息
  3. 机械臂控制器(执行层):驱动 WidowX 200 五自由度机械臂进行 pick-and-place

三个模块各自独立、可替换,提高了系统的可维护性和可解释性。

关键设计

  1. 纯几何输入表示:模型仅以物体的宽度(w)和长度(l)作为输入特征,刻意排除颜色、类别等语义属性。设计动机有两个:(a) 几何属性客观可量化,不受文化和个人偏见影响;(b) 偏好信息通过输入排列顺序注入(见第 3 点),而非混入特征空间。这种分离使模型学到的"整洁度"概念更加通用。

  2. Transformer + GMM 的自回归预测:模型逐个物体预测其目标位置,已预测的物体位置会作为条件输入影响后续预测(自回归)。每步输出不是一个固定坐标,而是一个 GMM(Gaussian Mixture Model)分布——多个高斯分量分别代表不同的合理放置方式。从 GMM 中采样即可获得目标坐标,同时自然避免了回归方法的"均值汇聚"问题。GMM 多峰分布的关键优势是:在多个好方案并存时,模型输出多个分布峰而非一个平均值。

  3. 偏好即排列顺序:用户偏好不作为额外输入维度,而是通过物体的输入排列顺序隐式编码。按颜色排序输入 → 模型生成按颜色分组的整理方案;按大小排序 → 按大小分组;按类别排序 → 按类别分组。这种设计极其优雅——无需修改模型架构、无需偏好标注、无需额外训练,仅改变推理时的输入顺序即可控制整理风格。

数据生成与训练

数据生成(240 万组示范):设计优化策略迭代调整物体位置以最小化桌面占用面积。通过控制排列顺序和随机化参数,为每种物体组合生成多种不同风格的整理方案。整个过程全自动,无需人工标注。

两阶段课程训练

  • 阶段一——自监督预训练:类似 BERT 的 masked learning,随机遮盖部分物体信息,让模型学习预测被遮盖物体的位置。模型由此习得物体排列的基本空间规律
  • 阶段二——整理任务微调:在完整的从零整理任务上微调,提升模型从零开始完成完整 knolling 任务的端到端能力

不规则物体处理:对不规则形状物体(如 3D 打印件),训练视觉感知系统进行分割并计算最小外接矩形,将其转化为矩形的 (w, l) 表示。

实验关键数据

仿真实验

  • 测试物体数量 2-10 个,模型均成功生成整齐排列
  • 利用 Transformer 自回归的天然特性处理可变输入长度,无需为不同物体数量设计不同模型
  • 通过改变输入排列顺序,对同一组物体成功生成按颜色、按类别、按大小分组的三种不同方案

真实机器人实验

  • 硬件配置:WidowX 200 五自由度机械臂 + Intel RealSense D435 深度相机(俯视安装)
  • 场景设置:在机械臂工作区域内随机放置 6-10 个不同大小、颜色的方块和日用品

完整流程验证

  1. 俯视摄像头拍摄场景图像
  2. 定制 YOLOv8 检测物体,提取尺寸 (w, l) 和当前位姿
  3. Knolling 模型预测每个物体的目标位置
  4. 机械臂控制器规划并执行 pick-and-place 序列
  5. 最终桌面呈现整齐排列

不同物体配置(6/8/10 个物体)和不同偏好(按颜色/按类别/按形状)的组合测试均获成功。

定量评估与消融

  • Transformer vs 基线架构:Transformer 一致优于 MLP 和 CNN 基线,自注意力机制在捕捉物体间空间关系上有决定性优势
  • GMM vs 普通回归:GMM 有效避免了多模态情况下的"均值汇聚"问题,定量指标上显著优于 L2 回归
  • 数据规模效应:性能随训练数据量增加持续提升——与规则方法在场景增多时复杂度爆炸形成鲜明对比

关键发现

  • NLP 技术(Transformer 自回归 + masked learning)确实可以成功迁移到机器人物体整理任务
  • 偏好通过排列顺序隐式编码的方式有效且通用——模型自动学会了"排序暗示分组"
  • 纯几何输入(排除语义属性)不仅没有损害性能,反而提高了泛化能力
  • 240 万组自监督生成的数据足以让模型学到稳健的整洁概念

亮点与洞察

  • 跨领域类比的创造力:将物体整理类比为序列生成问题是论文最核心的贡献——简洁、有力、自然地引出了 Transformer + 自回归的技术方案
  • 偏好即顺序:将用户偏好编码为输入排列顺序的设计极其优雅。无需额外维度、无需偏好标注、无需修改架构——仅改变推理时的数据排列。这种"免费"的控制机制令人印象深刻
  • 认知-感知-执行解耦:系统的模块化设计使得每个组件可以独立改进和替换,是工程实践的好范例
  • 规模化自监督:240 万组全自动生成的整理示范,无需人工标注,利用算法化的优化策略生成多样化且高质量的训练数据

局限与展望

  1. 仅 2D 场景:基于俯视图的 (w, l) 表示,无法处理物体堆叠、3D 空间整理等场景
  2. 物体形状简化:用最小外接矩形近似物体形状,对高度不规则物体(如衣物、线缆)的整理效果受限
  3. 固定工作区域:仅在机械臂可达范围的桌面上整理,无法扩展到房间级别的整理任务
  4. 偏好表达能力有限:排列顺序只能编码基于单一属性的分组偏好,无法表达更复杂的整理规则(如"常用物品放在手边"、"危险物品远离边缘")
  5. 缺乏交互式反馈:整理过程中无法根据用户实时反馈调整方案
  6. 评估标准:对"整洁度"的量化缺乏与人类主观判断的系统性对比研究

相关工作与启发

方法 特点 与本文的区别
Housekeep (Kant et al. 2022) LLM 常识驱动整理 依赖语言指令和预定义规则
TIDEE (Sarch et al. 2022) 视觉-语义先验整理房间 房间级别场景,非桌面 knolling
StructFormer (Liu et al. 2022) 语言引导语义重排 需要明确的语言目标描述
My House, My Rules (Kapelyukh 2022) GNN 学习整理偏好 需要显式偏好标注
本文 自监督序列预测 偏好通过排列顺序隐式编码
  • 跨领域启发:NLP 技术迁移到物理世界任务的成功案例——其他抽象概念(如"美观"、"舒适")是否也可建模为序列问题?
  • 多模态输出:GMM 处理"一对多"映射的机制可推广到路径规划、抓取策略选择等存在多个合理解的机器人任务

评分

⭐⭐⭐⭐ (4/5)

理由:物体整理→序列预测的跨领域类比新颖有力,偏好即排列顺序的设计简洁优雅。240 万组自监督数据 + 真实机器人部署的完整闭环验证令人信服。扣分点在于仅限 2D 桌面场景、偏好表达能力有限,以及缺乏与人类整洁度判断的定量对比。