Knolling Bot: Teaching Robots the Human Notion of Tidiness¶
会议: NeurIPS 2025
arXiv: 2310.04566
代码: https://github.com/yuhanghu/knolling (有,含数据集和基准)
领域: 机器人
关键词: knolling, 物体整理, Transformer, GMM, 自监督学习, 自回归生成
一句话总结¶
将桌面物体整理(knolling)类比为 NLP 序列预测任务,用 Transformer 自回归生成每个物体的目标位置,结合 GMM 处理多解歧义,从 240 万组自动生成的示范中学习通用整洁概念,并通过输入排列顺序隐式编码用户偏好。
研究背景与动机¶
现有痛点¶
现有痛点:家庭服务机器人的一个核心挑战是理解人类对"整洁"的主观概念。与工业场景的标准化不同,家庭环境的物体种类繁多、数量不定,且"什么是整齐"因人而异。
核心困难:
领域现状¶
领域现状:主观性与多解性**:"整洁"没有唯一正确答案。同一组物体可以按颜色分组、按大小排列、按类别归类,都是合理的整理方案。这不是一个有标准答案的回归问题
解决思路¶
解决思路:回归方法的失败**:如果用简单回归模型预测每个物体的目标位置,在多个合理方案并存时,模型会学到这些方案的"平均"——可能导致物体被放在两个好位置的中间(比如放在另一个物体上方),产生完全不合理的结果。论文图 2A 形象展示了这一问题
核心矛盾¶
核心矛盾:可变输入**:物体数量不固定,从 2 个到 10+ 个不等,模型需要能处理任意长度的输入
补充说明¶
补充说明:规则方法的瓶颈**:传统规则方法在场景增多时复杂度爆炸,而学习方法可以从更多数据中持续获益
关键类比:物体整理 ≈ 语言生成。物体是"词",一种整理方案是"句子"——同一组词可以排列成多个有意义的句子。这一类比自然地引入了 NLP 中的 Transformer 自回归框架。
方法详解¶
整体框架¶
系统分为三个解耦模块:
- Knolling 模型(认知层):基于 Transformer 预测每个物体的目标位置坐标
- 视觉感知模型(感知层):定制 YOLOv8 检测物体并提取尺寸和位姿信息
- 机械臂控制器(执行层):驱动 WidowX 200 五自由度机械臂进行 pick-and-place
三个模块各自独立、可替换,提高了系统的可维护性和可解释性。
关键设计¶
-
纯几何输入表示:模型仅以物体的宽度(w)和长度(l)作为输入特征,刻意排除颜色、类别等语义属性。设计动机有两个:(a) 几何属性客观可量化,不受文化和个人偏见影响;(b) 偏好信息通过输入排列顺序注入(见第 3 点),而非混入特征空间。这种分离使模型学到的"整洁度"概念更加通用。
-
Transformer + GMM 的自回归预测:模型逐个物体预测其目标位置,已预测的物体位置会作为条件输入影响后续预测(自回归)。每步输出不是一个固定坐标,而是一个 GMM(Gaussian Mixture Model)分布——多个高斯分量分别代表不同的合理放置方式。从 GMM 中采样即可获得目标坐标,同时自然避免了回归方法的"均值汇聚"问题。GMM 多峰分布的关键优势是:在多个好方案并存时,模型输出多个分布峰而非一个平均值。
-
偏好即排列顺序:用户偏好不作为额外输入维度,而是通过物体的输入排列顺序隐式编码。按颜色排序输入 → 模型生成按颜色分组的整理方案;按大小排序 → 按大小分组;按类别排序 → 按类别分组。这种设计极其优雅——无需修改模型架构、无需偏好标注、无需额外训练,仅改变推理时的输入顺序即可控制整理风格。
数据生成与训练¶
数据生成(240 万组示范):设计优化策略迭代调整物体位置以最小化桌面占用面积。通过控制排列顺序和随机化参数,为每种物体组合生成多种不同风格的整理方案。整个过程全自动,无需人工标注。
两阶段课程训练:
- 阶段一——自监督预训练:类似 BERT 的 masked learning,随机遮盖部分物体信息,让模型学习预测被遮盖物体的位置。模型由此习得物体排列的基本空间规律
- 阶段二——整理任务微调:在完整的从零整理任务上微调,提升模型从零开始完成完整 knolling 任务的端到端能力
不规则物体处理:对不规则形状物体(如 3D 打印件),训练视觉感知系统进行分割并计算最小外接矩形,将其转化为矩形的 (w, l) 表示。
实验关键数据¶
仿真实验¶
- 测试物体数量 2-10 个,模型均成功生成整齐排列
- 利用 Transformer 自回归的天然特性处理可变输入长度,无需为不同物体数量设计不同模型
- 通过改变输入排列顺序,对同一组物体成功生成按颜色、按类别、按大小分组的三种不同方案
真实机器人实验¶
- 硬件配置:WidowX 200 五自由度机械臂 + Intel RealSense D435 深度相机(俯视安装)
- 场景设置:在机械臂工作区域内随机放置 6-10 个不同大小、颜色的方块和日用品
完整流程验证:
- 俯视摄像头拍摄场景图像
- 定制 YOLOv8 检测物体,提取尺寸 (w, l) 和当前位姿
- Knolling 模型预测每个物体的目标位置
- 机械臂控制器规划并执行 pick-and-place 序列
- 最终桌面呈现整齐排列
不同物体配置(6/8/10 个物体)和不同偏好(按颜色/按类别/按形状)的组合测试均获成功。
定量评估与消融¶
- Transformer vs 基线架构:Transformer 一致优于 MLP 和 CNN 基线,自注意力机制在捕捉物体间空间关系上有决定性优势
- GMM vs 普通回归:GMM 有效避免了多模态情况下的"均值汇聚"问题,定量指标上显著优于 L2 回归
- 数据规模效应:性能随训练数据量增加持续提升——与规则方法在场景增多时复杂度爆炸形成鲜明对比
关键发现¶
- NLP 技术(Transformer 自回归 + masked learning)确实可以成功迁移到机器人物体整理任务
- 偏好通过排列顺序隐式编码的方式有效且通用——模型自动学会了"排序暗示分组"
- 纯几何输入(排除语义属性)不仅没有损害性能,反而提高了泛化能力
- 240 万组自监督生成的数据足以让模型学到稳健的整洁概念
亮点与洞察¶
- 跨领域类比的创造力:将物体整理类比为序列生成问题是论文最核心的贡献——简洁、有力、自然地引出了 Transformer + 自回归的技术方案
- 偏好即顺序:将用户偏好编码为输入排列顺序的设计极其优雅。无需额外维度、无需偏好标注、无需修改架构——仅改变推理时的数据排列。这种"免费"的控制机制令人印象深刻
- 认知-感知-执行解耦:系统的模块化设计使得每个组件可以独立改进和替换,是工程实践的好范例
- 规模化自监督:240 万组全自动生成的整理示范,无需人工标注,利用算法化的优化策略生成多样化且高质量的训练数据
局限与展望¶
- 仅 2D 场景:基于俯视图的 (w, l) 表示,无法处理物体堆叠、3D 空间整理等场景
- 物体形状简化:用最小外接矩形近似物体形状,对高度不规则物体(如衣物、线缆)的整理效果受限
- 固定工作区域:仅在机械臂可达范围的桌面上整理,无法扩展到房间级别的整理任务
- 偏好表达能力有限:排列顺序只能编码基于单一属性的分组偏好,无法表达更复杂的整理规则(如"常用物品放在手边"、"危险物品远离边缘")
- 缺乏交互式反馈:整理过程中无法根据用户实时反馈调整方案
- 评估标准:对"整洁度"的量化缺乏与人类主观判断的系统性对比研究
相关工作与启发¶
| 方法 | 特点 | 与本文的区别 |
|---|---|---|
| Housekeep (Kant et al. 2022) | LLM 常识驱动整理 | 依赖语言指令和预定义规则 |
| TIDEE (Sarch et al. 2022) | 视觉-语义先验整理房间 | 房间级别场景,非桌面 knolling |
| StructFormer (Liu et al. 2022) | 语言引导语义重排 | 需要明确的语言目标描述 |
| My House, My Rules (Kapelyukh 2022) | GNN 学习整理偏好 | 需要显式偏好标注 |
| 本文 | 自监督序列预测 | 偏好通过排列顺序隐式编码 |
- 跨领域启发:NLP 技术迁移到物理世界任务的成功案例——其他抽象概念(如"美观"、"舒适")是否也可建模为序列问题?
- 多模态输出:GMM 处理"一对多"映射的机制可推广到路径规划、抓取策略选择等存在多个合理解的机器人任务
评分¶
⭐⭐⭐⭐ (4/5)
理由:物体整理→序列预测的跨领域类比新颖有力,偏好即排列顺序的设计简洁优雅。240 万组自监督数据 + 真实机器人部署的完整闭环验证令人信服。扣分点在于仅限 2D 桌面场景、偏好表达能力有限,以及缺乏与人类整洁度判断的定量对比。