Knolling Bot: Teaching Robots the Human Notion of Tidiness¶

会议: NeurIPS 2025
arXiv: 2310.04566
代码: https://github.com/yuhanghu/knolling (有，含数据集和基准)
领域: 机器人
关键词: knolling, 物体整理, Transformer, GMM, 自监督学习, 自回归生成

一句话总结¶

将桌面物体整理（knolling）类比为 NLP 序列预测任务，用 Transformer 自回归生成每个物体的目标位置，结合 GMM 处理多解歧义，从 240 万组自动生成的示范中学习通用整洁概念，并通过输入排列顺序隐式编码用户偏好。

研究背景与动机¶

现有痛点¶

现有痛点：家庭服务机器人的一个核心挑战是理解人类对"整洁"的主观概念。与工业场景的标准化不同，家庭环境的物体种类繁多、数量不定，且"什么是整齐"因人而异。

核心困难：

领域现状¶

领域现状：主观性与多解性**："整洁"没有唯一正确答案。同一组物体可以按颜色分组、按大小排列、按类别归类，都是合理的整理方案。这不是一个有标准答案的回归问题

解决思路¶

解决思路：回归方法的失败**：如果用简单回归模型预测每个物体的目标位置，在多个合理方案并存时，模型会学到这些方案的"平均"——可能导致物体被放在两个好位置的中间（比如放在另一个物体上方），产生完全不合理的结果。论文图 2A 形象展示了这一问题

核心矛盾¶

核心矛盾：可变输入**：物体数量不固定，从 2 个到 10+ 个不等，模型需要能处理任意长度的输入

补充说明¶

补充说明：规则方法的瓶颈**：传统规则方法在场景增多时复杂度爆炸，而学习方法可以从更多数据中持续获益

关键类比：物体整理 ≈ 语言生成。物体是"词"，一种整理方案是"句子"——同一组词可以排列成多个有意义的句子。这一类比自然地引入了 NLP 中的 Transformer 自回归框架。

方法详解¶

整体框架¶

系统分为三个解耦模块：

Knolling 模型（认知层）：基于 Transformer 预测每个物体的目标位置坐标
视觉感知模型（感知层）：定制 YOLOv8 检测物体并提取尺寸和位姿信息
机械臂控制器（执行层）：驱动 WidowX 200 五自由度机械臂进行 pick-and-place

三个模块各自独立、可替换，提高了系统的可维护性和可解释性。

关键设计¶

纯几何输入表示：模型仅以物体的宽度（w）和长度（l）作为输入特征，刻意排除颜色、类别等语义属性。设计动机有两个：(a) 几何属性客观可量化，不受文化和个人偏见影响；(b) 偏好信息通过输入排列顺序注入（见第 3 点），而非混入特征空间。这种分离使模型学到的"整洁度"概念更加通用。
Transformer + GMM 的自回归预测：模型逐个物体预测其目标位置，已预测的物体位置会作为条件输入影响后续预测（自回归）。每步输出不是一个固定坐标，而是一个 GMM（Gaussian Mixture Model）分布——多个高斯分量分别代表不同的合理放置方式。从 GMM 中采样即可获得目标坐标，同时自然避免了回归方法的"均值汇聚"问题。GMM 多峰分布的关键优势是：在多个好方案并存时，模型输出多个分布峰而非一个平均值。
偏好即排列顺序：用户偏好不作为额外输入维度，而是通过物体的输入排列顺序隐式编码。按颜色排序输入 → 模型生成按颜色分组的整理方案；按大小排序 → 按大小分组；按类别排序 → 按类别分组。这种设计极其优雅——无需修改模型架构、无需偏好标注、无需额外训练，仅改变推理时的输入顺序即可控制整理风格。

数据生成与训练¶

数据生成（240 万组示范）：设计优化策略迭代调整物体位置以最小化桌面占用面积。通过控制排列顺序和随机化参数，为每种物体组合生成多种不同风格的整理方案。整个过程全自动，无需人工标注。

两阶段课程训练：

阶段一——自监督预训练：类似 BERT 的 masked learning，随机遮盖部分物体信息，让模型学习预测被遮盖物体的位置。模型由此习得物体排列的基本空间规律
阶段二——整理任务微调：在完整的从零整理任务上微调，提升模型从零开始完成完整 knolling 任务的端到端能力

不规则物体处理：对不规则形状物体（如 3D 打印件），训练视觉感知系统进行分割并计算最小外接矩形，将其转化为矩形的 (w, l) 表示。

实验关键数据¶

仿真实验¶

测试物体数量 2-10 个，模型均成功生成整齐排列
利用 Transformer 自回归的天然特性处理可变输入长度，无需为不同物体数量设计不同模型
通过改变输入排列顺序，对同一组物体成功生成按颜色、按类别、按大小分组的三种不同方案

真实机器人实验¶

硬件配置：WidowX 200 五自由度机械臂 + Intel RealSense D435 深度相机（俯视安装）
场景设置：在机械臂工作区域内随机放置 6-10 个不同大小、颜色的方块和日用品

完整流程验证：

俯视摄像头拍摄场景图像
定制 YOLOv8 检测物体，提取尺寸 (w, l) 和当前位姿
Knolling 模型预测每个物体的目标位置
机械臂控制器规划并执行 pick-and-place 序列
最终桌面呈现整齐排列

不同物体配置（6/8/10 个物体）和不同偏好（按颜色/按类别/按形状）的组合测试均获成功。

定量评估与消融¶

Transformer vs 基线架构：Transformer 一致优于 MLP 和 CNN 基线，自注意力机制在捕捉物体间空间关系上有决定性优势
GMM vs 普通回归：GMM 有效避免了多模态情况下的"均值汇聚"问题，定量指标上显著优于 L2 回归
数据规模效应：性能随训练数据量增加持续提升——与规则方法在场景增多时复杂度爆炸形成鲜明对比

关键发现¶

NLP 技术（Transformer 自回归 + masked learning）确实可以成功迁移到机器人物体整理任务
偏好通过排列顺序隐式编码的方式有效且通用——模型自动学会了"排序暗示分组"
纯几何输入（排除语义属性）不仅没有损害性能，反而提高了泛化能力
240 万组自监督生成的数据足以让模型学到稳健的整洁概念

亮点与洞察¶

跨领域类比的创造力：将物体整理类比为序列生成问题是论文最核心的贡献——简洁、有力、自然地引出了 Transformer + 自回归的技术方案
偏好即顺序：将用户偏好编码为输入排列顺序的设计极其优雅。无需额外维度、无需偏好标注、无需修改架构——仅改变推理时的数据排列。这种"免费"的控制机制令人印象深刻
认知-感知-执行解耦：系统的模块化设计使得每个组件可以独立改进和替换，是工程实践的好范例
规模化自监督：240 万组全自动生成的整理示范，无需人工标注，利用算法化的优化策略生成多样化且高质量的训练数据

局限与展望¶

仅 2D 场景：基于俯视图的 (w, l) 表示，无法处理物体堆叠、3D 空间整理等场景
物体形状简化：用最小外接矩形近似物体形状，对高度不规则物体（如衣物、线缆）的整理效果受限
固定工作区域：仅在机械臂可达范围的桌面上整理，无法扩展到房间级别的整理任务
偏好表达能力有限：排列顺序只能编码基于单一属性的分组偏好，无法表达更复杂的整理规则（如"常用物品放在手边"、"危险物品远离边缘"）
缺乏交互式反馈：整理过程中无法根据用户实时反馈调整方案
评估标准：对"整洁度"的量化缺乏与人类主观判断的系统性对比研究

评分¶

⭐⭐⭐⭐ (4/5)

理由：物体整理→序列预测的跨领域类比新颖有力，偏好即排列顺序的设计简洁优雅。240 万组自监督数据 + 真实机器人部署的完整闭环验证令人信服。扣分点在于仅限 2D 桌面场景、偏好表达能力有限，以及缺乏与人类整洁度判断的定量对比。

方法	特点	与本文的区别
Housekeep (Kant et al. 2022)	LLM 常识驱动整理	依赖语言指令和预定义规则
TIDEE (Sarch et al. 2022)	视觉-语义先验整理房间	房间级别场景，非桌面 knolling
StructFormer (Liu et al. 2022)	语言引导语义重排	需要明确的语言目标描述
My House, My Rules (Kapelyukh 2022)	GNN 学习整理偏好	需要显式偏好标注
本文	自监督序列预测	偏好通过排列顺序隐式编码