Test-Time Optimization of 3D Point Cloud LLM via Manifold-Aware In-Context Guidance and Refinement¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qsra0EsUpe
代码: https://github.com/handsome999KK/PGLLM
领域: 3D视觉 / 多模态VLM
关键词: 3D点云LLM, 测试时优化, 上下文学习, 标签传播, OOD检测

一句话总结¶

本文提出 Point-Graph LLM（PGLLM），在不重训任何模型的前提下，于测试时把无标注支持集组织成一张 KNN 图，用近邻样本的 3D caption 作为上下文示例（in-context guidance）注入第二阶段 LLM，再用基于标签传播的置信度分数细化（score refinement）来纠正噪声预测，几乎零额外算力地提升了 3D 识别、OOD 检测和 captioning 的准确率与鲁棒性。

研究背景与动机¶

领域现状：把多模态大模型（MLLM）扩展到 3D 理解的主流做法，是给 LLM 配一个点云编码器，让它直接消化彩色 3D 物体点云。代表作 PointLLM 用「点云编码器 + LLaMA」的两阶段管线：第一阶段 PointLLM 先给点云生成一段文字描述（caption），第二阶段再用一个 LLM（如 GPT-4）读这段描述去做分类、captioning 等下游任务。

现有痛点：这类方法有一个致命缺陷——每个点云都是孤立地被解读的。3D 点云的类间视觉相似度很高（一个尖头黑色物体既像「快艇 boat」又像「浴缸 bathtub」），当模型只看单个样本的 caption 时，很容易把细粒度类别搞混；而且 LLM 输出的分类置信度经常过自信或失准（GPT-4 打分动不动给 0 或 100），导致 OOD 检测的 FPR95 几乎恒为 100。

核心矛盾：单样本推理丢掉了数据流形（manifold）的结构信息。同一类别的样本在特征空间里本应彼此靠近、互相佐证，但孤立解读把这种「集体一致性」浪费掉了。

本文目标：在不重训、不微调任何模型的约束下，于测试时（test-time）把流形结构利用起来，分两步解决：(1) 给查询样本找到合适的上下文示例；(2) 利用近邻一致性校准 LLM 的置信度分数。

切入角度：作者从 In-Context Learning（ICL）的成功获得灵感——LLM 能靠 prompt 里几个示例泛化到新任务，关键在于示例要「相关且有信息量」。那么对一个查询点云，它在特征空间里的近邻天然就是最相关的示例。把支持集组织成图，近邻检索即得示例。

核心 idea：用「测试时构建的数据流形图」同时干两件事——既从图上检索近邻 caption 当 in-context 示例丰富 prompt，又在图上做标签传播来平滑、纠正 LLM 的预测分数，全程零训练。

方法详解¶

整体框架¶

PGLLM 接收一批无标注的 3D 测试点云，输出每个样本在下游任务（识别 / OOD 检测 / captioning）上的最终答案。整体分三步走：先用冻结的点云编码器（Point-BERT）提特征，并用 PointLLM 对每个样本生成初始 caption；再在特征空间上构建 KNN 图捕捉局部几何关系；最后基于这张图做两层优化——用近邻 caption 作上下文示例引导第二阶段 LLM 给出初始答案（in-context guidance），再用标签传播在图上迭代细化分数（score refinement），得到最终预测。三步全在测试时完成，不更新任何模型权重。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标注 3D 测试点云"] --> B["冻结点云编码器<br/>+ PointLLM 生成初始 caption"]
    B --> C["构建 KNN 图<br/>余弦相似度连边"]
    C --> D["1. 上下文引导<br/>检索近邻 caption 当示例<br/>注入第二阶段 LLM"]
    D --> E["2. 分数细化<br/>标签传播迭代平滑置信度"]
    E -->|识别 / OOD / captioning| F["最终答案"]

关键设计¶

1. 流形图构建：把无标注支持集变成可检索的近邻结构

这是整个方法的地基，针对「单样本孤立解读」的痛点。给定无标注支持集 \(D_u=\{x_i\}_{i=1}^{N_u}\)（可以是测试集本身，也可以是任意外部参考集），先用预训练点云编码器 \(f_p\) 得到特征 \(p_i=f_p(x_i)\)，并用 PointLLM 配默认 prompt「What is this?」给每个样本生成 caption \(c_i\)。然后构建图 \(G=(V,E)\)，节点是点云、边权是特征余弦相似度，并按 K 近邻（KNN）裁剪成稀疏邻接矩阵：

\[W_{ij} = \begin{cases} e_{ij} & \text{if } e_{ij}\in \text{TopK}(\{e_{ij}\}_{j=1}^{N_u}) \\ 0 & \text{otherwise}\end{cases}, \quad e_{ij}=\frac{\langle p_i,p_j\rangle}{\|p_i\|\cdot\|p_j\|}\]

实验中 \(K=3\)。新来的查询样本无需重建图，按动态图扩展方案低开销挂进图里即可。这张图同时服务于后面的「检索示例」和「传播分数」两件事，是 in-context guidance 与 score refinement 的共同载体。

2. 上下文引导：用近邻 caption 当示例，让 LLM 参照相似样本推理

针对「LLM 只看单样本 caption 容易把相似类别搞混」的痛点。对查询样本 \(x_i\)，在图上取它的 \(K\) 个最近邻，得到对应的 caption 集合 \(C_i=\{c_{i1},\dots,c_{iK}\}\)，把这些近邻 caption 作为示例追加到查询 prompt 里，再交给第二阶段 LLM（如 GPT-4）做上下文感知推理。直观效果见论文图 1：单独看一个「尖头黑色快艇」的 caption，PointLLM 会误判成 car；但当 prompt 里附上几个把同款物体描述成「长方形浴缸」的近邻 caption 后，LLM 会推理「boat 不在候选类别里，而相似样本都叫 bathtub」，从而改判为正确的 bathtub。这一步把流形上语义相关的知识在测试时注入 LLM 的推理过程，不需要任何重训。

3. 标签传播分数细化：用近邻一致性纠正过自信的噪声预测

针对「LLM 置信度失准、GPT-4 非 0 即 100 导致 OOD 检测崩坏」的痛点。本文不让 LLM 直接吐类别，而是让它给每个 caption 输出逐类别置信度分数，聚合成初始分数矩阵 \(S_0\in\mathbb{R}^{l\times N_u}\)，再在图 \(W\) 上做标签传播迭代：

\[S_t = \alpha S_{t-1}\tilde{W} + (1-\alpha)S_0, \quad \tilde{W}=D^{-\frac{1}{2}}WD^{-\frac{1}{2}}, \quad \hat{y}_j=\arg\max_i (S_t)_{ij}\]

其中 \(\tilde{W}\) 是对称归一化邻接矩阵，\(\alpha\)（取 0.5）平衡 LLM 原始输出与近邻传播分数，迭代 \(T=5\) 次。对 3D 识别，\(\hat{y}\) 取传播后最大分数对应类别；对 OOD 检测，LLM 给单一置信标量 \(S(x_i)\)，同样用上式（令 \(l=2\)）平滑后再与阈值 \(\delta\) 比较判 ID/OOD。这一步让单样本上「孤证」式的离谱预测被近邻的集体一致性拉回正轨——也正是它把 GPT-4 那种非 0 即 100 的硬分数抹平成更均匀、可分的分布，从而把 FPR95 从 100 拉到 50 左右。对 captioning 任务则复用同一张图选近邻 caption 做 in-context 改写，让 LLM 在保持原语义的前提下纠错、润色。

一个例子：把「快艇」纠正成「浴缸」¶

取一个真值为 bathtub 的尖头黑色点云。PointLLM 单独看它，生成 caption「一个时尚的黑色快艇 boat」，第二阶段 LLM 一看 boat 不在类别表里、又觉得最像 car，于是误判为 car。换成 PGLLM：在 KNN 图上找到它的 3 个近邻，这些近邻的 caption 把同款物体描述成「卡通黑色浴缸 bathtub」「黑色陶瓷浴缸」。把这 3 条近邻 caption 附进 prompt 后，LLM 推理「虽然本样本被叫作 boat，但相似样本都叫 bathtub，且 boat 不在候选里」，改判 bathtub。随后 score refinement 再把这一判断在图上传播 5 轮，让周边同类样本互相加固，得到稳定的最终答案。

实验关键数据¶

主实验¶

3D OOD 检测（ModelNet40 / ShapeNetCore，AUROC↑ / FPR95↓，平均值）：

方法	2nd LLM	MN40 AUROC	MN40 FPR95	SN AUROC	SN FPR95
MCM	–	81.0	66.8	–	–
GSP	–	78.8	73.0	80.4	65.5
PointLLM-7B	GPT-4	80.0	100.0	87.7	97.4
PGLLM_T (本文)	GPT-4	85.9	52.1	91.1	29.6
PGLLM_T (本文)	DeepSeek-V3	82.1	65.8	90.9	39.1
PGLLM_T (本文)	MiniGPT-3D+GPT-4	88.1	45.0	90.8	44.9

3D 识别（ModelNet40 ACC↑）与 captioning（Objaverse）：

方法	2nd LLM	识别平均 ACC	captioning GPT-4
MiniGPT-3D	GPT-4	60.9	57.1
PointLLM-7B	GPT-4	52.6	44.9
PGLLM_T (本文)	GPT-4	62.5	50.5
PGLLM_T (本文)	DeepSeek-V3	62.3	–

PGLLM_T 在 ModelNet40 OOD 上把平均 AUROC 较此前最佳的 MCM 提升 +4.9%、FPR95 从 100 降到 52.1；识别上较最强 baseline MiniGPT-3D 提升 +1.6%，且换成成本更低的 DeepSeek-V3 仍达 62.3% 超过所有 GPT-4 baseline。

消融实验¶

In-Context Guidance	Score Propagation	MN40 ACC	MN40 AUROC	MN40 FPR95	SN ACC	SN AUROC	SN FPR95
–	–	52.5	80.4	100.0	55.5	88.2	54.9
•（直接近邻无图）	–	59.7	83.3	100.0	60.7	89.2	47.2
✓（图检索）	–	60.2	83.1	100.0	61.0	89.5	46.0
–	✓	56.7	83.5	62.0	59.3	89.8	44.7
✓	✓	63.1	85.9	52.1	62.4	91.1	29.6

关键发现¶

两个模块互补、缺一不可：只加 in-context guidance 能把识别 ACC 从 52.5 拉到 60.2，但 FPR95 还卡在 100（因为 GPT-4 仍非 0 即 100）；只加 score propagation 能把 FPR95 从 100 降到 62，但 ACC 提升有限；两者叠加才同时拿下 ACC 63.1 和 FPR95 52.1。score propagation 是 OOD 检测崩坏的关键解药。
图检索 > 无图近邻：用 KNN 图检索示例（✓）比直接最近样本检索（•）在两个数据集上都稍好，说明图结构带来的局部几何关系是有用的。
方法增益来自机制而非闭源模型：换上 Qwen3-VL-8B、GPT-oss-20B 等开源 LLM 作第二阶段，PGLLM 依旧稳定有效，最佳开源配置（MiniGPT-3D + Qwen3-VL/GPT-oss-20B）甚至接近或超过闭源结果；Llama3.1-8B 偏弱，作者归因于它偏对话、不擅长生成数值概率序列。
K 值与支持集：K=3 时效果好；transductive（用全测试集当支持集，PGLLM_T）与用外部 Objaverse 子集（PGLLM_O）两种支持集都能超过 PointLLM baseline，体现方法对支持集来源的鲁棒性。

亮点与洞察¶

一张图同时干两件事：同一张 KNN 流形图，既当 in-context 示例的检索源，又当标签传播的载体，结构极其经济，几乎零额外算力就把识别、OOD、captioning 三个任务一并提升。
诊断对症：作者点破了「GPT-4 打分非 0 即 100 → FPR95 恒为 100」这一具体病灶，并用标签传播把硬分数抹平成可分布的软分数，是消融里 OOD 性能跃升的真正来源——这种「找到失准的具体形态再针对性修」的思路很值得借鉴。
纯测试时、即插即用：整套方法不碰模型权重，可无缝套在 PointLLM、MiniGPT-3D 等任意 3D LLM 之上，也可换任意第二阶段 LLM，迁移到其他「编码器 + 两阶段 LLM」的多模态任务（如 2D few-shot 分类）也成立。

局限与展望¶

captioning 未达 SOTA：作者承认在 3D captioning 上仍落后于最强 baseline，归因于测试集规模小、低数据下难以构出最优图结构。
依赖第二阶段 LLM 的数值能力：方法要求 LLM 输出可靠的逐类别数值分数，Qwen-Plus、Llama3.1-8B 因不擅长生成长数值序列而明显掉点，说明对 LLM 的选型敏感。
支持集质量假设：流形图的有效性建立在「支持集足够密、近邻确实同类」之上；若测试分布稀疏或类间高度混叠，近邻检索可能引入错误示例反而误导（一个自己发现的潜在风险）。
改进思路：可引入自适应 K / 自适应 \(\alpha\)，或对近邻示例做置信度加权，缓解低数据与噪声近邻问题。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把流形图同时用于 3D LLM 的 in-context 示例选择与标签传播分数细化，并首次在 LLM 框架下做 3D OOD 检测，角度新颖。
实验充分度: ⭐⭐⭐⭐ 覆盖 4 个数据集、3 个任务、多种闭源/开源第二阶段 LLM，消融清晰；但 captioning 未达 SOTA、真实场景仅 S3DIS 一处。
写作质量: ⭐⭐⭐⭐ 动机清晰、图示直观，方法公式完整；个别表述与排版略粗糙。
价值: ⭐⭐⭐⭐ 零训练、几乎零开销即插即用，对 3D LLM 落地与 OOD 鲁棒性有实用价值。