VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=LcgzZZ921O
代码: https://github.com/AIGeeksGroup/VaseVQA-3D
领域: 多模态VLM / 3D视觉 / 数字文化遗产
关键词: 3D VQA、古希腊陶器、文化遗产、可验证奖励、领域自适应

一句话总结¶

本文构建了首个面向古希腊陶器的 3D 视觉问答数据集 VaseVQA-3D（664 个 3D 陶器模型 + 4460 条问答），并基于一条「2D 图像过滤 → 单图 3D 重建 → 六维考古语义清洗」的合成管线，训练出领域专用模型 VaseVLM，其 7B-RL 版本在 R@1 上相对最强基线提升 12.8%、词汇相似度提升 6.6%。

研究背景与动机¶

领域现状：通用视觉-语言模型（VLM，如 GPT-4V、Gemini、Qwen2.5-VL、InternVL）在图像描述、视觉推理等通用任务上表现亮眼；3D 方向也出现了 Cap3D、DiffuRank、LLaVA-3D 等专门做 3D 描述与问答的方法。

现有痛点：一旦进入古希腊陶器这种专业文化遗产领域，现有模型立刻露怯。一方面，古陶器是典型的长尾数据，公开数据集里几乎没有它们的高质量 3D 表示；另一方面，由于缺乏针对性训练数据，没有任何现成 VLM 能胜任这种需要考古专业知识的任务（陶器的胎质、制陶技法、器型、断代、纹饰、归属画师都不是靠常识能答的）。

核心矛盾：陶器的考古价值恰恰落在空间特征上——对称性、比例、形态、完整几何结构，这些是碎片化的 2D 视图无法完整刻画的；但现实中能拿到的高质量素材又主要是 2D 馆藏照片，且充斥着碎片、模糊图、素描。也就是说，「3D 理解的必要性」和「只有脏 2D 数据可用」之间存在张力。

本文目标：(1) 把脏的 2D 陶器图像系统性地转成高保真 3D 资产并配上考古问答，填补 3D 文化遗产 benchmark 的空白；(2) 训练一个真正懂陶器的领域专用 VLM。

切入角度：既然单图 2D-to-3D 重建技术（TripoSG、Hunyuan3D）已经成熟，就可以把海量 2D 馆藏照片「升维」成 3D 模型，再渲染成多视角/旋转视频喂给 VLM；同时陶器的标注天然分解成六个考古维度，这正好可以当作强化学习里的「可验证答案」。

核心 idea：用「严格过滤 + 单图 3D 重建 + 六维考古语义结构化」造出 3D 陶器 VQA 数据，再用「LoRA-SFT 打底 + GRPO/RLVR 六维可验证奖励」把通用 VLM 调成陶器专家。

方法详解¶

整体框架¶

整篇工作其实是一条端到端的「2D 脏数据 → 3D 专用 VQA 模型」流水线。输入是 VaseVQA 提供的 3 万多张古希腊陶器 2D 照片及其考古元数据，输出是 (a) 数据集 VaseVQA-3D（664 个 GLB 3D 模型 + 4460 条结构化问答 + 清洗后的描述 caption），以及 (b) 在其上训练的领域模型 VaseVLM。

整条流水线分四个动作：先用 ResNet-50 + 双重 CLIP 把 3 万张图过滤到 3880 张高质量图；再用 TripoSG 把这些 2D 图逐张重建成 664 个 3D 模型（选型前先用 24 个真实 GLB 组成的 VaseEval 验证集，对比 TripoSG 与 Hunyuan3D 后选定 TripoSG）；接着用 GPT-4o 把原始零碎的考古元数据清洗成连贯的博物馆式描述，并组织成围绕六个考古维度（胎质 Fabric、技法 Technique、器型 Shape、断代 Dating、纹饰 Decoration、归属 Attribution）的问答；最后把 GLB 渲染成 360° 旋转视频，用 LoRA-SFT + GRPO-RLVR 两阶段训练出 VaseVLM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：3万+张<br/>2D陶器照片 + 考古元数据"] --> B["三阶段质量过滤<br/>ResNet-50 + 双重CLIP<br/>30K→3880"]
    B --> C["2D→3D重建与选型<br/>VaseEval对比后选TripoSG<br/>3880→664个GLB"]
    C --> D["六维语义清洗<br/>GPT-4o整理元数据<br/>→4460条QA + caption"]
    D --> E["VaseVLM两阶段训练<br/>LoRA-SFT + GRPO/RLVR"]
    E --> F["输出：VaseVQA-3D数据集<br/>+ 领域专用模型VaseVLM"]

关键设计¶

1. 三阶段渐进式质量过滤：把脏 2D 数据筛成可重建的素材

原始 VaseVQA 数据集虽有 3 万多张图，却混杂着大量陶器碎片、模糊图甚至素描，直接拿去做 3D 重建会得到一堆垃圾模型。作者设计了一条三级递进过滤管线：第一级训练一个 ResNet-50 二分类器（基于人工标注「什么是好图」）做初筛，把低质量图直接剔除；第二级用 CLIP 做碎片检测——预设「完整陶器」与「陶器碎片」两类文本提示，比较图像与两类描述的相似度差异，二分类地剔掉碎片；第三级针对同一陶器存在多视角的问题，用 CLIP 计算每个视角图与高质量描述文本的相似度，只保留得分最高的那张作为代表视图。三级过滤后从 3 万张收敛到 3880 张高质量图（再经 3D 生成进一步落到 664），整体保留率约 2.2%，可见过滤之严格。这一步是后续所有环节质量的地基。

2. 单图 3D 重建 + VaseEval 验证集选型：把 2D 升维成可信的 3D 资产

光有干净 2D 图还不够，必须把它们变成 3D。作者面对 TripoSG 和 Hunyuan3D 两个当下领先的单图 2D-to-3D 方法，没有拍脑袋选，而是先专门从 Sketchfab 数字博物馆收集了 24 个高质量真实陶器 GLB 文件组成 VaseEval 验证集作为 ground truth。在 VaseEval 上对两种方法做定量对比（PSNR、SSIM、LPIPS、Chamfer Distance、Normal Consistency、CLIP-I/T），结论是 TripoSG 的网格质量更好、更贴近真值（虽然 Hunyuan3D 在纹理贴图上略有优势），于是选定 TripoSG 对 3880 张图做大规模重建，得到 664 个高保真 GLB 模型。VaseEval 的价值在于：它把「生成方法该选哪个」从主观判断变成了有真值依据的可量化决策。

3. 六维考古语义结构 + GPT-4o 元数据清洗：让问答真正考「考古知识」

陶器问答如果只问「这是什么颜色」就毫无专业价值。作者把每件陶器的标注组织成六个考古语义维度——胎质、技法、器型、断代、纹饰、归属画师，问答统一采用「What is the [attribute] of the vase?」的标准化格式，答案全部来自经核验的考古元数据，保证学术可靠与评测公平。但原始元数据往往是 Fabric: ATHENIAN; Technique: BLACK-FIGURE; ... 这种零碎带噪的结构化片段，作者用 GPT-4o 把它们整理成连贯的博物馆式描述（如「Athenian black-figure lekythos, c. 525–475 BCE」），关键是只做清洗去噪、不引入新的考古内容，从而在提升可读性的同时不破坏事实。最终每个 GLB 模型都配齐了结构化问答 + 清洗后的描述 caption。这个六维结构不仅定义了评测维度，也直接成为下一步强化学习奖励的拆解依据。

4. VaseVLM 两阶段训练：LoRA-SFT 打底 + GRPO/RLVR 六维可验证奖励

以 Qwen2.5-VL（3B/7B）为基座，VaseVLM 先做 LoRA 监督微调——训练输入是 GLB 渲染出的 360° 旋转视频 + 富含考古信息但表达简洁的 caption，建立陶器分析的基础能力；随后用 GRPO 做强化学习进一步优化。RLVR（可验证奖励强化学习）在这里特别自然：ground truth caption 本身就完整覆盖六个维度，rollout 阶段模型生成的描述可以逐维与标准答案核验，就像数学题对标准解。每个维度的奖励为

\[r_i = \begin{cases} \mathrm{sim}(g_i, t_i), & \text{if } \mathrm{sim}(g_i, t_i) \geq \tau \\ 0, & \text{otherwise} \end{cases}\]

其中 \(g_i\)、\(t_i\) 是该维度的生成内容与目标内容，\(\mathrm{sim}(\cdot,\cdot)\) 为余弦相似度，阈值 \(\tau = 0.7\)。六维带不同权重（胎质 \(w_f{=}0.20\)、技法 \(w_t{=}0.20\)、纹饰 \(w_{dec}{=}0.20\)、器型 \(w_s{=}0.15\)、断代 \(w_d{=}0.15\)、归属 \(w_a{=}0.10\)）。此外引入质量控制惩罚项 \(P = \alpha_l P_{length} + \alpha_r P_{repetition} + \alpha_i P_{irrelevant}\)（分别罚不当长度、重复措辞、无关内容，权重 \(\alpha_l{=}0.1,\alpha_r{=}0.1,\alpha_i{=}0.15\)）。最终奖励为

\[R = \sum_{i=1}^{6} w_i \cdot r_i - P + B,\]

其中 \(B\) 是基于序列匹配的相似度奖励项，整体奖励被约束到单位区间 \([0,1]\) 以保证策略优化的训练稳定性。这套设计的巧妙在于：把「描述好不好」从模糊的人评，拆成了六个可逐项验证、可加权、可惩罚的客观信号。

损失函数 / 训练策略¶

两阶段：① LoRA-based SFT，输入 360° 旋转视频 + caption，建立基础；② GRPO 强化学习，奖励即上面的六维 RLVR 函数。基座为 Qwen2.5-VL-3B/7B。全流程在 8× A100（80GB）上约 14.5 天（单卡折算），其中 3D 生成 13.5 天、SFT 4 小时、RL 训练 20 小时。

实验关键数据¶

主实验：数据集质量评测（部分模型，Table 3）¶

方法	FID↓	CLIP↑	R@10↑	R@5↑	R@1↑	词汇相似↑
DiffuRank（3D 专用）	0.421	0.798	16.67%	8.33%	2.08%	0.274
Gemini-2.5-Pro（闭源）	0.397	0.680	22.92%	14.58%	3.12%	0.162
GPT-4.1（闭源）	0.501	0.644	25.00%	10.42%	3.12%	0.128
Qwen2.5-VL-7B（开源基座）	0.334	0.775	18.75%	9.38%	2.08%	0.217
VaseVLM-7B-SFT（本文）	0.332	0.779	20.83%	10.42%	3.12%	0.272
VaseVLM-7B-RL（本文）	0.328	0.792	21.24%	11.12%	3.52%	0.276

VaseVLM-7B-RL 在 R@1 上相对最强基线提升约 12.8%（3.52% vs 3.12%，相对值），词汇相似度提升约 6.6%（0.276 vs 0.259，相对值），并在 FID 上取得最低 0.328。

数据过滤与 3D 生成选型（Table 1 / Table 2）¶

过滤阶段	输入	输出	保留率
初始采集	30,000	30,000	100%
ResNet-50 质量过滤	30,000	13,599	45.3%
CLIP 碎片过滤	13,599	6,330	46.5%
CLIP 视图选择	6,330	3,880	61.3%
3D 生成（TripoSG）	3,880	664	17.1%
整条管线	30,000	664	2.2%

3D 生成选型（24 个真值模型上）：TripoSG 的 SSIM 0.8676、LPIPS 0.1308、CD 0.1490、CLIP-I 0.8896 整体优于 Hunyuan3D（SSIM 0.8657、LPIPS 0.1319、CD 0.1515），因此选定 TripoSG。

人评（Table 4，10 位专家 0-5 分）¶

VaseVLM-7B-RL 平均 4.57 分排第 1，VaseVLM-3B-RL 4.37 分第 2，均优于 3D 专用模型 DiffuRank（4.07）与通用 VLM，验证了领域微调在「描述准确性 + 文化恰当性」上的优势。

关键发现¶

RL 优于 SFT：同尺寸下 7B-RL 比 7B-SFT 在 R@1（3.52% vs 3.12%）和词汇相似（0.276 vs 0.272）上都更好，说明六维可验证奖励确实带来增益。
过滤极其激进但必要：整条管线只保留 2.2% 的原始图，碎片/模糊图被大量剔除——这是 3D 重建质量的前提。
绝对指标仍偏低：即便最强模型 R@1 也仅 3.52%，反映古陶器这一长尾专业领域对所有 VLM 都极具挑战，benchmark 留有充足提升空间。

亮点与洞察¶

「2D 升维造 3D 数据」的范式很巧：在真实 3D 文化遗产数据稀缺时，用成熟的单图 3D 重建把海量 2D 馆藏照片转成 3D 资产，是绕开数据稀缺的实用路径，可迁移到其他只有 2D 照片的文物领域。
VaseEval 把生成选型变成可量化决策：用一小批真实 GLB 当真值来选生成方法，而非主观判断，这个「小验证集驱动选型」的思路简单但靠谱。
六维语义既是评测轴也是奖励轴：同一套考古维度同时服务于结构化问答评测和 RLVR 奖励拆解，设计统一、复用度高——把领域知识结构化后，可验证奖励几乎是「免费」的。

局限与展望¶

数据规模偏小：最终只有 664 个 3D 模型、4460 条问答，对训练强模型而言体量有限，绝对指标低也部分源于此。
3D 质量受限于单图重建：TripoSG 从单张图重建，无法还原真实陶器背面/内部等被遮挡结构，纹理也可能失真，3D「保真」是相对的。
GPT-4o 清洗可能引入偏差：虽强调「只清洗不增内容」，但 LLM 重写仍有改变语义或风格的风险，作者未充分量化这一影响。
改进方向：扩充真实 3D 采集、引入多视角/多图重建提升几何完整性、把六维奖励扩展到更细粒度的考古子属性。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 3D 古希腊陶器 VQA 数据集 + 六维 RLVR，问题与组合都新
实验充分度: ⭐⭐⭐⭐ 过滤/生成/数据集质量/人评多维评测，但数据规模与绝对指标偏低
写作质量: ⭐⭐⭐⭐ 管线讲述清晰，公式与图表完整
价值: ⭐⭐⭐⭐ 为数字文化遗产保护与「2D 升维」范式提供了可复用样板