Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images¶

会议: ACL2026
arXiv: 2510.21828
代码: https://github.com/zjukg/STAR
领域: 多模态VLM / 知识图谱 / 结构化推理
关键词: MMRK图像, STAR任务, 多模态知识图谱, KGRPO, 合成指令数据

一句话总结¶

这篇论文提出面向多模态关系知识图像的 STAR 数据引擎和两阶段训练框架，用 STAR-64K 合成数据、CoT 标注与知识感知 KGRPO 显著提升 MLLM 对抽象结构化知识图像的理解和推理能力。

研究背景与动机¶

领域现状：多模态大模型已经能处理自然图像、图表、OCR、视觉数学题等任务，许多 benchmark 也在测试“抽象视觉信息”的理解能力，例如图表、示意图、数学图形和结构化文档。

现有痛点：多模态关系知识图像仍然很少被系统研究。这类图像不是普通照片，而是把实体、文本描述、图片和关系边组织成节点-边结构，要求模型同时识别实体、理解边类型、追踪图结构，并在此基础上做推理。

核心矛盾：MLLM 的视觉理解能力越来越强，但它们常被训练在自然场景和通用图表上；而 MMRK 图像的关键语义来自人为定义的高阶关系。模型如果只“看见节点”，却不能把节点之间的关系当作知识结构处理，就会在计数、错误检测、实体补全和关系推理上失败。

本文目标：作者要补齐两个缺口：一是没有大规模高质量 MMRK 指令数据，二是没有专门针对 STAR 能力的训练与评测协议。

切入角度：论文把现成多模态知识图谱转成可视化子图，再从子图生成八类任务与可靠 CoT。这样既避免人工标注成本，也能把图结构的真实答案、推理路径和视觉呈现绑定起来。

核心 idea：用多模态知识图谱自动合成 STAR-64K，再用 SFT + 偏好/RL 优化训练 MLLM，其中 KGRPO 额外奖励 CoT 中的知识正确性，以减少结构推理时的幻觉。

方法详解¶

这篇论文实际贡献是一个完整栈：数据引擎、训练协议、评测任务、强化学习策略和系统实验。

如果只看模型训练，容易低估它的价值；真正重要的是作者把“抽象结构化视觉知识”变成了可规模化生成、可训练、可评测的任务族。

整体框架¶

输入数据来自三个公开多模态知识图谱：VisualSem、FB15K-237 和 MKG-Y。

每个知识图谱可以写成实体集合、关系集合、三元组集合、实体图像集合与实体文本描述集合的组合。

数据引擎从图谱中抽取子图，将实体的图片和文本连同关系边一起可视化，形成 MMRK 图像。

然后引擎围绕同一类 MMRK 图像生成八类 STAR 任务：实体计数、关系计数、图像实体计数、三元组计数、子图描述、错误检测、实体推理、关系推理。

对于需要推理路径的任务，作者不直接让弱 MLLM 从图像中硬生成 CoT，而是利用可视化前的准确子图文本作为提示，让强 LLM 生成更可靠的 thought process 和答案。

训练分两阶段进行：第一阶段用 STAR-64K 做监督微调，建立基础 STAR 能力；第二阶段针对模型失败样本构造偏好数据或使用 RL 继续优化。

评测时不仅看最终答案，还看 CoT 质量；任务 5 的描述用相似度评分，其他任务用准确率和 CoT judge 评价。

关键设计¶

STAR 数据引擎:
- 功能：把 MMKG 中的实体、关系、图像和文本转换成可训练的多模态指令数据。
- 核心思路：先从 VisualSem、FB15K-237、MKG-Y 抽取子图，再用实体图片、实体文本和关系边渲染为 MMRK 图像；随后按八类任务生成问题、答案和 CoT。对于 CoT，作者使用子图的原始结构信息作为提示，使 reasoning trace 与真实三元组一致。
- 设计动机：直接人工标注 MMRK 图像既慢又难保证结构正确。利用知识图谱作为真相源，可以稳定得到图像、结构、答案和推理依据的对齐样本。
两阶段 STAR 能力增强:
- 功能：先让模型学会基本任务格式，再针对困难失败样本做定向优化。
- 核心思路：Stage 1 使用 SFT，目标是最大化给定图像和问题后生成答案的概率；Stage 2 有两条路线，一条是 DPO/ORPO/SimPO 等偏好优化，用 gold answer 作为 preferred、模型错误输出作为 unpreferred；另一条是 GRPO/KGRPO，用多样采样结果和奖励函数优化推理行为。
- 设计动机：SFT 对能力注入最关键，但它只是在平均意义上拟合数据；对复杂图推理中的幻觉、错误 CoT 和困难样本，偏好/RL 优化能给模型更强的纠偏信号。
知识感知 KGRPO:
- 功能：在 GRPO 的答案奖励之外，显式奖励 CoT 中事实知识是否正确。
- 核心思路：普通 GRPO 主要看最终结果，KGRPO 增加 knowledge-informed reward，用黄金知识和 CoT judge 检查推理过程中涉及的实体、关系和三元组是否与图结构一致。这样模型不仅要答对，还要沿着正确知识路径答对。
- 设计动机：MMRK 推理的失败常常不是“算错一个数”，而是在 CoT 里编造关系或误读节点。只奖励最终答案可能无法压制这种幻觉，KGRPO 则把结构知识约束引入训练目标。

损失函数 / 训练策略¶

SFT 阶段采用 next-token prediction，训练 MLLM 在图像和问题条件下生成答案与 CoT。

Stage 1 训练 3 个 epoch，使用 LoRA，最大序列长度 8192，BF16，AdamW 和 cosine scheduler。

Stage 2 的 PA 数据来自 Stage 1 后模型失败的训练实例：正确答案作为正样本，错误生成作为负样本。

KGRPO 继承 GRPO 的组内相对优势思想，但奖励函数同时包含最终答案质量和 CoT 中知识事实的一致性。

评估阶段使用 Qwen2.5-VL-72B 作为 judge，给 CoT 或非结构化输出打分。

这种策略把“视觉图像理解”“知识结构一致性”和“推理路径质量”绑在一起，避免只优化一个表层答案指标。

实验关键数据¶

主实验¶

主表显示，两阶段训练对 Qwen2.5-VL-3B/7B 的 STAR 平均表现提升很大，KGRPO 在 Stage 2 中最强。

模型 / 设置	Task#1 ACC	Task#2 ACC	Task#3 ACC	Task#5 Score	Task#8 ACC	AVG
GPT-4v	37.75	41.25	14.00	59.25	39.13	33.11
GPT-4o-mini	67.50	72.25	29.88	69.13	23.00	40.72
Qwen2.5-VL-3B Zero-shot	18.25	20.13	3.50	57.71	38.25	25.56
Qwen2.5-VL-3B S1 Full	42.75	67.00	57.13	59.94	56.00	53.24
Qwen2.5-VL-3B S2 KGRPO	75.00	85.38	68.63	71.51	68.57	63.64
Qwen2.5-VL-7B Zero-shot	6.13	12.25	0.13	68.62	42.88	21.24
Qwen2.5-VL-7B S1 Full	64.88	92.75	71.37	75.71	71.52	66.98
Qwen2.5-VL-7B S2 KGRPO	79.88	94.88	79.50	77.19	74.48	73.06

这个表最有意思的现象是，3B/7B 模型经过专门训练后可以超过更强闭源模型在 STAR 上的零样本表现，说明任务缺口主要来自数据和训练协议，而不只是模型规模。

消融实验¶

作者从模态贡献角度验证了 MMRK 图像中实体图片和实体文本都重要，其中文本信息影响通常更大。

Backbone / 配置	Task#1	Task#2	Task#3	Task#4	Task#5	Task#6	Task#7	Task#8
Qwen2.5-VL-7B w/o ent. images	55.50	75.88	48.62	26.63	67.99	32.00	52.63	65.75
Qwen2.5-VL-7B w/o ent. texts	59.13	74.62	47.88	25.37	67.90	34.87	41.50	68.12
Qwen2.5-VL-7B full dataset	64.88	92.75	71.37	27.62	75.71	55.87	67.50	80.13
Qwen2.5-VL-32B w/o ent. images	49.75	83.25	42.25	29.88	66.05	29.63	42.50	68.00
Qwen2.5-VL-32B w/o ent. texts	58.25	82.25	41.00	25.88	65.61	28.63	46.25	66.88
Qwen2.5-VL-32B full dataset	67.75	93.63	63.13	27.50	75.07	54.00	73.50	81.75

另一个关键分析来自训练设置对比：混合多任务训练通常优于单任务训练，CoT prompt 去掉后五个 backbone 都下降，说明 STAR 不只是视觉识别任务，而是需要显式结构化思考。

配置	关键指标	说明
S1 Single-task	Qwen2.5-VL-7B AVG 66.06	单任务能提升目标任务，但跨任务迁移弱
S1 Full STAR-64K	Qwen2.5-VL-7B AVG 66.98	混合任务带来更稳的结构化能力
S2 DPO	Qwen2.5-VL-7B AVG 68.84	偏好优化改善困难样本
S2 GRPO	Qwen2.5-VL-7B AVG 69.91	RL 进一步提升推理表现
S2 KGRPO	Qwen2.5-VL-7B AVG 73.06	知识奖励带来最强平均效果

关键发现¶

现有 MLLM 零样本处理 MMRK 图像明显不足，很多模型可以识别视觉元素，却不能稳定做关系级推理。
SFT 是最大增益来源，说明 STAR-64K 数据本身非常关键；Stage 2 的 KGRPO 则进一步减少 CoT 幻觉和困难样本错误。
多任务混合训练比只训练单一 STAR 任务更有迁移性，尤其对复杂推理任务更明显。
实体文本的贡献通常大于实体图片，但去掉任一模态都会削弱表现，说明 MMRK 图像的语义确实是多模态融合的。
Task#1 和 Task#4 的 scaling pattern 比较特殊，前者偏基础实体识别，后者受复杂计数和图结构干扰，不完全随数据量线性改善。

亮点与洞察¶

论文把多模态知识图谱从“KG completion 数据源”转化成“抽象视觉推理 benchmark”，这个视角很有价值。它让 MLLM 不再只处理自然图像，而要读懂人类组织出来的结构化知识图。
STAR 数据引擎的强点是答案可验证、CoT 可从真实子图生成。相比让 LLM 直接看图编推理，这种做法更能控制幻觉源头。
KGRPO 的思路很值得迁移：如果任务答案来自结构化知识，RL reward 就不应只看最终 label，而应检查推理过程里的实体和关系是否真实。
小模型经专门训练超过 GPT-4o 零样本表现，说明很多“抽象视觉推理能力”并非神秘涌现，而是训练分布覆盖不足。

局限与展望¶

数据源主要是通用百科型 MMKG，专业领域图谱、科学知识图谱、医学知识图谱等并未充分覆盖。
八类任务虽然系统，但仍是固定模板族，真实知识图像中的任务需求可能更开放，例如路径解释、反事实编辑、跨图对齐和多跳证据引用。
KGRPO 实验受算力限制，主要在 8B 以下模型上做 RL，对更大模型的训练效率和稳定性还需要验证。
CoT judge 使用强 MLLM 自动评分，虽然可规模化，但在细粒度知识错误上仍可能漏判。
图像渲染方式本身可能影响结果，例如节点布局、文本密度、边遮挡都会改变模型难度，未来可以把 layout robustness 纳入评测。

评分¶

新颖性: ⭐⭐⭐⭐⭐ MMRK 图像上的 STAR 数据引擎和 KGRPO 结合很有新意，任务定义也清楚。
实验充分度: ⭐⭐⭐⭐☆ 主实验覆盖 8 个开源 MLLM 和多种训练策略，RL 大模型规模验证略受限。
写作质量: ⭐⭐⭐⭐☆ 结构完整，表格扎实，但任务编号和大量 ACC/CoT 指标阅读成本较高。
价值: ⭐⭐⭐⭐⭐ 对多模态知识图谱、VLM 评测和结构化推理训练都有直接参考价值。