跳转至

🕸️ 图学习

📷 CVPR2026 · 9 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (8) · 🔬 ICLR2026 (21) · 🤖 AAAI2026 (38) · 🧠 NeurIPS2025 (52) · 📹 ICCV2025 (1) · 🧪 ICML2025 (31)

🔥 高频主题: 多模态 ×4 · RAG ×2 · 推理 ×2

Adaptive Learned Image Compression with Graph Neural Networks

GLIC 把学习图像压缩里的非线性变换从固定卷积或窗口注意力,改造成由图神经网络驱动的内容自适应连接:先用双尺度图决定“连到哪里”,再用复杂度感知机制决定“连多少”,从而更好地建模局部与远程冗余,在三个标准数据集上都显著超过传统编解码器和近期 LIC 强基线。

Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning

提出 G2F-RAG 范式,将检索到的结构化知识渲染为单帧"推理帧"附加到视频末尾,使大模型在视觉空间内统一推理,避免了文本追加导致的注意力稀释和认知负荷,在 8 个视频基准上实现免训练的一致性提升。

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

提出 Graph2Eval,一个知识图谱驱动的 agent 评估任务自动生成框架——通过从文档/网页构建结构化知识图谱、子图采样、LLM 条件生成和多阶段过滤,自动产出语义一致(+20%)且可解(+17%)的多模态 agent 任务,构建了包含 1319 个任务的 Graph2Eval-Bench。

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

提出 Graph2Eval,利用从异构数据源构建的知识图谱作为结构化任务空间,通过子图采样、任务模板和 meta-path 策略自动生成语义一致且可解的多模态 agent 评估任务,生成的任务在语义一致性和可解性上分别提升 20% 和 17%。

Hyperbolic Busemann Neural Networks

利用 Busemann 函数将多类逻辑回归(MLR)和全连接层(FC)内蕴地提升到双曲空间,提出 BMLR 和 BFC 两个统一组件,在 Poincaré 球和 Lorentz 模型上同时适用,且在图像分类、基因组序列、节点分类、链接预测四类任务上均优于已有双曲层。

M3KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation

提出M3KG-RAG,通过轻量多Agent流水线构建多跳多模态知识图谱(M3KG),并设计GRASP机制进行实体定位和选择性剪枝,仅保留查询相关且有助回答的知识,大幅提升MLLM的音视觉推理能力。

Mario: Multimodal Graph Reasoning with Large Language Models

提出 Mario,针对多模态图(MMG)上的 LLM 推理,通过图条件视觉语言模型(GVLM)实现拓扑感知的跨模态对齐,再用模态自适应提示路由器(MAPR)为每个节点选择最优模态配置,在节点分类和链接预测上达到 SOTA。

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning

将过程知识图(PKG)通过可微Viterbi层端到端嵌入规划模型,使神经网络只需学习发射概率而非记忆完整过程结构,在CrossTask/COIN/NIV上以仅5-7M参数(比扩散/LLM方法少1-3个数量级)达到SOTA成功率,并建立了统一的评估基准。

WSGG: Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

本文提出世界场景图生成(WSGG)任务,将传统帧级场景图扩展为在统一世界坐标系下追踪所有物体(包括被遮挡/不可见的),配合 ActionGenome4D 数据集和 PWG/MWAE/4DST 三种互补方法实现持久化场景推理。