跳转至

🧬 计算生物

📷 CVPR2025 · 5 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (35) · 💬 ACL2026 (5) · 📷 CVPR2026 (11) · 🔬 ICLR2026 (38) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (72)

DiffVsgg: Diffusion-Driven Online Video Scene Graph Generation

提出 DiffVsgg 将视频场景图生成(VSGG)建模为沿时间轴的迭代去噪问题——用共享特征嵌入统一目标分类、框回归和关系预测三个任务,通过潜在扩散模型做空间推理+用前帧预测作条件做时序推理,首次实现在线VSGG且在 Action Genome 三个评估协议上全面 SOTA,R@10 超越 DSG-DETR 3.3 个点。

Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation

提出 ERBA 适配器,将酶动力学预测建模为"底物识别→构象适应"的分阶段条件化过程,通过 MRCA 注入底物语义、G-MoE 融合活性位点3D几何、ESDA 保持 PLM 先验,在 kcat/Km/Ki 三个动力学端点上一致超越现有方法。

SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules

提出 SHREC 算法,利用图拉普拉斯算子的谱嵌入技术,从冷冻电镜二维投影图像中直接恢复螺旋分子的投影角度,无需预知螺旋对称参数(rise/twist),仅需已知轴对称群 \(C_n\),在多个公开数据集上实现了接近原子分辨率的从头螺旋结构重建。

Synthetic Visual Genome

提出SVG(Synthetic Visual Genome)数据引擎,通过GPT-4在已有人工标注基础上补全缺失关系(Stage 1)和Robin自蒸馏+GPT-4编辑(Stage 2/SG-Edit)两阶段管道,生成146K图像、2.6M物体、5.6M关系的密集场景图数据集,训练的Robin-3B模型仅用<3M实例即超越300M实例训练的同尺寸模型,在指代表达理解上达到88.9的SOTA。

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

本文提出 World Scene Graph Generation (WSGG) 任务和 ActionGenome4D 数据集,将视频场景图从以帧为中心的 2D 表示升级为以世界为中心的 4D 表示,要求模型对所有物体(包括被遮挡或离开视野的不可见物体)在世界坐标系中进行 3D 定位和关系预测,并提出三种互补方法(PWG/MWAE/4DST)探索不同的不可见物体推理归纳偏置。