🧬 计算生物¶

💬 ACL2025 · 6 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (21) · 🔬 ICLR2026 (155) · 💬 ACL2026 (5) · 🧪 ICML2026 (51) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (76)

🔥 高频主题： 生物分子 ×4

Align-Pro: Align Protein Representations Through Multi-Modal Learning: Align-Pro通过多模态对比学习框架，将蛋白质的序列、结构和功能描述三种模态的表示对齐到统一的嵌入空间中，从而实现跨模态的蛋白质检索、分类和功能预测。
Concept Bottleneck Language Models For Protein Design: 本文将概念瓶颈模型（Concept Bottleneck Model）的可解释性设计理念引入蛋白质语言模型，通过中间层的生物学概念作为瓶颈，实现既能设计功能性蛋白质序列又能提供人类可理解的设计理由的蛋白质生成系统。
A Survey on Foundation Language Models for Single-cell Biology: 首篇从语言建模视角系统综述单细胞生物学基础语言模型，将现有工作划分为PLM（从头预训练）和LLM（利用已有大模型）两大类，全面分析tokenization策略、预训练/微调范式以及下游任务体系，并指出当前领域在数据质量、统一评测和scaling law方面的核心挑战。
Enhancing Safe and Controllable Protein Generation via Knowledge Preference Optimization: 提出KPO框架，通过构建蛋白质安全知识图谱(PSKG)并结合加权图剪枝策略识别"相似但安全"的蛋白质对，用DPO微调蛋白质语言模型使其远离有害序列空间，同时保持功能性。
LADDER: Language Driven Slice Discovery and Error Rectification in Vision Classifiers: LADDER 把预训练视觉分类器的内部激活"翻译"成自然语言、检索出与错误相关的句子，再让 LLM 据此推理出"模型在缺少哪个属性时会犯错"的可检验假设，从而无需任何属性标注就能发现并缓解任意现成分类器的多重偏见；在 6 个自然/医学数据集、200+ 分类器上一致超过 Domino/Facts/DFR 等基线。
Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification: 提出 R2E (Retrieve to Explain)，一种基于检索的架构，通过从文献语料库中检索证据来评分和排序所有候选答案，并利用 Shapley 值将预测忠实地归因到支撑证据，在药物靶点识别任务上超越了遗传学基线和 GPT-4 基线。