ProtoCycle: Reflective Tool-Augmented Planning for Text-Guided Protein Design¶
会议: ACL 2026 (Findings)
arXiv: 2604.16896
代码: https://github.com/huggggoooooo/ProtoCycle
领域: AI for Science / 蛋白质设计
关键词: 蛋白质设计, 文本引导, 反思规划, 工具增强, 强化学习
一句话总结¶
ProtoCycle提出一种将LLM作为规划器、结合轻量级工具环境的反思式智能体框架,用于文本引导蛋白质序列设计:它用多轮“规划-工具调用-评估-反思”循环替代一次性文本到序列生成,在 Mol-Instructions 上将 ProTrek 提升到 14.681、Retrieval 提升到 0.936,并只用约 2,000 条 SFT 轨迹和在线 RL 达到接近/超过专用蛋白质设计模型的语言对齐效果。
研究背景与动机¶
领域现状: 设计满足自然语言功能需求的蛋白质是蛋白质工程的核心目标。直接的方法是微调通用指令调优LLM作为文本到序列生成器,但这种方法数据和计算密集。
现有痛点: (1) 直接文本到序列的方法需要大量监督数据和计算资源;(2) 在有限监督下,LLM可以生成连贯的文本计划,但无法可靠地将其实现为蛋白质序列——存在计划-执行鸿沟(plan-execute gap);(3) 蛋白质设计需要迭代试错,但现有方法大多是一次性生成。
核心矛盾: LLM善于理解自然语言功能描述并生成计划,但不善于直接从文本映射到有效的蛋白质序列,尤其在训练数据有限时。
本文目标: 构建一个利用LLM规划能力同时弥补其序列生成弱点的蛋白质设计框架。
切入角度: 借鉴人类蛋白质工程师的迭代工作流——不是一步生成,而是"规划→执行→反馈→修正"的多轮循环,将LLM定位为规划器而非生成器。
核心idea: 将LLM规划器与轻量级工具环境耦合,工具提供序列操作和评估功能,LLM通过反思工具反馈来迭代修正设计方案,并通过监督轨迹+在线强化学习训练来提升Agent能力。
方法详解¶
整体框架¶
ProtoCycle 将文本引导蛋白质设计形式化为一个多步决策过程。给定自然语言需求 \(r\),planner 在第 \(t\) 轮基于历史状态、工具反馈和原始需求输出状态 \(s_t\) 与工具动作 \(a_t\):\(a_t\) 被拆成工具类型和工具参数,随后由轻量级工具环境执行并返回反馈摘要。LLM 不直接吐出完整氨基酸序列,而是负责需求拆解、工具选择、策略更新、反思和终止判断;具体序列生成与局部编辑交给专门工具完成。
每轮输出采用 <think>、<plan>、<tool_call> 三段式协议。第一轮中,planner 把需求拆成细粒度子目标并规划工具调用顺序;后续轮次中,planner 读取前一轮工具返回的候选数量、当前最佳分数、历史最佳分数和增益 \(\Delta\),判断是继续当前计划、修改策略还是终止。终止前会触发 evaluation tool 对 top-5 候选重新评分,若还有改进空间则继续规划,否则输出最佳序列。
关键设计¶
1. 反思式多轮决策循环
- 功能: 模拟人类蛋白质工程师的迭代试错过程
- 核心思路: 每轮中 LLM 根据当前状态和历史反馈生成行动(如选择 scaffold、选择功能位点、调整局部描述),工具环境执行并返回候选序列及 ProTrek 分数摘要。LLM 显式反思“当前策略是否有效”,再决定继续、修改或停止。
- 设计动机: 蛋白质设计本质上是迭代优化过程,单次生成难以满足复杂功能要求。LLM驱动的反思机制使Agent能从失败中学习并调整策略
2. 轻量级工具环境
- 功能: 提供蛋白质设计所需的核心操作和评估能力
- 核心思路: 工具环境包含三个核心工具:scaffold generation 从 UniProt/Rhea/InterPro/QuickGO 等知识库检索并合并候选骨架;functional-site design 基于 ESM2-3B 生成局部位点变体;evaluation 用 ProTrek 和 Chai-1 评估语言对齐与可折叠性。
- 设计动机: LLM擅长高层规划但不擅长底层序列操作,工具环境弥补了这一短板,同时使设计过程可解释和可追溯
3. 监督+在线强化学习训练
- 功能: 分阶段训练Agent的规划和反思能力
- 核心思路: 第一阶段用 2,000 个 Mol-Instructions 训练样本构造的工具交互轨迹做 SFT,只在 planner 状态 \(s_1,\ldots,s_n\) 上计算交叉熵,使模型学会
<think>/<plan>/<tool_call>协议。第二阶段在真实工具环境中用 GRPO 做在线 RL,reward 同时鼓励格式正确、工具使用合理、在差反馈后反思以及适度轮数内完成任务。 - 设计动机: 监督学习提供冷启动能力,RL进一步优化超越专家水平的策略
实验关键数据¶
主实验¶
| 模型 | PPL↓ | Repeat↓ | pTM↑ | pLDDT↑ | PAE↓ | ProTrek↑ | EvoLLaMA↑ | Retrieval↑ |
|---|---|---|---|---|---|---|---|---|
| Natural | 4.737 | 2.129 | 0.762 | 0.815 | 9.443 | 14.628 | 0.328 | 0.848 |
| Qwen2.5-7B-Agent | 8.235 | 5.153 | 0.542 | 0.699 | 15.299 | 6.926 | 0.261 | 0.523 |
| Qwen2.5-72B-Agent | 7.414 | 5.341 | 0.618 | 0.714 | 13.343 | 8.791 | 0.267 | 0.563 |
| Qwen3-8B-Agent | 7.227 | 3.795 | 0.650 | 0.723 | 13.493 | 8.705 | 0.277 | 0.573 |
| ProDVa | 5.265 | 1.580 | 0.765 | 0.800 | 8.761 | 12.037 | 0.317 | 0.730 |
| Pinal | 3.990 | 9.317 | 0.792 | 0.825 | 7.768 | 14.162 | 0.318 | 0.807 |
| ProtoCycle-SFT | 4.149 | 2.902 | 0.734 | 0.807 | 10.200 | 12.502 | 0.317 | 0.840 |
| ProtoCycle-RL | 3.865 | 2.549 | 0.775 | 0.822 | 8.543 | 14.681 | 0.323 | 0.936 |
ProtoCycle-RL 在语言对齐上最强:ProTrek 相比 Pinal 提升 3.66%,相比 ProDVa 提升 21.97%;Retrieval 达到 0.936,明显高于 Natural、Pinal 和 ProDVa。折叠质量方面,它相较 Pinal 的 pTM/pLDDT 略低、PAE 略高,但相较 ProDVa 在 pTM、pLDDT、PAE 上都更好,说明 agentic workflow 没有牺牲基本结构可折叠性。
消融实验¶
| 实验 | 关键结论 |
|---|---|
| ProtoCycle-RL vs ProtoCycle-SFT | ProTrek 从 12.502 到 14.681,Retrieval 从 0.840 到 0.936;PPL 和 Repeat 分别下降 6.85% 与 12.16% |
| CAMEO 泛化 | ProtoCycle-RL 未用 keyword-style 数据训练,仍达 pLDDT 0.80、ProTrek 11.17、Keyword Recovery 0.59 |
| 单工具质量 | Scaffold search: ProTrek 11.42、PAE 8.96、pLDDT 0.83;Functional-site design: ProTrek 12.87、PAE 10.73、pLDDT 0.80 |
| 工具延迟 | Scaffold search 约 4s/round;functional-site design 约 20s/seq;ProTrek-35M 约 3s/round;ProTrek-650M 约 40s/round |
| 反思机制 | 反思 planner 的语言对齐分数接近无反思版本的 2 倍;有效工具调用率约 +20%,带来改进的工具调用率约 +40% |
关键发现¶
- LLM 更适合规划而非直接生成蛋白序列: 直接 SFT Qwen2.5-7B 时,ProTrek 随数据增加只从约 1 提升到 7,离 ground-truth 14.6 仍很远;power-law 外推显示要接近 12 可能需要约 \(6\times10^8\) 监督样本。
- 序列 token 的 epistemic uncertainty 更高: 规划 token 和序列 token 的 aleatoric uncertainty 类似,但序列 token 的 epistemic uncertainty 系统更高,说明模型在 residue-level 决策上证据不足。
- RL 主要提升语言对齐和检索: 相比 SFT-only,在线 RL 显著提升 ProTrek 和 Retrieval,同时降低 PPL/Repeat。
- 反思不是格式装饰: 仅学习
<think>/<plan>格式但不反思,与固定 Workflow 差别有限;真正有效的是根据工具反馈修改策略和及时停止。
亮点与洞察¶
- 跨域思路迁移: 将NLP/AI Agent领域的"规划+工具调用+反思"范式成功迁移到蛋白质设计领域,展示了Agent框架的跨域潜力
- 弥合计划-执行鸿沟: 明确识别了LLM在蛋白质设计中的"能说不能做"问题,并通过工具环境提供了优雅的解决方案
- 迭代优化vs一次生成: 蛋白质设计不适合一步到位,多轮反馈循环更符合领域实际工作流
- 监督+RL训练策略: 在Agent训练中平衡了模仿学习和探索学习,是训练复杂Agent的有效范式
局限与展望¶
- 功能位点设计工具仍较轻量: 当前工具适合在现实计算预算内提高候选质量,但不能保证生成理想序列,尤其难以严格实现高特异性结合或催化几何。
- agentic workflow 存在吞吐量-质量权衡: ProtoCycle 在规划和评估中多次调用结构/功能工具,计算成本高于一次性生成器。
- 评估仍以计算指标为主: 语言对齐、foldability 和 keyword recovery 都是有用 proxy,但不能替代湿实验验证。
- 工具反馈可能带来偏差: 如果 ProTrek、Chai-1 或检索工具对某些蛋白家族覆盖不足,planner 会继承这些偏差。
- 复杂功能设计仍未被彻底解决: 论文定位是提高文本引导设计流程,而不是给出可直接保证功能的 de novo protein design 方案。
相关工作与启发¶
- 蛋白质LLM (ProtGPT2, ESM等): 直接用LLM生成蛋白质序列的方法,ProtoCycle改为将LLM用作规划器
- AlphaFold: 蛋白质结构预测工具,可作为ProtoCycle工具环境中的评估组件
- ReAct/OctoTools等Agent框架: NLP领域的Agent框架思路,ProtoCycle将其迁移到蛋白质设计
- RLHF/在线RL: 训练方法借鉴了NLP中的RLHF范式,用工具反馈替代人类反馈
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将Agent范式引入蛋白质设计是有趣的跨域尝试,反思式迭代设计符合领域直觉
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 Mol-Instructions、CAMEO 泛化、工具效率和反思消融,但仍缺少湿实验验证
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰(plan-execute gap),框架设计直观
- 价值: ⭐⭐⭐⭐ — 展示了LLM Agent框架在科学发现领域的应用潜力,为蛋白质设计提供了新范式