CoLLM-NAS: Collaborative Large Language Models for Efficient Knowledge-Guided Neural Architecture Search¶

会议: CVPR 2026
arXiv: 2509.26037
代码: 无（论文未公开）
领域: LLM应用 / 神经架构搜索（NAS） / AutoML
关键词: 神经架构搜索, LLM作为优化器, 双LLM协作, 两阶段NAS, 知识引导搜索

一句话总结¶

用两个分工互补的 LLM（有记忆的 Navigator 负责出策略、无记忆的 Generator 负责出候选架构）替换两阶段 NAS 第二阶段里的进化算法，把架构搜索变成"轨迹→策略→方案"的定向优化，在 ImageNet 和 NAS-Bench-201 上既刷新 SOTA 又把搜索成本压低 4–10×。

研究背景与动机¶

领域现状：两阶段 NAS（如 SPOS、OFA、AutoFormer）是当前主流——先训一个权重共享的超网（supernet），再在第二阶段从超网里采子网、直接继承权重做评估，省去了逐个从头训练的开销。第二阶段的"搜"通常交给进化算法（EA）、随机搜索或强化学习。

现有痛点：第二阶段的进化算法靠变异/交叉这类局部、无方向的随机扰动来探索，缺乏对整个性能曲面的全局理解，往往要采样并评估上千个候选架构才能逼近最优，既慢又容易陷局部最优。另一条路线——直接让 LLM 在代码 token 空间改架构（如 EvoPrompting、LLMatic）——又会生成非法架构、鲁棒性差、且每个候选都要独立从头训，结果在标准 benchmark 上反而打不过传统 NAS，还烧掉大量算力。

核心矛盾：LLM 自带的架构设计先验很有价值，但放进"无约束的代码 token 空间"里就会失控（架构非法、要独立训练）；传统两阶段 NAS 的超网评估很高效，但它的搜索引擎（EA）又太"瞎"。两者的优势没被合到一起。

本文目标：在保留两阶段 NAS 高效评估（超网权重共享）的前提下，把第二阶段的 EA 换成 LLM 的知识引导推理，让搜索能"有方向地"快速收敛到高性能区域，同时不引入非法架构问题。

切入角度：作者先做了一个 proof-of-concept——在 NAS-Bench-201 上让 LLM（Qwen3-30B-A3B）在不看真实精度的情况下，仅凭对网络设计原则的理解给 10 个架构排序，结果 Kendall's \(\tau\) 在 CIFAR-10/100 上达到 0.89/0.90，且绝大多数试验都能挑出最优架构。这说明 LLM 确实"内化"了架构设计知识，可以当搜索的暖启动。

核心 idea：用"有状态 Navigator + 无状态 Generator"的双 LLM 协作，把架构搜索重写成"轨迹→策略→候选"的定向优化，在预训练超网的合法搜索空间里搜，兼得 LLM 先验 + 渐进式反馈知识。

方法详解¶

整体框架¶

CoLLM-NAS 只动两阶段 NAS 的第二阶段：超网照旧用各 baseline 的预训练权重，搜索引擎换成两个 LLM + 一个协调器的循环。一次搜索是这样转的：Navigator 先根据目标精度 \(P_{target}\) 和资源约束 \(\Lambda\)（FLOPs/参数量）给出一份初始探索策略；Coordinator 把策略转交给 Generator，后者合成一批符合搜索空间约束的候选架构；Coordinator 校验合法性、用超网权重快速评估每个候选的精度与代价、并把已访问架构存档去重；评估结果回灌给 Navigator，让它精炼下一轮策略。如此迭代，直到达到目标精度或迭代上限 \(T\)。整个过程里 Navigator 累积历史轨迹 \(\mathcal{H}\)，Generator 每轮"忘掉"上一轮、只看当前策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：目标精度 + 资源约束"] --> B["Navigator LLM<br/>有记忆·出搜索策略"]
    B --> C["Coordinator<br/>转发策略·校验·评估·存档"]
    C --> D["Generator LLM<br/>无记忆·按策略合成候选架构"]
    D --> C
    C -->|"达标或到迭代上限"| E["输出：最优架构 α*"]
    C -->|"未达标：回灌评估结果"| B

关键设计¶

1. 有状态 Navigator LLM：把优化轨迹抽象成自然语言策略

EA 的搜索是"无方向的局部扰动"，缺全局视野。Navigator 的作用就是补上这个全局大脑：它带持久记忆，每轮分析已评估架构暴露出的性能规律，动态地制定并精炼搜索策略，让策略逐步聚焦到高潜力区域。初始阶段它被提示去建立一个"促进架构多样性"的探索策略（靠 LLM 对架构的隐式理解提升初始种群质量）；随着反馈累积，它从"广探索"过渡到"针对已发现高性能区的精确利用"，即 \(\mathcal{S}_t \leftarrow \textsc{NavigatorLLM}(\mathcal{H}_t)\)。关键在于它输出的是抽象的自然语言策略而非具体架构——这一步让推理停留在更高抽象层，避免过拟合到具体的架构语法

2. 无状态 Generator LLM：只盯当前策略合成合法候选

如果让一个 LLM 既反思又生成，记忆会把噪声越滚越大。Generator 因此被设计成无记忆的专职架构合成器：每轮只看 Navigator 当前给的策略 \(\mathcal{S}_{t-1}\)，把抽象策略翻译成具体候选架构 \(\mathcal{C}_t \leftarrow \textsc{GeneratorLLM}(\mathcal{S}_{t-1})\)，且这些候选天然满足搜索空间约束、同时体现当前策略强调的架构模式。和 OPRO 那种"单 LLM 直接把轨迹映射到方案"相比，本文拆成"轨迹→策略→方案"两步生成式流程：\(\mathcal{S}_t \leftarrow \textsc{NavigatorLLM}(\mathcal{H}_t)\)，\(\mathcal{C}_{t+1} \leftarrow \textsc{GeneratorLLM}(\mathcal{S}_t)\)。这种"有状态 Navigator + 无状态 Generator"的搭配，本质上是把探索（记忆驱动的策略演化）与利用（无记忆的精准合成）解耦，作者实测发现：保留 Generator 的记忆反而会累积噪声导致性能下降

3. Coordinator：在合法搜索空间里做高效评估与去重

直接让 LLM 在代码 token 空间改架构会生成非法结构、且要逐个从头训。Coordinator 把这两个坑都堵上：它编排两个 LLM 的通信、用 isLegal 校验每个候选的合法性（继承自预训练超网的搜索空间，天然避免非法架构）、用权重共享机制直接从超网继承权重做快速精度评估（无需重训），并维护一个已访问架构的存档 \(\mathcal{V}\) 来消除重复评估。正是"在成熟两阶段 NAS 的合法搜索空间内搜 + 超网评估"这一点，让 CoLLM-NAS 能 scale 到 ImageNet 级别的数据集，而代码级 LLM-NAS 方法做不到

⚠️ 三类知识来源的统一：框架里 Navigator/Generator/Coordinator 三个组件分别对应上面三个设计点。两路知识——LLM 自带的架构先验（暖启动）+ 从轨迹累积的渐进知识（Navigator 学到的隐式性能曲面模型）——通过 Navigator 与 Generator 的协作合到一处。

损失函数 / 训练策略¶

本文不训练任何模型，LLM 全程冻结、零微调。基础 LLM 用 Qwen3-30B-A3B，经 vLLM 本地部署，temperature 0.6，开启 chain-of-thought 推理。为防"知识污染"，prompt 里刻意不传任何显式的搜索空间/benchmark 信息，只通过 system prompt 给三个 LLM 分配角色、告知协作流程和架构表示方式。搜索预算固定：宏搜索空间最多探索 250 个架构，NAS-Bench-201 上最多探索 100 个架构。

实验关键数据¶

主实验¶

宏搜索空间（ImageNet），把 CoLLM-NAS 接到三种两阶段 NAS baseline 上，GPU Days 仅算搜索阶段：

搜索空间	方法	Top-1 (%)	FLOPs (M)	GPU Days	Arch. Budget
MobileNet	OFA-L	78.7	499	0.42	1000
MobileNet	OFA-L + Ours	79.0	498	0.09 (↓4.7×)	250 (↓4×)
ShuffleNet	SPOS	73.7	323	0.32	1000
ShuffleNet	SPOS + Ours	74.4	325	0.07 (↓4.6×)	250 (↓4×)
AutoFormer	AutoFormer-B	82.1	11305	1.0	1000
AutoFormer	AutoFormer-B + Ours	82.3	11074	0.1 (↓10×)	250 (↓4×)

跨三种搜索空间一致地：精度最多提升 0.7%，搜索成本降 4–10×，探索的架构数从 1000 降到 250。

与 SOTA NAS 方法横向比（ImageNet，~320M FLOPs 档）：

方法	类型	Top-1 (%)	Top-5 (%)	FLOPs (M)
OFA	两阶段 NAS	77.5	93.5	330
SUMNAS	两阶段 NAS	77.6	-	349
GENIUS	LLM-NAS	74.9	-	-
LM-Searcher	LLM-NAS	75.1	-	-
Ours	LLM-NAS	77.9	93.8	320

CoLLM-NAS 以 320M FLOPs 拿到 77.9% Top-1，超过所有列出的手工设计 / 可微分 NAS / 两阶段 NAS / LLM-NAS 方法。

NAS-Bench-201（精度均为 test，10 次独立运行平均）：

方法	CIFAR-10	CIFAR-100	ImageNet-16-120
Evolutionary Algorithm	94.23±0.25	72.82±0.87	46.49±0.60
RZ-NAS†	94.24±0.12	73.30±0.21	46.24±0.23
LM-Searcher	94.20	72.96	46.51
Ours	94.37±0.01	73.44±0.15	46.79±0.28
Optimal（上界）	94.37	73.51	47.31

本文在 CIFAR-10 上已逼近理论最优 94.37，且标准差远小于 EA/RL，鲁棒性更好；仅探索至多 100 个架构。

消融实验¶

消融维度	配置	结论
协作机制	SiLLM-NAS（单 LLM 兼任反思+生成）	各数据集上一致被 CoLLM-NAS 超过；尤其 CoLLM-NAS 的初始种群更好，凸显 Navigator 初始探索的关键作用
记忆保留	低复杂度（CIFAR-10/100）	两个 LLM 都不保留记忆最优，迭代反馈本身够用
记忆保留	高复杂度（ImageNet-16-120/ImageNet）	保留 Navigator 记忆、关掉 Generator 记忆最优；保留 Generator 记忆会累积噪声、性能下降
Prompt 改写	Claude Sonnet 4 / GPT-5 / DeepSeek-R1 改写 prompt	三个变体性能相当（Variant 2 在 ImageNet-16-120 上 46.89 还超过原版 46.79），说明增益来自框架而非措辞
不同 LLM	Qwen3-32B / DeepSeek-R1-Distill-Qwen-32B / -Llama-70B	各 LLM 都保持强性能，方法不绑定特定 LLM

关键发现¶

Navigator 的记忆是高难任务的关键：数据集越难，历史轨迹越重要；但 Generator 必须无记忆，否则噪声累积反伤性能——这正是"有状态+无状态"非对称设计的实证依据。
协作 > 单体：把两个角色合进一个 LLM（SiLLM-NAS）会变差，尤其初始种群质量明显下降，说明"出策略"和"出候选"分工确有收益。
增益与措辞/LLM 无关：换 prompt 改写者、换不同开源 LLM，性能都稳，证明收益来自协作框架本身，可复现性强。
下游迁移：把 MobileNet 搜索空间搜到的架构当 FCOS 检测器 backbone、在 COCO 1× schedule 上训，表现良好，泛化到检测任务。

亮点与洞察¶

"有状态 Navigator + 无状态 Generator"的非对称记忆设计很巧：它把探索-利用的平衡直接编码进"谁有记忆"这一结构选择里，而且有清晰的消融证据（Generator 留记忆会累积噪声）——这是比"单 LLM 当优化器"（OPRO）更精细的一步。
不在代码 token 空间改架构，而是在成熟两阶段 NAS 的合法搜索空间内搜：一举解决了 LLM-NAS 的"非法架构 + 逐个重训"两大顽疾，也是它能 scale 到 ImageNet 的根本原因，这个"借超网评估"的思路可迁移到任何带预训练超网的 AutoML 流程。
"轨迹→策略→方案"两步生成：先让 LLM 在自然语言层面抽象出策略、再落成具体候选，避免过拟合架构语法——这个"先想策略再动手"的解耦对其他 LLM-as-optimizer 任务（如 prompt 搜索、超参优化）都有借鉴价值。
proof-of-concept 先验证再设计：用 Kendall's \(\tau\)=0.89/0.90 量化"LLM 真的懂架构排序"，给整个方法奠定了可信的前提，是值得学的论证姿势。

局限与展望¶

依赖成熟的两阶段 NAS 框架与预训练超网：方法的高效评估完全建立在"有现成超网可继承权重"之上，对没有超网、需要 from-scratch 评估的搜索空间不适用。
LLM 推理本身有额外开销：作者承认 LLM 推理引入成本，只是被"评估数大幅下降"摊薄了；在评估本身就很便宜的 micro 空间里，这个 trade-off 优势会缩小。
精度提升幅度有限：宏空间上最多 +0.7%，核心卖点其实是"省 4–10× 成本"而非精度飞跃；CIFAR-10 已贴近最优上界，进一步提升空间天花板明显。
未开源：无代码，prompt 工程与协作细节的可复现性需要等放出代码验证。
泛化到 NAS 之外仍是展望：作者提到框架可扩展到 NAS 以外，但论文未给实证，属未来工作。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把 LLM 与两阶段 NAS 结合的工作，"非对称记忆双 LLM"设计有想法，但整体仍属"LLM as optimizer"范式下的具体实例。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 个宏空间 + NAS-Bench-201，含协作/记忆/prompt 改写/不同 LLM/下游检测多维消融，证据链完整。
写作质量: ⭐⭐⭐⭐ 动机清晰、proof-of-concept 先行，pipeline 和算法表达到位；部分关键细节（prompt、Coordinator 实现）放附录。
价值: ⭐⭐⭐⭐ 4–10× 成本下降 + SOTA，对做 NAS/AutoML 的人有直接的工程价值，"借超网做合法高效评估"的思路可复用。