PCB-Bench: Benchmarking LLMs for Printed Circuit Board Placement and Routing¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Q5QLu7XTWx
代码: https://github.com/digailab/PCB-Bench
领域: LLM评估 / 工程AI / 多模态Benchmark
关键词: PCB设计, EDA, 大模型评测, 多模态推理, 基准数据集
一句话总结¶
PCB-Bench 是第一个系统评测(多模态)大模型在印制电路板(PCB)布局布线任务上能力的综合基准,用「纯文本 QA/CQ + 图文多模态 + 真实设计理解」三类任务覆盖约 3700 道文本题、约 500 道图文题和 174 个真实工程项目,揭示出当前前沿模型在空间布局推理、规则约束遵循和工程图纸解读上仍有明显短板。
研究背景与动机¶
领域现状:PCB 布局(placement)和布线(routing)是电子设计自动化(EDA)流程里最核心也最难的环节——工程师要在严格的物理、电气、制造约束下决定每个元件的精确位置和互连走线。传统做法依赖经典 EDA 算法(解析式全局布局、拥塞驱动布线),近几年强化学习在 IC 宏单元布局和联合布局布线上展现了竞争力,也开始出现首批面向 PCB 的 RL 系统。与此同时,GPT-4o、GPT-5、Claude、Gemini、DeepSeek、Qwen 等大模型在开放推理、代码生成、多模态 grounding 上能力惊人,自然引出一个问题:这些通用基座模型,到底能不能理解并操作 PCB 这类专家级工程任务?
现有痛点:这个问题几乎无人系统回答,原因有两层。其一,没有标准化基准——已有的 PCB 数据集(PCB-DSLR、DeepPCB、FICS-PCB、FPIC、PCB-Vision 等)几乎全是面向缺陷检测、元件识别的 RGB 图像集,没有一个覆盖「文本 ↔ 图像 ↔ 设计文件」的跨模态、规则驱动的布局布线评测。其二,PCB 数据本身稀缺且昂贵——设计成本高达每个引脚 \(0.2\sim0.5\) 美元,还要经过硬件流片验证,加上知识产权限制很少开源,连顶尖学术研究往往也只在不到 20 块板子上做实验,严重限制了可复现性。
核心矛盾:现有的 LLM-for-EDA 工作(text-to-HDL 助手、Verilog 代码生成评测)只考察文本能力,而 RL 布局方法只在固定规则下优化几何目标,两者都没有触及「在真实 PCB 工程约束下做跨模态对齐和规则推理」这一核心能力,留下了明显的评测空白。
本文目标:构建一个能同时考察文本推理、图文对齐、真实图纸理解三种能力的统一基准,把抽象语义(设计原则)和物理约束(信号完整性、走线规则)都装进可量化的评测任务里。
切入角度:作者观察到真实 PCB 设计天然就是多模态的——文本测推理、图像测空间 grounding、结构化设计文件提供领域知识,于是把基准也设计成三类互补任务,让每类任务对齐一种模态组合与推理目标。
核心 idea:用专家标注、双格式(开放式 QA + 选择题 CQ)、跨三模态的题库,把「大模型懂不懂 PCB 布局布线」这件事变成可系统比较的评测,而不是停留在零散的定性观察。
方法详解¶
整体框架¶
PCB-Bench 不是一个模型,而是一套评测基准,整体由「三类任务 + 一条构建流水线 + 一组评估协议」组成。三类任务并列对应三种模态组合:Task 1 纯文本 QA/CQ(约 1800 个开放式问答,每题配一个单选版本,合计约 3700 题,考文本层面的 PCB 知识推理);Task 2 图文多模态 QA/CQ(约 500 题,把 PCB 布局图和文字 prompt 配对,考视觉-语义对齐);Task 3 真实设计理解(174 个真实工程项目,只给 EDA 软件截图、让模型生成功能/结构描述,考纯视觉的工程图纸解读)。
题目本身由一条专家驱动的构建流水线产出:先从教材、网页、商用 MLLM 输出、领域专家、PCB 教育机构大纲等多源收集知识点,由人类专家设计结构化 syllabus 并圈定知识范围,再经多阶段问题生成(开放式+结构化双形式 → 标注 schema 与格式标准化 → 质量保证去歧义去冗余),最后所有题目都要过专家迭代审校,保证正确性、清晰度和工程相关性。评测侧用统一的零样本协议把各模型跑一遍,按任务类型套不同指标。三类任务、构建流水线、评估协议三块串起来,构成完整的「出题—审校—评测」闭环。
关键设计¶
1. 三模态任务体系:把真实 PCB 设计的多模态本质映射成三类互补评测
作者针对的痛点是「现有基准只测单一模态、无法覆盖 PCB 设计跨模态的真实需求」。解法是把基准拆成三个对齐不同模态组合的任务:Task 1 纯文本,覆盖布局与布线两大领域、Easy/Hard 两个难度、宏观(module placement、电源/地规划)与微观(信号完整性、高速走线)两个层级,横跨信号完整性、DFM、EMI/EMC、电源传输、差分对等 25+ 个子主题;Task 2 图文,把真实/仿真 PCB 布局图与自然语言 prompt 配对,覆盖元件识别、功能块识别、走线类型检测、过孔检查、差分对连续性分析等视觉-语义子任务,含 300 单选 + 100 完形填空 + 100 开放式 QA;Task 3 只给截图无文字,让模型对真实、含噪、异质的 PCB 设计图做开放式描述,模拟工程师拿到一块板先目检形成初步判断的场景。三个任务从「文本知识 → 图文对齐 → 纯视觉解读」逐级加码,让评测覆盖从抽象语义到物理空间的完整谱系,而不是单点考察。
2. QA+CQ 双格式设计:同一知识点同时支持生成式与判别式评测
痛点在于:选择题(CQ)虽然客观标准、好打分,但模型可以靠猜测和排除法蒙对,天然偏易、会高估能力;而开放式问答(QA)虽更贴近真实使用,却难以用精确字符串匹配来评判。作者的做法是让每个知识点同时产出一个开放式 QA 和一个对应的单选 CQ,形成「同题双形式」。这样 CQ 用 top-1 accuracy 考事实性判别能力,QA 用语义指标考生成式推理保真度,两者互为参照。实验也印证了这个设计的价值——CQ 普遍比 QA 容易,而且 CQ 准确率和 QA 语义对齐度并不总是相关(例如 InternVL3-78B 选择题很强但 QA 语义对齐偏低),说明判别能力和生成能力是两个维度,单看一个会误判模型的真实水平。
3. 专家驱动的多源构建与迭代审校流水线:保证工程真实性而非 LLM 自产自销
PCB 题目对专业性要求极高,若直接让 LLM 生成很容易出现似是而非的错误。作者用一条以人类专家为核心的流水线兜底:知识来源是教材、网页、商用 MLLM 输出、领域专家、PCB 培训大纲等多源互补;专家先设计结构化 syllabus 定范围,每个知识点经「双形式出题 → 标注 schema 与格式标准化 → 质量保证」三步生成候选题,最后全部题目过专家迭代审校,不仅校验技术正确性,还调整措辞使其更贴合真实工程推理。174 个真实设计则严格遵守开源许可、逐个保留 OSHWHub/JLCPCB 来源 URL,并额外引入一家 PCB 设计制造公司的工程师反馈来验证任务的产业相关性。这条流水线让基准的可信度建立在专家审校而非模型自洽之上。
4. 面向生成与判别的结构化评估协议:按任务类型匹配指标
不同任务对「答对」的定义不同,用单一指标会失真。作者按任务类型配指标:CQ 一律用 top-1 accuracy;开放式 QA 用 BERTScore 和 Sentence-BERT(SBERT)相似度衡量与参考答案的语义一致性——因为 PCB 答案常涉及专业术语、同义词和多样表述,精确匹配并不合适;Task 3 进一步报告 precision/recall/F1 以捕捉预测质量的互补侧面。全部模型在统一的零样本设定下评测,每道题独立呈现、不给示范,模拟模型不经微调直接上岗的真实部署场景。这套协议让生成式和判别式能力都能被量化比较,也暴露出 BERTScore 与 SBERT 有时并不一致、现有语义指标可能漏掉 PCB 特有正确性的问题。
实验关键数据¶
主实验¶
评测在统一零样本设定下进行,覆盖前沿闭源模型(GPT-4o/5、Claude-Opus-4.1、Gemini-2.5-Pro、DeepSeek-V3.1)、开源大模型(LLaMA-4-Maverick-400B、InternVL3-78B、Qwen 系列等)以及两个领域特化变体(Qwen2.5-7B 的 QLoRA 微调版与 RAG 版)。
Task 1(文本 QA/CQ)部分代表性结果(节选 Routing-Macro 与 Placement-Micro 的 CQ 准确率,%):
| 模型 | Placement-Macro CQ | Placement-Micro CQ | Routing-Macro CQ | Routing-Micro CQ |
|---|---|---|---|---|
| Claude-Opus-4.1 | 93.30 | 94.35 | 99.16 | 92.32 |
| GPT-4o | 92.74 | 93.82 | 98.32 | 91.13 |
| GPT-5 | 88.27 | 91.79 | 99.16 | 90.17 |
| DeepSeek-Chat-V3.1-671B | 92.74 | 93.64 | 97.48 | 88.49 |
| InternVL3-78B | 90.50 | 93.91 | 97.48 | 91.37 |
| Ministral-3B | 59.21 | 42.71 | 74.79 | 54.68 |
GPT-4o、Claude-Opus-4.1、DeepSeek-V3 构成第一梯队:Claude 在 CQ 准确率领先,GPT-4o 和 DeepSeek 在 QA 语义对齐上更强;GPT-5 整体有竞争力但 QA 保真度略弱。小模型(Ministral-3B、MythoMax-L2-13B)在 Hard/Micro 题上断崖式下滑。
Task 2(图文多模态)部分结果:
| 模型 | CBC Acc(%) | CBFB Acc(%) | BWEI Acc(%) | QAR-BERT |
|---|---|---|---|---|
| GPT-5 | 83.26 | 75.67 | 90.90 | 0.8561 |
| Gemini-2.5-Pro | 81.08 | 84.00 | 100.00 | 0.8362 |
| LLaMA-4-Maverick | 77.60 | 70.66 | 54.54 | 0.8226 |
| InternVL-3-78B | 76.83 | 54.66 | 45.45 | 0.8357 |
| Qwen3-VL-8B-Instruct | 75.28 | 58.66 | 45.45 | 0.8161 |
(CBC=基础元件单选,CBFB=基础元件完形,BWEI=基础走线错误识别,QAR=布线问答)GPT-5 综合表现最均衡,Gemini-2.5-Pro 在 CBFB 和 BWEI(满分 100%)上突出;开源模型在 BWEI 这类需要细粒度视觉判断的题上掉到 45%~55%。
消融实验¶
论文没有传统意义上的模块消融(它是基准而非模型),但通过领域特化变体与跨维度对比起到了类似分析作用:
| 配置 | 关键现象 | 说明 |
|---|---|---|
| 通用大模型 vs 小模型 | 规模越大越强 | Gemini-2.5、GPT-4o/5、Claude、Qwen-VL-Max 领先,3B/12B 模型在 Hard 题大幅落后 |
| Qwen2.5-7B + QLoRA(D.S.) | SBERT 语义对齐提升 | 领域微调把 SBERT 从 ~0.22 提到 ~0.48~0.60,但 CQ 准确率未超前沿模型 |
| Qwen2.5-7B + RAG(D.S.) | 语义相似度提升 | 检索增强同样提升语义对齐,仍不及闭源前沿模型 |
| CQ vs QA | CQ 始终比 QA 容易 | 选择题可猜测/排除,QA 语义对齐普遍偏低 |
| BERTScore vs SBERT | 两者并不总一致 | 现有语义指标各测一面,可能漏掉 PCB 特有正确性 |
关键发现¶
- 判别 ≠ 生成:CQ 准确率和 QA 语义对齐常常背离,模型可能选择题答得好却写不出对的开放式解释,单一指标会高估能力——这正是双格式设计要捕捉的。
- 多模态是最大短板:Task 2 的走线错误识别(BWEI)上,开源模型普遍掉到 45%~55%,说明视觉 grounding 与文本推理的对齐机制仍不成熟,即便带思维链的 Qwen3-VL-235B-thinking 也只是中游。
- 领域特化有效但不够:QLoRA 微调和 RAG 都能显著提升语义相似度,却仍无法超越前沿闭源模型,说明纯靠通用基座+轻量适配还不足以胜任专家级 PCB 任务。
- Task 3 区分度低:真实设计理解任务上各模型 BERTScore 都在 0.82 附近、F1 在 0.85~0.87,差距很小,说明高层功能描述大家都能凑合,但更深的结构理解仍难。
亮点与洞察¶
- 同题双格式是这套基准最巧的设计:用 QA+CQ 把同一知识点同时变成生成题和判别题,既保留开放式问答的真实性,又拿选择题做客观锚点,还顺带揭示了「判别能力和生成能力是两个维度」这个容易被单一指标掩盖的事实——这个思路可直接迁移到任何专业领域的 LLM 评测。
- 专家审校 + 来源可溯:在 LLM 容易自产自销出错题的当下,坚持人类专家迭代审校 + 逐项保留数据来源 URL,是基准可信度的关键保障,也为后续监督训练/预训练留了一份高质量的真实 EDA 语料(174 个完整项目含原理图、布局布线文件、设计意图)。
- 三任务的难度梯度:从纯文本知识、到图文对齐、再到纯视觉解读,逐级逼近真实工程师的工作方式,比单点测试更能画出模型能力的全貌。
局限与展望¶
- 作者承认的局限:当前 LLM 仅具备 PCB 布局布线的基础知识,在真实开放式场景下仍远不足以替代人类;现有语义指标(BERTScore/SBERT)可能漏掉 PCB 特有的正确性,需要专门的领域评估体系。
- 评测只到「理解/问答」层,没到「生成布局布线」层:基准考的是模型能否读懂、答对 PCB 知识,而非真正产出可制造的布局布线方案——离端到端的「LLM 做 PCB 设计」还有距离。
- Task 3 指标区分度不足:各模型 F1 高度接近,BERTScore/SBERT 又时常不一致,说明用通用语义指标评工程图纸描述很可能测不出真正的结构理解差异,结论需谨慎。
- 零样本设定:全程零样本、不做 prompt 工程,虽贴近「直接上岗」场景,但也可能低估了模型在精心 prompt 或少样本下的真实上限。
- 改进思路:作者明确指向领域适配训练、与 EDA 工具集成、以及构建 PCB 专属评估体系三条路。
相关工作与启发¶
- vs 既有 PCB 数据集(PCB-DSLR / DeepPCB / FICS-PCB / FPIC / PCB-Vision):它们几乎都是面向缺陷检测、元件识别的 RGB 图像集,只有视觉单模态、目的是检测;PCB-Bench 首次覆盖「文本+原理图+源码+制造设置」多模态、目的是评测 LLM 的 PCB 设计理解,定位完全不同。
- vs LLM-for-EDA 评测(text-to-HDL、Verilog 生成 benchmark):那些工作只考察文本/代码能力,不涉及跨模态对齐与规则驱动的布局布线推理;PCB-Bench 补上了图像与真实设计文件这两块。
- vs RL 布局布线(Mirhoseini 等的 IC 宏布局、联合 P&R):RL 方法在固定规则下优化几何目标,不做多模态语义推理;本文不替代它们,而是从「基座模型懂不懂工程语义」这个互补角度切入。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个面向 PCB 布局布线、跨三模态、专家标注的 LLM 评测基准,填补明确空白
- 实验充分度: ⭐⭐⭐⭐ 覆盖 13+ 主流模型、三类任务、多指标,但缺真正的生成式布局布线评测
- 写作质量: ⭐⭐⭐⭐ 任务定义清晰、表格规范;部分指标区分度低削弱了部分结论说服力
- 价值: ⭐⭐⭐⭐⭐ 为「工程能力 LLM」提供标准化测评平台,对 EDA+AI 方向有持久参考价值