CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=WEuJlEJmX8
代码: 项目页
领域: 多模态VLM / 视觉推理 / 数据集与基准
关键词: 电路理解, 视觉到符号推理, MLLM 评测, 层级化基准, 合成数据生成

一句话总结¶

CircuitSense 构建了首个"按工程抽象层级组织、强调从电路图推导符号方程"的多模态大模型基准，用 8,006 道题（人工 curated + 合成生成）系统评测 8 个 MLLM，揭示出闭源模型在感知任务上能超过 85%、但在符号推导上骤降到 19% 以下的根本断层。

研究背景与动机¶

领域现状：工程设计的本质是从视觉表征（电路原理图、光学布局、系统框图）翻译出精确的数学模型——电子工程师把电路图转成符号传递函数来分析噪声、稳定性、灵敏度。这种"视觉→数学"的翻译能力决定了工程成败，而 MLLM 在自然图像任务上已经表现强劲，让人自然想问：它们能不能从技术图纸里抽出数学模型？

现有痛点：现有视觉电路基准（CIRCUIT、EEE-Bench、MMCircuitEval、AMSbench）几乎都停留在"识别类"浅任务——识别元件类型、回答基础选择题、做浅层数值计算。真正定义"电路理解"的核心能力——从视觉拓扑里抽出在多个系统层级上自洽的数学关系——从未被测过。更要命的是，没有任何基准评测过"在框图与电路原理图之间来回切换"的层级推理能力。

核心矛盾：方程推导才是区分"真正理解工程"和"模式匹配"的分水岭。如果不考查符号推导过程，我们根本无法判断模型是真懂电路、还是只记住了视觉模式；也就无法判断它们能否真正辅助人类设计师在昂贵流片之前抓住灾难性失效（振荡、不稳定、过量噪声）。

本文目标：造一个能把"视觉→符号"能力拆开来、按工程抽象层级逐级考查的基准，特别聚焦那个被严重忽视的能力——从视觉输入推导符号方程。

切入角度：作者选模拟电路（analog circuits）作为切入点，因为它的设计流程（拓扑创建→器件尺寸→版图设计）天然层级分明，且其灾难性失效往往要到验证末期才暴露，提前的数学分析价值极高。同时引入"合成生成 + 符号 ground-truth"来根治数据污染问题。

核心 idea：用"双轴（任务类别 × 六层抽象）+ 可验证符号真值的合成生成管线"构建基准，把感知、分析、设计三类能力解耦，并以符号推导准确率作为衡量工程能力的关键指标。

方法详解¶

整体框架¶

CircuitSense 不是一个模型，而是一个评测电路视觉理解的基准，它沿两条正交的轴组织 8,006 道题。第一条轴是任务类别，对应完整工程工作流的三个环节：Perception（感知，890 题）——数元件、识连接、判电路功能；Analysis（分析，7,043 题，占绝大多数）——直接考查"从视觉电路抽出数学模型"，是基准的重心；Design（设计，157 题）——给规格反推电路实现。第二条轴是六个抽象层级，从最基础到最复杂依次为 Level 0 电阻网络（1,777）、Level 1 RLC 电路（3,147）、Level 2 小信号（537）、Level 3 晶体管（795）、Level 4 框图/运放抽象（559）、Level 5 系统级框图（228）。两轴交叉让作者能精确定位"视觉→数学翻译"在复杂度上升到哪一层时崩溃。

数据来源是"人工 curated + 合成生成"双管：2,986 道来自权威教材（Gray、Razavi、Allen & Holberg 等）和大学课程库（多伦多 ECE331、佐治亚理工 ECE6412/ECE3050），保证主题广度与教学有效性；5,020 道由一条层级化合成生成管线产出，每道都带可验证的符号 ground-truth，专门治理"教材题被训练数据污染、且很少系统考方程推导"这两个老问题。这条合成管线又分电路原理图生成器和框图生成器两路，分别覆盖元件级深度与系统级广度。

关键设计¶

1. 双轴层级化任务组织：把"视觉→数学"能力拆到每一层去测

针对"现有基准只在单一抽象层做浅识别、看不出能力在哪里崩"的痛点，CircuitSense 把题目摆进"3 类任务 × 6 个抽象层级"的网格里。任务轴上，感知（元件检测 200 / 连接识别 200 / 功能分类 406）先验证模型有没有后续数学分析所需的基础视觉理解；分析轴上细分为频率响应、瞬态响应、传递函数分析、小信号分析、CMR & PSRR、噪声 & 抖动、功率 & 能量七个子类，其中瞬态响应（3,811）和传递函数分析（1,736）占比最大，因为合成管线主要产出这两类基础数学技能题；设计轴上则从原理图级（63）、框图级（56）递进到需要协调多层抽象的层级化设计（38）。这种二维切分的价值在于：当模型在感知层拿 85%+、却在符号推导掉到个位数时，网格能直接告诉你断层发生在"视觉解析 → 符号推理"这一跳，而非笼统的"模型不行"。

2. 电路原理图合成生成器：用网格采样 + Lcapy 保证符号真值

要根治数据污染、还要每题都有可核验的方程答案，作者扩展 MAPS 框架，在 \(m \times n\) 网格上合成电路，网格维度从离散概率分布采样以保证拓扑多样性，元件按内外边不同的层级概率分布选取，支持 18 种元件（无源 R/L/C、独立源、四类受控源 VCVS/VCCS/CCVS/CCCS、理想运放），其中运放被当成模板子电路（输入电阻 + 反馈网络 + 高增益 VCVS）整体随机放置。生成器靠多重约束保证电学有效性：消除悬空节点、所有节点至少二度连接、每个电路恰好一个电压源以确定参考。网格拓扑被翻译成 SPICE 网表后做三级校验——拓扑校验（无短路、控制关系正确）、SPICE 仿真（确认直流工作点与交流响应）、以及最关键的符号分析：通过 Lcapy 做改进节点分析（MNA），抽出真值传递函数 \(H(s)=V_{out}(s)/V_{in}(s)\) 和节点方程。对复杂度过高的电路设自适应超时、跳过符号分析以控制算力。正因为答案是"算出来的"而非"抄来的"，模型无法靠记忆蒙混，这才暴露出真实推导能力。

3. 框图生成器：用 Mason 增益公式给系统级题目算出符号传递函数

层级的高端（Level 4-5）需要系统级框图题，作者设计了两阶段框图生成器。先沿固定水平轴顺序铺一条主信号路径，含 \(n \in [\tau_b, \tau_e]\) 个组件（从标准传递函数库取的传递函数块 + 带随机正负号的求和节点）；再系统性地加 \(n_{fb} \in [0, \tau_{fb}]\) 条反馈回路和 \(n_{ff} \in [0, \tau_{ff}]\) 条前馈路径，每条辅助路径有 \(p_{block}=0.5\) 概率含中间块，用集合追踪防止重复连接，从而生成从简单单位反馈到工业级多环系统（ADC、PLL）的多样架构。整体传递函数用 Mason 增益公式符号化求解：识别所有前向路径 \(P_k\)、所有回路 \(L_i\) 及互不接触回路组合，符号计算系统行列式 \(\Delta = 1 - \Sigma L_i + \Sigma L_i L_j - \Sigma L_i L_j L_k + \cdots\)，最终 \(H(s) = \frac{\Sigma P_k \Delta_k}{\Delta}\)（\(\Delta_k\) 是排除与 \(P_k\) 接触回路后的行列式）。这套方法能正确处理嵌套回路等复杂拓扑，让系统级题目也有可验证的符号真值，从而把"元件级深度"和"系统级广度"在同一基准里贯通。

4. 符号等价评测管线：用 SymPy 判"数学等价"而非"字符串相等"

符号题的评测有个独特坑：同一方程有无数代数等价写法，例如 \(H(s)=1/(RCs+1)\) 与 \(H(s)=(1/RC)/(s+1/RC)\) 数学上完全相同。若按字符串比对会把对的判错。为此作者用 SymPy 实现严格的符号比对：先把预测与真值方程解析成符号表达式树，做代数化简，通过符号相减验证等价；当符号比对算力上不可行时，退化为在 100 个随机复频率点上数值验证两式是否相等。对选择题用标准化格式后精确匹配；对原本开放式的题，用 Gemini-2.5-Flash 生成三个似是而非的干扰项 + "以上都不是"来支持选择评测；对开放式数值题用 LLM-as-a-judge（Gemini-2.5-Flash）按数学等价（含单位换算）判分；设计题则用 Ngspice + Skywater 130nm PDK 仿真验证。这套多管齐下的评测保证了"答案对、写法不同"也能被正确认定，使后续暴露的能力断层是真断层而非评测假象。

实验关键数据¶

测试 8 个 SOTA MLLM：Gemini-2.5-Pro、Claude-Sonnet-4、GPT-4o、GPT-4o-mini、InternVL3-78B、Qwen2.5-VL-72B、GLM-4.5V、Gemma-3-27B。

主实验¶

感知 vs 分析的断层（节选自原文 Table 2 / Table 4）：

模型	感知·连接识别(%)	感知·功能分类(%)	分析·传递函数(%)	分析·瞬态响应(%)
Gemini-2.5-Pro	100	95	38	13
Claude-Sonnet-4	88	86	23	9
GPT-4o	70	95	16	6
GLM-4.5V	78	26	14	4
InternVL3-78B	76	12	8	3

闭源模型感知准确率普遍 >85%（GPT-4o、Gemini-2.5-Pro 接近满分），证明感知不是瓶颈；但一到符号推导（传递函数、瞬态响应）就集体跌到 19% 以下，暴露视觉解析与符号推理之间的根本断层。

设计任务（原文 Table 3）：所有模型在框图级设计（30.91–67.27%）明显强于原理图级（7.01–36.38%），说明模型更会操作抽象功能块、而不会把规格落到元件级实现。Gemini-2.5-Pro 在分析任务里符号推导最强，设计任务也全面领先（原理图 36.38% / 框图 67.27% / 层级 51.35%），佐证"方程推导能力是电路综合的前提"。

消融实验¶

curated（含选项）vs 合成（需推导）的系统性退化（节选自 Table 5 / Table 6）：

配置	Gemini-2.5-Pro	Claude-Sonnet-4	说明
curated · 选择题(%)	80.71	69.67	可用排除法
curated · 开放式(%)	70.32	34.76	去掉选项脚手架
合成 · 需符号推导(%)	19.06	6.29	既无选项又无记忆可依

Gemini-2.5-Pro 从选择题到合成推导掉 61 个百分点；Claude-Sonnet-4 从 69.67% → 34.76% → 6.29% 退化更陡；开源模型在合成题上几乎不超过 4%。这条"选择题→开放式→合成推导"的单调崩塌，确证大多数模型靠的是答案排除和模式匹配，而非真正的数学推理。

关键发现¶

反直觉的难易倒挂：模型在"传统更难"的噪声 & 抖动（高至 90%）、功率 & 能量（高至 87%）上反而比"基础"的瞬态响应（3–13%）、传递函数（8–38%）准——因为合成题集中在后两类，揭示模型是在背教材解法而非真懂数学。
失效点定位（原文 Table 7）：把 Gemini-2.5-Pro 的 100 次传递函数推导拆成 6 个子步，发现总阻抗计算 55% 正确，但看似更简单的输出阻抗推导只有 8%，这 47% 的骤降是整条管线的主瓶颈；后续阻抗比形成回升到 39%、最终化简到 55%，说明模型有时是"走了与人类不同的推理路径"误打误撞得到答案。
能力专门化：不同模型在不同抽象层各有所长——Gemini-2.5-Pro 在 curated 上 Level 4（框图/运放，89.58%）最强，Claude-Sonnet-4 在 Level 3（晶体管，72.01%）最强；合成评测里 Gemini 又在 Level 2（小信号，38.00%）和 Level 5（系统级，35.96%）最佳，说明模型发展出的是专门化能力而非均匀理解。

亮点与洞察¶

把"懂工程"操作化为一个可测指标：作者没有泛泛地评 MLLM"会不会电路"，而是论证并验证了"符号方程推导能力"是工程能力的关键瓶颈与前提，并用设计任务与分析任务的相关性把这一论点坐实——这种"先立论再用基准证伪/证实"的做法很有借鉴价值。
合成 + 符号真值根治数据污染：用 Lcapy（MNA）和 Mason 增益公式给每道合成题算出可验证方程，是这套基准最巧妙的地方——它让评测从"对答案"升级成"对数学等价类"，并彻底切断模型靠记忆教材题蒙混的退路。
失效点的细粒度解剖可迁移：把一次推导拆成 6 个子步、逐步统计准确率，从而把"模型不会推导"精确定位到"输出阻抗推导"这一跳。这种"流程拆解 + 子步打分"的诊断范式，可直接迁移到任何多步推理任务（数学证明、代码生成、多跳问答）的失效分析。

局限与展望¶

领域聚焦模拟电路：基准重心是模拟/电子电路，作者虽以光学、机械工程举例论证"视觉→数学"的普适性，但实际只覆盖电路一域，结论能否外推到其他工程学科尚需验证。
合成题分布不均带来的难易倒挂：合成生成集中在瞬态响应与传递函数两类，导致子类准确率横向比较时出现反直觉倒挂——跨子类的高低不能直接当"任务难度"读，这是用本基准做结论时要带的 caveat。
依赖 LLM 做评测组件：干扰项生成、开放式判分都用 Gemini-2.5-Flash，评测裁判本身的能力上限/偏差可能影响细粒度分数；符号比对在不可行时退化为 100 点数值验证，也有概率误判边界情形。
改进方向：可把这套"层级 + 符号真值"管线推广到光学、控制、机械等其他工程图纸；也可基于失效点分析（输出阻抗推导）设计针对性的训练数据或推理脚手架，看能否专门补上这个 47% 的断层。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个按工程抽象层级组织、强调视觉到符号方程推导的电路理解基准，问题定义和合成真值机制都很有原创性
实验充分度: ⭐⭐⭐⭐⭐ 8 个 SOTA 模型 × 3 类任务 × 6 层级 × 多评测格式，并附细粒度失效点解剖，覆盖很扎实
写作质量: ⭐⭐⭐⭐ 论点-基准-证据链条清晰，但部分子类难易倒挂的解释需要读者细看才不被误导
价值: ⭐⭐⭐⭐⭐ 揭示 MLLM "感知强、符号推理弱" 的根本断层，对工程 AI 与多模态推理研究都是有力的诊断工具