Neural Field-Based 3D Surface Reconstruction of Microstructures from Multi-Detector Signals in Scanning Electron Microscopy¶
会议: CVPR 2026
arXiv: 2508.04728
代码: https://github.com/zju3dv/NFH-SEM
领域: 3D视觉
关键词: 扫描电子显微镜, 3D重建, 神经场, 微观结构, 光度立体
一句话总结¶
本文提出 NFH-SEM,一个基于神经场的混合框架,通过将 SEM 电子散射物理模型嵌入神经场优化过程,从多视角多检测器 SEM 图像重建高保真的微观结构 3D 表面,实现了自标定、抗阴影的纳米级精度重建(478nm 层叠特征、782nm 花粉纹理、1.559μm 断裂台阶)。
研究背景与动机¶
-
领域现状:扫描电子显微镜(SEM)是材料科学、生物学和工业制造中广泛使用的成像工具,能产生高分辨率的微/纳米尺度图像。但 SEM 图像本质上只是二次电子(SE)或背散射电子(BSE)的 2D 强度分布,不直接包含 3D 信息。现有 SEM 3D 重建方法主要分为:多视角方法(SfM+MVS)和单视角方法(光度立体 PS)。
-
现有痛点:
- 多视角方法在微观样品常见的弱纹理或重复图案区域容易失败
- 单视角 PS 方法需要使用参考样品进行检测器标定,且对阴影伪影高度敏感——阴影区域导致梯度估计失真
- 混合方法虽结合两者优势,但仍受限于标定需求、阴影问题,且使用 2D 高度图表示无法捕获复杂微观结构
- 基于学习的方法(NeuS、3DGS、前馈重建)要么缺少大规模 SEM 训练数据无法泛化,要么基于 RGB 光学渲染模型无法捕捉 SEM 信号中的几何线索
-
核心矛盾:SEM 的信号生成物理(电子散射)与常规 RGB 成像完全不同,但现有 3D 重建方法要么忽略 SEM 物理(多视角方法)、要么依赖简化物理模型且需复杂标定(单视角方法)。
-
本文目标 设计一个能自动学习 SEM 成像物理、自标定检测器参数、自动分离阴影区域的神经场重建框架。
-
切入角度:将 BSE 信号的散射和检测器响应建模为可学习的前向模型,嵌入到 SDF 神经场的体渲染管线中,与几何共同优化。
-
核心 idea:通过将可学习的 BSE 前向模型嵌入神经场优化,实现 SEM 成像物理的自标定和阴影自动分离,从而获得高保真微观 3D 重建。
方法详解¶
整体框架¶
输入为多视角、多检测器 SEM 图像(每个视角一张 SE 图 + 四张 4Q-BSE 图)。流程分两阶段:(1) 用多视角 SE 图像进行 SfM+MVS 获得粗糙初始几何和相机参数;(2) 以粗糙几何为初始化,通过 SDF 神经场融合多视角深度先验和 4Q-BSE 光度信息,联合优化几何和 BSE 前向模型参数;而这第二阶段的优化本身又按"先立几何、再学光度、最后开阴影"分三个训练阶段递进,期间用 BSE 前向模型正则化约束四象限参数。输出为高保真 3D 表面 mesh。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["输入:多视角 SE 图<br/>+ 4Q-BSE 图"] --> B["SfM+MVS<br/>粗糙几何 + 相机参数"]
B --> S
subgraph S["三阶段训练(SDF 神经场联合优化)"]
direction TB
C["Stage I:仅深度损失<br/>固化粗糙几何为初始 SDF"]
C --> D["Stage II:可学习 BSE 前向模型<br/>由法线 n 正向预测各象限 BSE 强度"]
D --> E["Stage III:迭代阴影分离<br/>残差 > αd 判为阴影并剔除监督"]
end
R["BSE 前向模型正则化<br/>四象限参数方差约束"] -.约束.-> D
S --> F["输出:高保真 3D 表面 mesh"]
关键设计¶
1. 可学习的 BSE 前向模型:用可微分物理层取代需标定的解析公式
传统光度立体(PS)的痛点是必须先标定检测器参数:它用 \(I_i(n) = d_i \cos(\varphi_i - \varphi_n)\tan(\theta_n) + c_i\) 直接从 BSE 图像反算表面梯度,而其中的 \(c_i/d_i\) 要靠参考样品测出来,繁琐且只对特定设备有效。NFH-SEM 把这个过程倒过来:不再从图像算梯度,而是从神经场预测的法线 \(n\) 正向预测每个象限应该看到的 BSE 强度,再用真实 4Q-BSE 图像当监督反传梯度。前向模型写成
四个象限各有独立的 \(c, d, e\),共享一组多项式系数 \(p\),总共 16 个可学习参数。关键改动在发射放大项 \(\mathbf{R}(\theta)\)——传统模型用 \(\sec(\theta)\) 近似掠射角下的强度上扬,但真实 BSE 响应并不严格服从这条曲线,于是这里换成四阶多项式去拟合实测响应。这样做有两个直接好处:一是这 16 个参数和几何一起被优化出来,等于让网络自己完成检测器标定,免掉参考样品;二是把物理模型做成神经场体渲染里的一层,BSE 图像的光度信息就能顺着这层稳定地反传到 SDF 上去校正几何。消融里直接用梯度监督(即去掉这个前向模型)会让 Chamfer 距离恶化近 8 倍,说明"正向预测 + 图像监督"比"反向算梯度"靠谱得多。
2. 迭代阴影分离:用前向模型的残差自己把阴影找出来
4Q-BSE 图像里到处是阴影——某个象限的检测器被样品自身挡住时,那片区域的强度就和法线无关了,硬拿它当监督会把几何带歪。作者注意到一个可利用的现象:阴影区域恰好是前向模型预测 \(\mathcal{F}(\hat{n};\hat{\Phi})\) 和实测 \(b\) 偏差最大的地方,因为阴影本就不是法线函数能解释的。于是阴影掩码直接由残差定义:
残差小于阈值的算可信像素、大于阈值的判为阴影并踢出监督。阈值取成 \(\alpha d\) 而不是固定常数是这里的巧思:\(d\) 控制 BSE 强度对法线变化的敏感度,强度本身的动态范围随 \(d\) 缩放,所以阈值也按 \(d\) 等比例走,才不会把"几何起伏引起的正常强度变化"误判成阴影。这个掩码随训练动态更新,于是形成一个正反馈环——掩码更干净 → 监督更纯 → 几何和前向模型更准 → 残差更能区分阴影 → 掩码又更干净,实测阴影检测平均准确率约 81.7%。
3. 三阶段训练:先立几何骨架,再喂光度,最后开阴影
把深度先验、4Q-BSE 光度、阴影掩码一股脑塞进同一个优化目标会震荡发散,所以训练拆成递进的三段。Stage I 只用加权深度损失 \(\mathcal{L}_d\) 和 SDF 正则 \(\mathcal{R}_s\),把 SfM+MVS 给的粗糙几何先固化成一个稳定的初始 SDF。Stage II 加入不带阴影掩码的 BSE 损失 \(\mathcal{L}_{BSE}(1)\) 和前向模型正则 \(\mathcal{R}_\Phi\),让网络在已有几何骨架上先学会法线到 BSE 强度的映射关系。Stage III 才激活动态阴影掩码 \(\mathcal{L}_{BSE}(S)\),在剔除阴影污染的前提下精修几何和前向模型参数。每段各 1000 迭代,三段合计约 3000 迭代、单张 RTX 4090 上约 2 分钟跑完——递进的次序本身就是稳定性的来源,让每个新引入的信号都建立在前一步已经收敛的结果之上。
4. BSE 前向模型正则化:约束四象限参数别各跑各的
4Q-BSE 检测器的四个象限在设计上是对称的,理想情况下 \(c, d, e\) 应该几乎相同,但加工和安装公差会让它们有小幅差异。正则项对三组参数各取方差再相加
既把四象限往一致里拉、避免可学习参数在优化中发散成毫无物理意义的解,又保留了制造误差应有的小幅自由度,不至于把真实的象限差异硬抹平。
损失函数¶
总损失 \(\mathcal{L} = \lambda_1 \mathcal{L}_d + \lambda_2 \mathcal{R}_s + \lambda_3 \mathcal{L}_{BSE} + \lambda_4 \mathcal{R}_\Phi\),其中 \(\mathcal{L}_d\) 为加权深度损失(用 MVS 置信度加权),\(\mathcal{R}_s\) 为标准 SDF 梯度单位范数约束,\(\mathcal{L}_{BSE}\) 为 4Q-BSE 图像的 MAE 损失。
实验关键数据¶
主实验(真实数据集定性对比)¶
在 TPL 微结构(Wukong、Lucy、Lion)、桃花花粉和碳化硅颗粒上: - 多视角基线仅获得粗糙形状,无法恢复光滑基面和细节(如发丝、层叠台阶、花粉纹理) - 单视角 PS 基线恢复有限纹理但全局形变严重 - 6 种学习方法(NeuS、2DGS、PGSR、DN-Splatter、VGGT、MapAnything)直接应用均严重失败 - NFH-SEM 精确恢复了 478nm 打印分层(Lucy 样品)、782nm 花粉粘附纹理、1.559μm 断裂台阶
消融实验(模拟数据集,单位 nm)¶
| 配置 | Chamfer ↓ | 法线角度误差 ↓ | BSE 模型误差 ↓ |
|---|---|---|---|
| 输入粗糙模型 | 25.11 | 7.85° | - |
| 单视角 PS | 512.22 | 12.99° | - |
| w/o BSE-\(\mathcal{F}\)(直接梯度监督) | 135.61 | 7.48° | - |
| w/o Poly-\(\mathbf{R}\)(简化发射模型) | 19.96 | 4.34° | 7.16 |
| w/o 4Q-Var(共享象限参数) | 19.90 | 3.91° | 1.35 |
| w/o S-Mask(无阴影掩码) | 29.38 | 4.36° | 0.61 |
| 完整模型 | 17.48 | 3.70° | 0.27 |
关键发现¶
- 可学习前向模型是最关键组件——直接用梯度监督(w/o BSE-\(\mathcal{F}\))Chamfer 距离恶化 7.75 倍
- 多项式发射项(Poly-\(\mathbf{R}\))相比简化 \(\sec(\theta)\) 将 BSE 建模误差从 7.16 降至 0.27
- 阴影掩码消除后 Chamfer 距离从 17.48 增至 29.38,证明阴影分离对几何精度至关重要
- 阴影检测平均准确率达 81.7%
- 整个训练仅需约 2 分钟(单 RTX 4090),3000 迭代
亮点与洞察¶
- 物理模型嵌入神经场的范式:不是直接用物理公式计算梯度去监督,而是将物理模型作为可微分层嵌入优化——这个思路可以推广到其他需要专用成像物理的领域(如 X 射线、超声波)
- 自标定的优雅实现:通过将检测器参数作为可学习变量联合优化,免去了传统方法需要参考样品标定的繁琐流程,大大降低了使用门槛
- 迭代阴影分离的正反馈机制:利用前向模型残差定义阴影掩码,并按物理参数 \(d\) 自适应调整阈值,形成自增强循环——是一个非常巧妙的工程设计
局限与展望¶
- 假设均质的电子发射系数——对多材料混合样品可能不成立
- 极端遮挡的微孔结构可能所有象限都被阴影覆盖,无法恢复信息
- 低导电性样品的充电效应导致像素漂移,可能影响多视角对齐
- 数据集虽然开创性但规模有限(仅 3 类样品)
- 可扩展:支持异质材料的分段发射系数估计、更多样品类型的验证
相关工作与启发¶
- vs Agisoft Metashape(多视角基线): 多视角方法仅用 SE 图像,在弱纹理区域失败;NFH-SEM 额外利用 4Q-BSE 的光度信息弥补匹配不足
- vs 单视角 PS: PS 方法需标定且受阴影影响严重;NFH-SEM 通过可学习前向模型和阴影分离解决这两个根本问题
- vs NeuS/3DGS: 这些方法基于 RGB 渲染模型,无法理解 SEM 信号中的几何编码;NFH-SEM 通过嵌入 SEM 物理弥合这一 domain gap
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将神经场方法完整适配到 SEM 成像物理,自标定和阴影分离策略设计精巧
- 实验充分度: ⭐⭐⭐⭐ 真实和模拟数据均有评估,消融全面,但真实数据缺乏定量 GT 对比
- 写作质量: ⭐⭐⭐⭐⭐ SEM 物理背景介绍清晰,方法推导严谨,图示精美
- 价值: ⭐⭐⭐⭐⭐ 对材料科学和生物学的微观 3D 表征有重要应用价值,开创了 SEM + 神经场交叉领域