Physically-Guided Optical Inversion Enable Non-Contact Side-Channel Attack on Isolated Screens¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=evepIXBxL8
代码: 待确认
领域: AI安全 / 侧信道攻击 / 光学反演 / 图像重建
关键词: 侧信道攻击, 光学投影, 物理引导反演, 屏幕内容重建, 漫反射散射

一句话总结¶

本文首次证明墙面漫反射散射光可以充当一条「光学投影侧信道」，并提出物理引导的反演网络 IR4Net，仅凭被动捕获的散射光斑、在无直视、无电磁、无网络连接的条件下，把物理隔离屏幕上的显示内容重建出来。

研究背景与动机¶

领域现状：传统侧信道攻击主要靠电磁辐射、声学反射、缓存时序、网络连接等媒介来窃取设备状态。光学侧信道此前虽有研究，但几乎都要求传感器与设备同处一室、或直接对着屏幕（如环境光传感器读取全局照度变化），本质上仍依赖某种「能看见屏幕」的条件。

现有痛点：电磁攻击受距离、屏蔽、环境噪声制约，且会暴露攻击者位置；网络攻击需要连通性和软件漏洞，对物理隔离（air-gapped）系统完全无效，还会留下审计日志；主动探测一旦发出信号就容易被检测。换句话说，「物理隔离」长期被当作信息安全的终极防线——没有直接视线、没有电磁泄漏、没有通信链路，就被默认安全。

核心矛盾：作者注意到一个被忽视的事实——自发光屏幕的光会照到周围墙面，墙面漫反射回来的散射光斑里其实编码了屏幕内容。但要从这些光斑里把内容反推回来极其困难：屏幕到墙面散射光斑的映射是一个严重病态（ill-conditioned）的非线性过程，其雅可比矩阵在多个方向上奇异值趋于零，违反 Hadamard 稳定性判据，导致输入端微小的辐照度扰动会在反演时被剧烈放大成边缘错位、虚假纹理、语义漂移；同时漫反射、衍射、遮挡造成的不可逆压缩会丢掉大量全局语义结构，使重建高度不确定。

本文目标：在这种被动、非接触、无直视的设定下，把散射光斑稳定地反演回原始屏幕图像，既要压住扰动放大，又要补回被压缩丢掉的全局语义。

核心 idea：把不稳定的光学反演重新表述为一条物理约束的可学习迭代轨迹（用辐射传输方程的前/反向算子约束每一步），并在深层语义空间里重投影补回被不可逆压缩抹掉的结构——用物理先验稳住数值、用语义先验补回信息。

方法详解¶

整体框架¶

IR4Net 接收攻击者在墙面（或其他漫反射表面）上被动拍到的散射光斑图像，输出对屏幕原始显示内容的重建。整条管线分两大模块串联：先用 PRIrr-Approximation（物理正则辐照度逼近） 把病态反演变成一条受物理算子约束的迭代轨迹，并在迭代中用「双路扰动耗散 + 频率选择上采样」结构性地压住扰动放大，得到一个稳定的初步估计；再用 ICSR（不可逆约束语义重投影） 在深层语义空间建立结构↔语义的稳定映射，把遮挡和衍射区域里丢失的全局结构补回来，最终输出边缘连续、纹理一致的屏幕图像。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>墙面漫反射散射光斑"] --> B["PRIrr-Approximation<br/>物理引导可学习迭代反演"]
    B --> C["双路扰动耗散 + 频率选择上采样<br/>压住近奇异算子的扰动放大"]
    C --> D["ICSR 语义重投影<br/>深层语义空间补回丢失结构"]
    D --> E["输出<br/>重建的屏幕内容"]

关键设计¶

1. PRIrr-Approximation：把不稳定的光学反演改写成物理约束的可学习迭代轨迹

直接学一个「光斑→屏幕」的端到端映射会撞上前面说的病态问题：传输算子奇异值趋零，反演时微小扰动被指数放大。作者的做法是不再一步到位，而是把光学效应建模成一个传输算子 \(\Phi(\cdot)\)，并推导其逆近似 \(\Psi(\cdot)\)，让网络沿着一条受物理一致性约束的迭代路径逐步逼近源辐照度。每一步用动量初始化把局部先验和多尺度全局反馈融合，给迭代指定一个相干的更新方向；再用动量引导的梯度更新抑制噪声和误差累积，得到逐步收敛的特征估计 \(\hat{I}^{(k)}\)。直观上，物理算子和动量共同把解的轨迹「锁」在物理可行的区域内，避免反演在近奇异方向上发散——这正是相比纯神经反演的关键区别：约束的不是最终输出，而是整条求解路径。消融里把这套更新策略换成 ADMM / NAG / Heavy-Ball 等经典动量方案后，PSNR、SSIM 全面下降、LPIPS 上升，说明结构感知的动量初始化 + 物理反馈通路确实带来了更稳的反演。

2. 双路扰动耗散 + 频率选择上采样：在迭代内部结构性地分散并压制扰动能量

即便有物理轨迹约束，屏幕到墙面那点微小扰动仍会沿多尺度衍射快速放大。作者在迭代特征 \(I^{(k)}\) 上并行开两条耗散通路：空间扩散路对局部梯度施加二阶微分核（式 1，\(\partial^2 I^{(k)}/\partial x\partial y\) 捕捉局部曲率），把扰动在空间上摊开；语义衰减路用注意力机制（式 2–4）在语义维度上分散扰动分量，让扰动不在空间上聚集。两路输出在空间域拼接后，进入多尺度频率分离模块：先做傅里叶变换（式 5），用门控把特征分成低频/高频两支（式 6），再用基于梯度幅值的自适应门控 \(\alpha_c\)（式 7–8）融合——核心规则是只逐层放大具备跨尺度一致性的低频结构成分，让缺乏尺度一致性的高频成分在传播中衰减。最后配合双线性插值核与可学习上采样核 \(\kappa_{up}^{(i)}\) 做分层重建（式 14–15），从低频轮廓到高频细节逐级展开。这套设计的巧妙处在于：它不是事后去噪，而是把「该放大什么、该衰减什么」直接写进上采样的频域门控里，从机制上阻断扰动随上采样层级膨胀。

3. ICSR：在深层语义空间重投影，补回被不可逆压缩抹掉的全局结构

PRIrr 解决了「稳」，但漫反射的高压缩、不可逆映射会把全局语义结构和上下文整段丢掉，表现为边缘模糊、纹理伪影、语义错位。ICSR 用两条并行子网络应对：主映射网络在先验图引导下专注恢复低层结构细节，给出结构空间特征 \(V_P^{(5,c)}\)；协同补全网络从投影观测里抽取稳定的抽象语义嵌入 \(V_R^{(5,c)}\)，捕捉全局语义和上下文。关键是建立一个从语义空间到结构空间的稳定映射，让高维语义特征动态反馈进主网络的表示域，对缺失区域做受约束的补全推断。为防止语义漂移、保证两个空间对齐，ICSR 计算两套特征的余弦相似度（式 19–20），并以此构造批损失

\[L_{batch} = \frac{1}{N}\sum_{j=1}^{N}(1 - s_j)^{\alpha} + \lambda \lVert \Theta \rVert_2^2\]

其中 \(s_j\) 是第 \(j\) 个样本的结构↔语义余弦相似度，\((1-s_j)^\alpha\) 惩罚两空间的不一致，\(\lambda\lVert\Theta\rVert_2^2\) 是 L2 正则。通过这种多尺度语义对齐，被遮挡、被衍射破坏的区域得以按上下文补全，重建出边缘锐利、语义连贯的图像。

损失函数 / 训练策略¶

ICSR 的核心训练目标即上面的结构↔语义余弦对齐损失 \(L_{batch}\)（式 21），\(\alpha\) 控制对不一致样本的惩罚强度。训练用 PyTorch、单/多卡 NVIDIA RTX 3090，Adam 优化器，固定学习率 \(1\times10^{-4}\)，batch size 16；四个数据集按 8:1:1 划分 train/val/test。

实验关键数据¶

主实验¶

四个仿真侧信道数据集（ReSh-WebSight 界面布局、ReSh-Password 密码输入、ReSh-Chart 图表渲染、ReSh-Screen 桌面场景）上与重建派（Uformer、ConvIR、UNet 等）和生成派（pix2pix、CycleGAN、BicycleGAN 等）对比。

数据集	指标	IR4Net	最强基线	提升
ReSh-Screen	PSNR↑	25.812	22.299 (Uformer)	+15.7%
ReSh-WebSight	RMSE↓	26.719	31.026 (AST)	-13.9%
ReSh-Password	SSIM↑	0.887	0.874 (Uformer)	+0.013
ReSh-Chart	PSNR↑	17.363	17.068 (Uformer)	+0.295

IR4Net 在四个数据集的 PSNR / RMSE / SSIM 上基本全面领先，尤其在结构复杂的 ReSh-Screen 上优势最明显。

消融实验¶

把 PRIrr 的迭代更新策略替换为经典动量方案（三个数据集，指标 PSNR/SSIM/RMSE/LPIPS）：

配置	Screen PSNR↑	Screen LPIPS↓	说明
OURS（本文更新策略）	25.812	0.216	结构感知动量初始化 + 物理反馈通路
ADMM	25.155	0.232	经典 ADMM 迭代
NAG	25.090	0.235	Nesterov 加速梯度
Heavy-Ball	25.077	0.231	重球动量

关键发现¶

本文的迭代更新策略在三个数据集上一致优于 ADMM / NAG / Heavy-Ball，验证「结构感知动量初始化 + 物理反馈通路 + 残差门控动态加权」组合对近奇异传输算子下的误差放大有抑制作用。
亮度鲁棒性最能体现物理约束的价值：屏幕亮度从 0 降到 300 nits 时，UNet 在 ReSh-Screen 上 PSNR 暴跌约 68%（20.195→6 附近），而 IR4Net 仅下降约 25.9%（25.812→19.136），扰动放大被显著压住。
定性结果显示在边缘、纹理、遮挡区域 IR4Net 重建更连贯，竞品在低照度下出现结构错位和轮廓模糊。

亮点与洞察¶

把约束加在求解轨迹而非输出上：用物理算子 + 动量约束整条迭代路径，是应对病态反演（奇异值趋零）的关键，比端到端学映射稳得多——这个思路可迁移到其他病态逆问题（去散射、显微重建、逆渲染）。
频域门控当扰动阀门：把「放大低频一致结构、衰减高频不一致扰动」直接写进上采样的频域门控，从机制上而非事后去噪上阻断扰动膨胀，是个可复用的 trick。
最让人「啊哈」的是威胁模型本身：证明了纯靠墙面漫反射、在 air-gapped / 电磁屏蔽 / 激光防护玻璃环境下都能反推屏幕内容，直接动摇「物理隔离即安全」的假设，对防御侧是一记警钟。

局限与展望¶

实验数据集 ReSh-* 是为模拟界面/密码/图表/桌面而构造的仿真数据，真实世界墙面材质、环境光、相机非线性的多样性是否覆盖充分，论文未充分展开。
方法对漫反射几何、距离、表面粗糙度的依赖关系缺少系统刻画；亮度鲁棒只测到 300 nits 衰减，更极端的低光/强干扰未知。
大量推导（动量更新、ICSR 映射）放在附录，正文公式较多但部分符号和算子定义偏抽象，复现门槛较高；部分公式以原文为准。
作为攻击范式，防御对策（如墙面涂层、随机化亮度、光学扰动）是自然的后续方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出墙面漫反射光学投影侧信道范式，动摇物理隔离安全假设
实验充分度: ⭐⭐⭐⭐ 四数据集 + 多基线 + 迭代策略消融 + 亮度鲁棒性，但数据集为仿真构造
写作质量: ⭐⭐⭐ 想法清晰，但用词晦涩、公式密集、关键推导多在附录
价值: ⭐⭐⭐⭐⭐ 揭示物理隔离环境的新泄漏通道，对安全防御有现实警示意义