TopoReformer: Mitigating Adversarial Attacks Using Topological Purification in OCR Models¶

会议: AAAI 2026
arXiv: 2511.15807
代码: github
领域: AI安全
关键词: 对抗防御, 拓扑自编码器, OCR安全, 持久同调, 流形纯化

一句话总结¶

提出 TopoReformer，一种基于拓扑自编码器的模型无关对抗纯化管线，利用持久同调（persistent homology）在潜空间中强制拓扑一致性，无需对抗训练即可过滤对抗扰动，有效保护 OCR 系统免受经典攻击、自适应攻击和 OCR 专用水印攻击。

研究背景与动机¶

OCR 系统在文档自动化、车牌识别、合规审计等高风险场景中被广泛使用，但深度学习驱动的 OCR 模型继承了 DNN 的对抗脆弱性——人眼不可见的微小扰动即可导致严重的转录错误，甚至能在物理世界（打印-扫描、拍照）中存活。

现有防御策略主要有四类：

预处理/去噪纯化（如 MagNet、PuVAE）：将输入映射回学习到的数据流形，但往往降低无扰动输入的性能

异常检测：基于自编码器重建误差或分布检验，但对自适应攻击脆弱

对抗训练：计算开销大、依赖特定攻击类型

后处理修正：仅对文本输出做修补，治标不治本

这些方法的共同局限在于：模型特定、计算昂贵、无法抵御未知或自适应攻击。更关键的是，许多防御被证明只是提供了"虚假安全感"（gradient obfuscation），在 BPDA/EOT 等自适应攻击下彻底失效。

核心洞察：对抗扰动往往只改变局部像素关系，而数据的全局拓扑结构（连通性、环、孔洞）保持不变。如果能在编码过程中保持拓扑不变性，就可以自然过滤掉拓扑无关的扰动——这是一种"纯化"而非"去噪"，是本文的核心创新点。

方法详解¶

整体框架¶

TopoReformer 是一个三阶段级联管线：

拓扑自编码器（TopoAE）：以持久同调损失约束潜空间，对输入进行拓扑级纯化
Reformer（VAE）：将 TopoAE 输出对齐到下游分类器期望的流形
辅助模块（Auxiliary Module）：将 TopoAE 的潜向量注入 Reformer 的瓶颈层，提供拓扑信息补充

整个管线是 模型无关 的——作为即插即用的前处理模块，可置于任意 OCR 模型之前，无需修改或重新训练下游模型。

关键设计¶

1. 拓扑自编码器（TopoAE）与持久同调损失¶

核心思路：计算输入空间 \(X\) 和潜空间 \(Z\) 的持久同调图（persistence diagram），惩罚两者之间的拓扑差异。

持久同调追踪拓扑特征（连通分量、环、空洞）随尺度参数变化的出生与消亡，生成稳定的、对微小扰动鲁棒的数据结构摘要。

拓扑损失定义为双向匹配：

\[L_t = L_{X \to Z} + L_{Z \to X}\]

其中： - \(L_{X \to Z} = \frac{1}{2} \|A_X^{\pi_X} - A_Z^{\pi_X}\|^2\)：要求潜空间在输入空间拓扑配对下是一致的 - \(L_{Z \to X} = \frac{1}{2} \|A_Z^{\pi_Z} - A_X^{\pi_Z}\|^2\)：要求输入空间在潜空间拓扑配对下是一致的

总损失为：

\[L = L_{rec}(X, \hat{X}) + \lambda L_t\]

设计动机：与像素级去噪不同，拓扑损失关注全局结构一致性。数据流形上拓扑不相关的变异（如对抗扰动）在编码过程中被自然丢弃。TopoAE 仅在无扰动数据上训练，无需见过任何攻击样本。

2. Reformer（VAE）与分类器对齐¶

TopoAE 输出虽然拓扑纯化了，但其流形与下游 OCR 分类器的输入分布可能不匹配。Reformer 是一个轻量 VAE，负责将纯化后的图像对齐到分类器期望的流形。

Reformer 训练目标：

\[\mathcal{L} = \lambda_1 \mathcal{L}_{MSE} + \lambda_2 \mathcal{L}_{CE} + \lambda_3 \mathcal{L}_{KL}\]

\(\mathcal{L}_{MSE}\)：TopoAE 输出与 VAE 重建输出的像素级重建损失
\(\mathcal{L}_{CE}\)：VAE 重建输出经分类器后的交叉熵损失，确保分类可用性
\(\mathcal{L}_{KL}\)：KL 散度正则化

设计动机：纯拓扑纯化可能保留了正确的结构但偏离了分类器的输入分布，Reformer 弥补了这一流形不匹配。

3. Freeze-Flow 训练范式与辅助模块¶

辅助模块接收 TopoAE 的潜向量（通过学习到的投影网络），利用拓扑感知的潜空间信息辅助 Reformer 做更准确的预测。

然而直接联合训练时，模型倾向于仅依赖纯化图像路径，忽略辅助路径，导致辅助模块梯度不足。

Freeze-Flow 训练范式： 1. 冻结阶段：冻结 Reformer VAE 的编码器，强制梯度流向辅助模块 2. 解冻阶段：经过预热期后解冻 VAE 解码器，两条路径联合训练

设计动机：确保辅助路径在主路径主导之前建立有意义的潜表示，平衡两条路径的优化。实验表明，Freeze-Flow 在 Carlini-Wagner 攻击下可额外提升约 5% 的分类性能。

损失函数 / 训练策略¶

TopoAE 单独在无扰动样本上预训练至收敛，权重冻结后仅做推理
Reformer + 辅助模块在 TopoAE 输出上训练，使用目标函数 \(\mathcal{L} = \lambda_1 \mathcal{L}_{MSE} + \lambda_2 \mathcal{L}_{CE} + \lambda_3 \mathcal{L}_{KL}\)
训练超参：\(\lambda_1=1, \lambda_2=0.5, \lambda_3=0.5\)，Adam 优化器，lr=0.001
分类器权重在整个过程中保持冻结

实验关键数据¶

主实验¶

经典攻击下的消融实验（MNIST/EMNIST, F1-score %）

攻击类型	防御配置	MNIST (弱/强)	EMNIST (弱/强)
Carlini (c=1e-2/1e+1)	No Defense	30.41 / 4.30	36.54 / 33.85
	+ TopoAE	53.92 / 48.51	30.87 / 27.71
	+ Reformer	65.38 / 67.93	50.64 / 49.16
	+ Aux + Warmup	65.86 / 75.15	69.66 / 68.82
PGD (ε=0.005/0.01)	No Defense	96.74 / 96.62	84.87 / 72.66
	完整管线	97.70 / 97.62	84.53 / 83.79
FGSM (ε=0.005/0.01)	No Defense	96.87 / 96.61	90.83 / 72.59
	完整管线	97.69 / 97.51	90.48 / 84.42

自适应攻击结果（攻击成功率 ASR↓ / F1↑）

攻击	MNIST ASR↓ / F1↑	EMNIST ASR↓ / F1↑
EOT	9.19 / 90.73	28.32 / 73.28
EOT+BPDA	36.59 / 64.71	44.26 / 58.92
BPDA	81.14 / 15.65	84.46 / 12.77

OCR 专用攻击（FAWA 水印攻击）

OCR 模型	无防御 ASR / Acc	有防御 ASR / Acc
CRNN	100 / 48.13	78.83 / 71.00
Rosetta	99.83 / 69.66	44.08 / 85.98
TRBA	99.83 / 46.68	60.75 / 80.26

消融实验¶

组件	C&W (MNIST, 强) F1	提升
No Defense	4.30%	—
+ TopoAE	48.51%	+44.21
+ Reformer	67.93%	+19.42
+ Auxiliary	72.41%	+4.48
+ Freeze-Flow Warmup	75.15%	+2.74

逐步消融验证了每个组件的贡献，Freeze-Flow 训练范式在强攻击下提供了显著增益。

关键发现¶

对 C&W 攻击效果最显著：C&W 生成的扰动精细且低幅度，恰好是拓扑纯化最擅长过滤的类型，F1 从 4.30% 提升至 75.15%
对 EOT 自适应攻击鲁棒：ASR 从 99.05% 降至 9.19%，表明防御机制不是简单的梯度遮蔽
不牺牲干净样本性能：无扰动情况下 MNIST ~98%、EMNIST ~94% 准确率，几乎无损
跨 OCR 架构通用：对 CTC-based（CRNN, Rosetta, STAR-Net）和 Attention-based（RARE, TRBA）模型均有效

亮点与洞察¶

范式创新：首次将拓扑自编码器用于对抗防御/输入纯化，不同于传统去噪——它执行的是"拓扑纯化"，丢弃拓扑不相关的变异
无需对抗样本参与训练：完全在干净数据上训练，对未知攻击天然泛化
Freeze-Flow 训练技巧精巧：通过控制梯度流向解决了多路径模型中辅助分支欠训练的常见问题
隐式 Lipschitz 平滑性：拓扑约束隐式地限制了潜表示对输入扰动的敏感度，提供了一种不依赖显式梯度正则化的鲁棒性来源

局限与展望¶

对 BPDA 攻击仍脆弱：BPDA 可利用局部曲率绕过全局拓扑平滑性，ASR 仍高达 81%
评估数据集局限：仅在 MNIST/EMNIST 等简单数据上验证，未在 CIFAR-10/ImageNet 等自然图像上测试
OCR 评估中未使用 Reformer：为保持部署效率刻意省略了 Reformer，但这限制了 OCR 场景的防御上限
计算开销分析缺失：未报告持久同调计算的时间开销，这在大规模部署时可能是瓶颈
未与 diffusion-based 纯化方法对比：近年来基于扩散模型的对抗纯化方法（如 DiffPure）是强力基线

评分¶

新颖性: ⭐⭐⭐⭐ — 拓扑自编码器 + 对抗纯化的组合很新颖，Freeze-Flow 训练也有创意
实验充分度: ⭐⭐⭐ — 攻击覆盖面广但数据集偏简单，缺少自然图像验证
写作质量: ⭐⭐⭐⭐ — 清晰，拓扑背景介绍到位，但部分表述冗长
价值: ⭐⭐⭐⭐ — 开辟了 TDA 用于对抗防御的新路线，但实用性需在更复杂场景验证