Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis¶

会议: NeurIPS 2025
arXiv: 2511.12658
代码: Project Page（论文提到有Project Page发布数据集）
领域: 可解释性
关键词: 文本图像篡改, 合成数据, 不可见分布建模, 傅里叶级数, 篡改参数

一句话总结¶

提出基于傅里叶级数的篡改合成框架 FSTS，通过从67名人类参与者收集的16750个真实篡改实例中建模"不可见分布"（篡改操作参数的高维分布），生成更贴近真实世界的合成训练数据，显著提升文本图像篡改定位模型的泛化能力。

研究背景与动机¶

文本图像（如文件、发票、新闻截图等）包含大量敏感信息，容易成为伪造目标。现有文本图像篡改定位（T-IFL）方法依赖大规模高质量标注数据，但真实世界篡改数据集规模受限（如 FindIt 仅240张，STFD 仅4094张），难以满足深度学习的数据需求。

现有的合成方法（如 DocTamper）尝试自动生成篡改数据，但它们主要关注可见分布——场景多样性、数据规模、语言多样性等表面属性。然而，真实世界的篡改涉及复杂的不可见分布：伪造者会根据场景选择不同篡改类型，执行一系列主处理（区域选择、文本插入、几何变换）和后处理（模糊、滤波、颜色调整、JPEG压缩等）。这些篡改参数的高维向量对人眼不可见，但对篡改痕迹的多样性和检测模型的泛化能力至关重要。

核心挑战在于：(1) 如何有效收集真实篡改参数？多数篡改图像只保留最终结果，无法恢复操作历史。(2) 收集多少数据才能充分建模分布？穷举收集不现实，需要从有限样本中泛化。

方法详解¶

整体框架¶

FSTS 分三步走：收集真实篡改参数 → 层次化建模参数分布 → 从分布中采样生成合成数据。核心思想受傅里叶级数启发——就像复杂波形可分解为基函数的加权和，复杂的篡改行为可分解为基本操作-参数配置的加权组合。

关键设计¶

结构化篡改参数收集管线: 招募67名专家和志愿者，使用 Photoshop 对不同场景（照片、截图、扫描件）执行5种篡改类型（copy-move、splicing、removal、insertion、replacement），共产生16750个篡改实例。通过视频录制、PSD文件、操作日志等多格式记录自动捕获每次编辑的参数。这解决了"如何收集 \(t\)"的问题——不是逆向分析篡改图像，而是在篡改过程中直接记录。
个体级分布建模: 分析发现个体篡改者倾向于重复使用类似的参数配置（如篡改者1在67%的替换样本中使用 Content-Aware Fill，41.4%使用高斯模糊）。因此，每个个体 \(i\) 的篡改分布可建模为 \(K\) 种篡改类型 \(\phi_k\) 的加权组合：

\[P_S^{(i)}(t) = \sum_{k=1}^{K} a_k^{(i)} \phi_k(t_k^{(i)})\]

其中 \(a_k^{(i)}\) 是篡改类型 \(\phi_k\) 的频率权重，\(t_k^{(i)}\) 是代表性操作-参数配置（选取超过2%使用率阈值的最频繁配置）。随着样本数增大，每种类型的统计特征趋于稳定，因此可用单一代表性配置近似。

群体级分布建模: 观察到不同篡改者之间存在共享偏好（如61.7%使用 Content-Aware Fill，39.7%使用高斯模糊）。因此，群体级分布通过聚合所有个体分布得到：

\[P_S(t) = \sum_{k=1}^{K} a_k \phi_k(t_k)\]

其中 \(a_k = \sum_{i=1}^{I} a_k^{(i)}\)，\(t_k\) 从所有个体的 \(\{t_k^{(i)}\}\) 中选取至少5%个体共享的配置。最终优化目标简化为在基配置 \(t_k \approx \hat{t}_k\) 的假设下，对齐合成权重 \(\{a_k\}\) 与真实权重 \(\{\hat{a}_k\}\)。

损失函数 / 训练策略¶

FSTS 本身是数据合成框架，不涉及额外的模型训练损失。下游检测模型使用各自原始默认配置训练——Protocol 1/2 训练50个 epoch，Protocol 3/4 训练25个 epoch。合成图像生成过程为：根据建模分布采样操作-参数配置，对原始图像 \(I^o\) 执行对应篡改操作：

\[I^s = \text{Generator}(I^o | \{a_k, t_k, \phi_k\}_{k=1}^K)\]

实验关键数据¶

主实验（Protocol 2: 合成训练 → 真实测试）¶

方法	训练数据	真实数据集平均F1	真实数据集平均AUC	相比DocT-T的F1提升
RRU-Net	DocT-T	.199	.765	-
RRU-Net	FSTS-T	.342	.864	+.143
DFCN	DocT-T	.102	.782	-
DFCN	FSTS-T	.327	.889	+.225
MVSS-Net	DocT-T	.168	.697	-
MVSS-Net	FSTS-T	.386	.812	+.218
TruFor	DocT-T	.198	.785	-
TruFor	FSTS-T	.477	.912	+.279
STFL-Net	DocT-T	.205	.781	-
STFL-Net	FSTS-T	.399	.892	+.194

所有方法在 FSTS-T 训练后的真实世界测试中均大幅超越 DocT-T 训练。

消融实验（Protocol 4: 合成预训练 + 真实微调）¶

配置	平均F1	平均AUC	说明
Direct（仅真实数据训练）	.405 (MVSS-Net)	.758	基线，在跨数据集上泛化差
DocT-T预训练 + 微调	.406	.758	几乎无提升，说明DocTamper合成数据分布偏差大
FSTS-T预训练 + 微调	.434	.807	一致性提升，证实FSTS合成数据的预训练价值

关键发现¶

在 Protocol 2 中，FSTS-T 训练的模型在真实数据集上的平均 F1 提升超过14%，部分模型超过21%
FSTS-T 合成数据在跨域泛化上甚至可以超越用真实数据直接训练的模型（Protocol 3 vs Protocol 2）
DocT-T 预训练往往导致性能下降（负增益），而 FSTS-T 预训练几乎总是正增益
5种篡改类型中，群体级参数分布展现出明确的共享偏好模式，验证了层次建模的合理性

亮点与洞察¶

从"可见分布"到"不可见分布"的视角转换非常有洞察力。现有合成方法只关注图像层面的多样性，而忽略了篡改操作本身的参数分布——这一隐藏变量对生成逼真训练数据至关重要
傅里叶级数的类比虽非严格数学对应，但提供了直觉上优美的框架：复杂篡改行为 = 基本操作模式的加权叠加
数据收集管线的设计有实用价值：通过记录人类的编辑过程（而非逆向工程篡改图像）来获取真实参数

局限与展望¶

当前只覆盖5种篡改类型，未涵盖基于深度生成模型（GAN/Diffusion）的新型篡改手段
假设 \(t_k \approx \hat{t}_k\)（合成基配置近似真实基配置）是否成立缺乏理论保证
67人的参与者池是否足够代表全球伪造者的行为模式有待验证
某些方法在特定数据集上仍表现不佳（如 PSCC-Net 在 AFAC 上），说明合成数据无法完全弥补模型架构的局限

评分¶

新颖性: ⭐⭐⭐⭐ 不可见分布建模视角新颖，傅里叶级数类比有创意
实验充分度: ⭐⭐⭐⭐⭐ 4种评估协议，7种基线方法，5个真实数据集，实验设计系统全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从问题定义到方法推导层层递进
价值: ⭐⭐⭐⭐ 对文档安全和数字取证领域有直接应用价值，数据集将公开