EpiAgent: An Agent-Centric System for Ancient Inscription Restoration¶
会议: CVPR 2026
arXiv: 2604.09367
代码: https://github.com/blackprotoss/EpiAgent
领域: LLM Agent/数字人文
关键词: 古代铭文修复, LLM Agent, 多模态分析, 迭代优化, 文化遗产保护
一句话总结¶
EpiAgent是首个面向古代铭文修复的Agent系统,通过LLM中央规划器协调多模态分析、专用修复工具和迭代自我优化,在文字真实性和视觉保真度上超越现有方法。
研究背景与动机¶
领域现状:AI驱动的古代文字修复已有进展,但现有方法要么局限于单字符级修复,要么使用固定流水线进行全铭文修复,无法处理异构退化模式。
现有痛点:(1) 基于图像到图像翻译的方法常扭曲原始字形,导致过度/不足修复;(2) 固定流水线缺乏对异构退化模式的适应性;(3) 铭文修复需要同时保证文字真实性和视觉保真度的双重要求。
核心矛盾:铭文修复不是简单的图像增强,而是需要像人类铭文学家那样协调多模态分析、专业技能判断和审美评价的复杂认知过程。
本文目标:构建一个模仿人类铭文学家工作流程的Agent系统,实现灵活自适应的铭文修复。
切入角度:将铭文修复形式化为分层规划问题,由LLM中央规划器在"观察-构思-执行-再评估"循环中驱动。
核心idea:用Agent架构替代固定流水线,使修复过程能根据退化模式动态调整工具选择和执行顺序。
方法详解¶
整体框架¶
EpiAgent 把铭文修复当成一个"像人类铭文学家那样反复推敲"的过程,而不是一条固定的图像增强流水线。一张退化的铭文图进来,系统以 LLM 为中央规划器,在 Observe-Conceive-Execute-Reevaluate(观察-构思-执行-再评估)四阶段循环中转动:先 Observe 把这块碑"看清楚"——退化在哪、字是什么、缺了多少;再 Conceive 根据历史经验为每个字符单独排一套修复动作;然后 Execute 按计划组合调用专用修复工具;最后 Reevaluate 用自动指标(外加可选的专家反馈)打分,不满意就把信息回灌给规划器重来一轮。关键在于"工具用哪些、按什么顺序"不是写死的,而是规划器根据每个字的退化模式临场决定,因此能应付同一块碑上空间不均、结构耦合的异构退化。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
I["退化铭文图"] --> O["Observe:多模态协同看全退化<br/>MLLM 假设 + CLM/RAG 纠字 + 布局校正 + 退化评估"]
O --> C["Conceive:按经验先验<br/>为每个字符排动作序列"]
C --> E["Execute:按序列组合调用专用修复工具"]
E --> R["Reevaluate:像素 / 文字 / 1-NED 三维打分"]
R -->|达标| Out["修复结果"]
R -->|不达标,回灌重规划| C
关键设计¶
1. Observe:多模态协同把退化状态"看全",给后续规划一份可靠底稿
固定流水线的通病是只看到图像表面,看不出"这个字其实是什么、哪块是彻底缺失"。EpiAgent 的 Observe 阶段分两步把这份底稿做扎实。第一步让 MLLM 对整图给出初始的版面布局假设和逐字文字假设;第二步用三个专门模块去纠偏:校正语言模型(CLM)是一个微调过的 7B LLM,配合 RAG 查询大规模中文古籍语料,把 MLLM 认错的字纠正回历史上真实出现过的文本;布局校正模块负责预测完整版面,连完全缺失、图像里根本没有像素的区域也要补全位置;退化评估模型则输出像素级的退化分割掩码和严重程度等级。这一步的产物是一份观察记录 \(T_r\)——既有"这个字应该是什么"的语义判断,也有"哪里坏了、坏到什么程度"的空间判断,恰好覆盖了铭文退化空间变化、结构耦合、多尺度的三重特性。
2. Conceive:用历史日志里的统计先验,为每个字符单独排一套动作序列
知道了哪里坏、坏成什么样,接下来要决定"先用哪个工具、再用哪个"。EpiAgent 不靠人手写规则,而是从历史执行日志里挖出一份经验先验——对每种退化模式 \(\mathcal{S}_d\) 统计各修复工具 \(f\) 的效用分布 \(p(f\mid\mathcal{S}_d)\),本质是"过去遇到这类退化,哪个工具好使"的频率表。规划器 \(\pi\) 同时吃观察记录 \(T_r\) 和这份经验先验 \(T_e\),对每个字符独立生成一条动作序列:
逐字规划是这里的要害——同一块碑上,有的字只是轻微磨损、一步去噪就够,有的字结构性崩坏、得多个工具串联,全图一刀切只会过度或不足修复。经验先验则让规划器不必从零试错,直接把退化模式映射到大概率好使的工具组合上。
3. Reevaluate:三维度闭环打分,不达标就回灌重规划
最后要回答"这一轮到底修好没有"。铭文修复的好坏不能只看图好不好看,还要看字对不对、整体读不读得通,所以 Reevaluate 从三个维度同时评:像素质量(PSNR / SSIM / LPIPS)管视觉保真,文字识别(Top-1 / Top-5 准确率)管单字是否认得出,端到端的 1-NED(基于归一化编辑距离)管整篇文本的连贯可读性。需要时还能接入第三方专家反馈做人机协作校验。三个维度的评估结果不是终点,而是回灌给 Conceive 阶段触发下一轮重规划——哪一维拖后腿,下一轮就针对性地换工具或加步骤,构成真正的闭环迭代。
一个完整示例¶
拿一块同时含轻度磨损和重度缺失字符的拓片走一遍:Observe 阶段 MLLM 先读出 12 个字的初步假设,CLM 查语料库把其中被认成形近字的 2 个字纠正回史料里的正确写法,布局校正模块补上右下角一个完全缺失字的位置框,退化评估模型标出"左侧 8 字轻度、右下 4 字重度耦合退化"。Conceive 阶段规划器查经验先验,给左侧轻度字各排一步去噪工具,给右下重度字排"去噪 → 结构补全 → 字形精修"三步串联,每个字一条独立序列。Execute 按序列组合调用工具完成首轮修复。Reevaluate 打分发现整体 PSNR、识别准确率都已达标,但重度缺失字所在区域的 1-NED 偏低、读不通顺,于是把这块的信息回灌规划器,第二轮针对那几个字加一步上下文一致性精修,再评估通过、退出循环。整个过程工具的选择和轮数都由退化模式现场决定,而非预设流水线。
损失函数 / 训练策略¶
EpiAgent 主体是推理时的 Agent 编排,不做端到端训练;需要单独训练的只有两个子模块:CLM 通过微调 7B LLM 并配合 RAG 实现文字校正,退化评估模型则以像素级退化分割为目标进行训练。规划器的经验先验来自历史执行日志的统计,无需梯度训练。
实验关键数据¶
主实验¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | Top-1 Acc↑ | 1-NED↑ |
|---|---|---|---|---|---|
| CharFormer | 19.74 | 0.9503 | 0.0478 | 0.9109 | 0.8313 |
| DocDiff | 20.61 | 0.9565 | 0.0361 | 0.9275 | 0.8439 |
| MambaIR | 21.10 | 0.9599 | 0.0377 | 0.9093 | 0.8251 |
| IR3 | 21.15 | 0.9540 | 0.0388 | 0.9626 | 0.8855 |
| EpiAgent | 22.14 | 0.9684 | 0.0254 | 0.9889 | 0.9069 |
| 完整原件 | - | - | - | 0.9971 | 0.9120 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无CLM校正 | 识别准确率下降 | 文字指导不准确 |
| 无经验先验 | 修复质量下降 | 工具选择不优化 |
| 无迭代优化 | 质量次优 | 单次修复不充分 |
| 完整EpiAgent | 最优 | 四阶段闭环协同 |
关键发现¶
- EpiAgent的识别准确率(0.9889)接近完整原件(0.9971),说明修复后的文字几乎完全可读
- 在真实退化铭文上的泛化能力显著优于固定流水线方法
- Agent的迭代优化机制在复杂耦合退化场景下特别有效
亮点与洞察¶
- Agent范式在文化遗产保护中的开创性应用:将LLM Agent从通用任务引入到高度专业化的铭文学领域,是数字人文的重要突破
- 可选专家反馈的闭环设计:系统支持人类专家在评估阶段介入,实现了人机协作的修复工作流
- 字符级精细规划:不同于全图一刀切的处理,EpiAgent对每个字符独立规划修复策略,处理空间耦合退化
局限与展望¶
- LLM推理的计算开销大,单张铭文的修复可能需要数分钟
- 高度依赖CLM的文字校正质量,在极度退化的铭文上可能失效
- 仅针对中文古代铭文验证,扩展到其他文字体系需要额外工作
相关工作与启发¶
- vs IR3: IR3使用全局-局部框架进行全铭文修复但存在错误传播,EpiAgent的Agent架构天然支持错误修正
- vs AutoHDR: AutoHDR使用LLM预测损坏内容但风格迁移可能扭曲字形,EpiAgent通过专用工具保持书法真实性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Agent范式在文化遗产保护中的首次应用
- 实验充分度: ⭐⭐⭐⭐ 在合成和真实退化数据上全面评估
- 写作质量: ⭐⭐⭐⭐ 工作流描述清晰
- 价值: ⭐⭐⭐⭐ 对数字人文领域有重要意义