跳转至

A Survey on Patent Analysis: From NLP to Multimodal AI

会议: ACL 2025
arXiv: 2404.08668
代码: GitHub
领域: 多模态VLM
关键词: patent analysis, NLP, multimodal AI, PLM, LLM

一句话总结

系统综述了 NLP 和多模态 AI 在专利分析四大核心任务(分类、检索、质量分析、生成)中的应用,提出基于专利生命周期的分类体系,揭示了从 Word2Vec+LSTM 到 BERT/GPT 再到多模态模型的方法演进趋势及重要研究空白。

研究背景与动机

领域现状:全球专利数据量呈指数级增长,USPTO 和 EPO 每年受理数十万件专利申请。专利审查涉及分类、检索、质量分析和撰写等多个环节,传统上高度依赖人工审查员的专业经验和大量时间投入。近年来,预训练语言模型(PLM)和大语言模型(LLM)在自然语言处理领域的突破性进展,为专利分析自动化带来了前所未有的机遇。

核心痛点:现有的专利 AI 综述(Gomez & Moens 2014、Krestel et al. 2021、Ali et al. 2024)存在三个关键缺陷:一是未覆盖 PLM/LLM 的最新应用进展;二是缺乏按任务维度和方法特性进行的系统分类;三是忽视了多模态学习(专利文本+图像)在检索和分类中的潜力。专利文本独特的法律语言结构(如权利要求的嵌套式表述)和专利图像的非自然特性(黑白线条图、标注数字)使得通用 NLP 方法不能直接迁移。

本文切入角度:提出一种基于专利生命周期任务的新分类体系(taxonomy),按四大核心任务(分类、检索、质量分析、生成)和三类方法(传统 NN、集成模型、PLM/LLM)双维度组织文献,为研究者构建面向特定任务的方法提供路线图。同时维护公开 GitHub 仓库,持续更新分类论文列表。

方法详解

整体框架

综述围绕专利生命周期中四大核心任务构建分层组织:专利分类(IPC/CPC 层级多标签分类)→ 专利检索(文本和图像的先有技术检索)→ 专利质量分析(引用数、专利族规模等指标预测)→ 专利生成(摘要、权利要求等自动撰写)。每个任务下按方法演进阶段(传统 ML → 传统 NN → PLM → LLM/多模态模型)组织相关工作。

关键设计

  1. 专利分类方法的三阶段演进:

    • 功能:自动将专利分配到 IPC/CPC 层级分类体系中的多个标签
    • 核心思路:从早期 Word2Vec+LSTM/GRU(Grawe et al. 2017、Risch & Krestel 2018)到集成多种嵌入和深度模型的组合方法(Kamateri et al. 2022 使用 Bi-LSTM+Bi-GRU+多种分区技术),再到 BERT/SciBERT/XLNet 微调(Roudsari et al. 2022 达到 precision 0.82),performance 逐步提升。最新 Sentence-BERT+KNN 方法(Bekamiri et al. 2024)在 recall 和 F1 上表现最优。此外,Ghauri et al. (2023) 首次将 CLIP+MLP 用于专利图像分类(流程图、电路图、技术图纸等)
    • 设计动机:专利文本中包含大量技术术语和复杂结构,领域自适应预训练(如 SciBERT)能更好捕获专利领域语义
  2. 专利检索的多模态融合趋势:

    • 功能:根据查询(文本或图像)检索相关专利文档和图像,支持新颖性评估和侵权分析
    • 核心思路:文本检索从 SVM+词嵌入(Setchi et al. 2021)演进到 BERT(Kang et al. 2020)和 Sentence-BERT+TransE 知识图谱嵌入(Siddharth et al. 2022)。图像检索从 CNN/ResNet50(Kucer et al. 2022)发展到自监督深度度量学习(Higuchi et al. 2023 使用 InfoNCE+ArcFace)。最前沿的 Lo et al. (2024) 将 BLIP-2 和 GPT-4V 融合用于专利文本+图像联合检索,采用分布感知对比损失解决长尾类别问题
    • 设计动机:专利检索天然需要跨模态理解——设计专利以图像为主而实用专利以文本为主,多模态融合能全面覆盖
  3. 专利生成中 LLM 的快速渗透:

    • 功能:自动撰写专利摘要、独立权利要求、从属权利要求和说明书
    • 核心思路:从 GPT-2 微调生成权利要求(Lee & Hsiang 2020a)到 Patentformer 利用 T5/GPT-J 从权利要求+图纸生成说明书(Wang et al. 2024a),再到基于 RLHF 的 PatentGPT-J(Lee 2024)和多 Agent 框架(Wang et al. 2024b 使用 Qwen2/LLaMA3/GPT-4o)。一个重要发现是通用 LLM(如 Llama-3、GPT-4)在权利要求生成上优于领域特化模型(Jiang et al. 2024)
    • 设计动机:专利撰写需要精确的法律语言和技术描述,LLM 的强大文本生成能力可大幅减少专利律师的时间成本

实验关键数据

主实验

专利分类性能对比(USPTO 数据集):

方法 嵌入 模型 Precision 分类级别
Risch & Krestel (2018) FastText GRU 0.53 全文
Lee & Hsiang (2020b) BERT-base 0.74 (acc) Subclass
Roudsari et al. (2022) Word2Vec/FastText XLNet 0.82 Title/Abstract
Bekamiri et al. (2024) SBERT KNN 最优 recall/F1 Claim/Title/Abstract

专利检索方法对比

方法 数据类型 模型 训练方式 数据集
Setchi et al. (2021) 文本 SVM/NB/RF 有监督
Pustu-Iren et al. (2021) 文本+图像 RoBERTa+CLIP 预训练 EPO
Kucer et al. (2022) 图像 ResNet50 微调 DeepPatent
Lo et al. (2024) 文本+图像 BLIP-2+GPT-4V 预训练+有监督 DeepPatent2

消融实验

分析维度 发现 影响
文本 vs 图像检索 多模态 Transformer 模型 > 单模态 最高 mAP
分类级别(Section→Subgroup) 级别越细,准确率下降越明显 Subclass 最高仅 0.74
专利文档组件 Claim > Abstract > Full text 信息密度影响
通用 vs 领域 LLM 通用 LLM ≥ 领域特化模型 泛化性更强

关键发现

  • PLM 的引入将专利分类 precision 从 0.53 大幅提升至 0.82,SciBERT 等领域自适应预训练模型对技术语言理解更优
  • 多模态检索是明确趋势——专利图像(黑白线条图)与自然图像差异巨大,需要专门的视觉编码器
  • 通用 LLM(GPT-4、Llama-3)在专利生成上竟优于领域特化模型(PatentGPT-J),反映了大规模预训练的泛化优势
  • 专利质量分析缺乏统一的"金标准"评估指标——前向引用是唯一与实际价值直接关联的指标
  • LLM 生成的专利文本面临幻觉风险和法律合规性挑战,RLHF 和 RAG 是有前景的改进方向

亮点与洞察

  • 首次提出基于专利生命周期任务的系统分类体系,填补了现有综述缺乏任务导向组织的空白
  • 系统梳理了从传统 NN → PLM → LLM → 多模态模型的清晰演进脉络,为后续研究提供路线图
  • 指出四个重要未来方向:多模态专利基础模型、基于 RAG 的幻觉缓解、专利知识图谱构建、跨司法管辖区检索
  • 维护公开 GitHub 仓库持续更新,实用价值高
  • 揭示了专利域与通用 NLP 之间的显著方法差距——当前专利分类中使用的模型远落后于最先进的 LLM

局限与展望

  • 综述侧重学术方法,对工业界(如 USPTO、EPO)实际部署的 AI 系统覆盖不足
  • 各方法的性能缺乏统一基准对比——数据集子集、分类层级、评价指标差异使横向比较困难
  • 对专利文本的特殊语言结构(如权利要求的嵌套法律语言)对模型设计的影响讨论不够深入
  • 未讨论数据标注成本、模型可解释性等实际部署中的关键挑战
  • 多模态方法的讨论相对单薄,缺乏统一的多模态基准测试

相关工作与启发

  • vs Gomez & Moens (2014): 早期 NLP+专利综述,本文覆盖了 PLM/LLM 时代的全新进展
  • vs Krestel et al. (2021): 聚焦信息提取,本文扩展到分类、检索、质量分析、生成四大任务
  • vs Ali et al. (2024): 综述 AI 方法但未覆盖最新 LLM 趋势和多模态融合方法

评分

  • 新颖性: ⭐⭐⭐ 分类体系有创新但综述类工作天然受限
  • 实验充分度: ⭐⭐⭐ 文献覆盖全面但缺乏统一实验验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、图表丰富、组织逻辑性强
  • 价值: ⭐⭐⭐⭐ 为专利 AI 领域提供了有价值的全景地图和未来方向指引

title: >- [论文解读] A Survey on Patent Analysis: From NLP to Multimodal AI description: >- [多模态] 全面综述了 NLP 和多模态 AI 在专利分析中的应用,提出基于专利生命周期任务的新分类体系,涵盖专利分类、检索、质量分析和生成四大任务,揭示了现有方法从传统 NN 到 PLM/LLM 的演进趋势及未来方向。 tags: - 多模态


A Survey on Patent Analysis: From NLP to Multimodal AI

会议 arXiv 代码 领域 关键词
ACL 2025 2404.08668 GitHub multimodal_vlm 专利分析, NLP, 专利分类, 专利检索, 专利生成, PLM, LLM

一句话总结

全面综述了 NLP 和多模态 AI 在专利分析中的应用,提出基于专利生命周期任务的新分类体系,涵盖专利分类、检索、质量分析和生成四大任务,揭示了现有方法从传统 NN 到 PLM/LLM 的演进趋势及未来方向。

研究背景与动机

  • 现有问题: 专利文本数据量持续爆发增长,人工审查专利的效率和覆盖面严重不足。专利审查员难以跨领域跟踪最新技术发展,依赖人力判断专利新颖性和可专利性面临巨大挑战。
  • 核心差距: 现有专利综述 (Gomez & Moens 2014; Krestel et al. 2021; Ali et al. 2024) 未覆盖近年 PLM/LLM 的最新进展,缺乏按任务维度和方法特性的系统性分类。
  • 研究动机: NLP/多模态 AI 技术可显著提升专利系统效率——自动化专利分类(IPC/CPC 多标签层级分类)、专利检索(新颖性判断和侵权分析)、质量分析(价值预测)和专利生成(自动撰写摘要和权利要求)。
  • 新分类法: 提出基于专利生命周期任务的分类体系,按四大任务和方法类型双维度组织,便于研究者构建面向特定任务的方法。

方法详解

整体框架

综述围绕专利生命周期中四大核心任务展开: 1. 专利分类 (Patent Classification): IPC/CPC 层级多标签分类 2. 专利检索 (Patent Retrieval): 文本和图像检索 3. 专利质量分析 (Patent Quality Analysis): 引用数、权利要求数等指标预测 4. 专利生成 (Patent Generation): 摘要、权利要求等自动撰写

关键设计

  1. 专利分类方法演进三阶段:

    • 传统 NN: Word2Vec + LSTM/GRU(如 Grawe et al. 2017, Risch & Krestel 2018)
    • 集成模型: 多种嵌入和深度学习模型组合(如 Kamateri et al. 2022 使用 Bi-LSTM + Bi-GRU)
    • PLM: BERT/SciBERT/XLNet 微调(如 Lee & Hsiang 2020b, Roudsari et al. 2022 达到 precision 0.82)
  2. 专利检索方法:

    • 文本检索: BiLSTM-CRF, Sentence-BERT + TransE, RoBERTa 等
    • 图像检索: Deep Metric Learning, ResNet50 + 自监督学习
    • 多模态: BLIP-2 + GPT-4V 联合检索 (Lo et al. 2024)
  3. 专利质量分析指标体系: 前向/后向引用数、权利要求数、授权时滞、专利族规模、剩余寿命等多维度指标,结合 CNN/BiLSTM/DNN/MLP 等模型进行预测。

方法对比

任务 早期方法 最新方法 性能提升
专利分类 Word2Vec + LSTM (precision 0.53) XLNet/RoBERTa (precision 0.82) +55%
专利检索 SVM + 词嵌入 BLIP-2 + GPT-4V 多模态 跨模态能力
质量分析 PCA + DNN BiLSTM-ATT-CRF 序列建模
专利生成 模板填充 LLM 零/少样本生成 语言质量

实验

专利分类性能对比

方法 嵌入 模型 分类级别 数据集
Grawe et al. 2017 Word2Vec LSTM IPC Subgroup
Risch & Krestel 2018 FastText GRU Full text
Lee & Hsiang 2020b BERT-base Claim USPTO
Roudsari et al. 2022 Word2Vec/FastText BERT/XLNet/RoBERTa Title/Abstract USPTO-2M
Bekamiri et al. 2024 SBERT KNN Claim/Title/Abstract USPTO

专利检索方法总结

方法 数据类型 训练方式 数据集
Kravets et al. 2017 (CNN) 文本 有监督 Freepatent
Kucer et al. 2022 (ResNet50) 图像 微调 DeepPatent
Lo et al. 2024 (BLIP-2 + GPT-4V) 文本+图像 预训练+有监督 DeepPatent2

关键发现

  1. PLM 显著优于传统方法: 专利分类中 BERT/XLNet 将 precision 从 0.53 提升至 0.82。
  2. 领域自适应预训练有效: SciBERT 由于在科学文献上预训练,对专利技术语言理解更好。
  3. 图像检索仍具挑战: 专利图像通常为黑白线条图且包含标注数字,与自然图像差异大。
  4. LLM 应用尚处初期: 专利分类中使用的语言模型普遍较简单,GPT/LLaMA 等先进 LLM 的潜力尚未充分发掘。

亮点

  • 提出基于专利生命周期任务的新分类体系,填补了现有专利 AI 综述缺乏任务导向分类的空白
  • 系统梳理了从传统 NN → PLM → LLM 的方法演进脉络,为后续研究提供清晰路线图
  • 覆盖文本和图像两种模态的专利检索,指出多模态融合是重要趋势
  • 维护了公开的 GitHub 论文仓库,持续更新分类论文列表

局限性

  • 综述主要聚焦已发表方法,对工业界实际部署的专利 AI 系统覆盖不足
  • 各方法的性能比较受限于数据集子集、分类层级和评价指标的差异,缺乏统一基准测试
  • 对 LLM(如 GPT-4、LLaMA)在专利域的最新应用讨论相对较少
  • 未深入讨论专利文本特殊性(如权利要求的法律语言结构)对模型设计的影响

相关工作

  • 前期专利综述: Gomez & Moens (2014) 早期 NLP + 专利综述;Krestel et al. (2021) 聚焦信息提取;Ali et al. (2024) 综述 AI 方法但未覆盖最新 LLM
  • 专利专用语言模型: PatentBERT 等领域自适应预训练模型;SciBERT 迁移到专利域
  • 专利数据集: USPTO-2M/3M (Lee & Hsiang 2020b), DeepPatent/DeepPatent2 图像数据集, CLEF-IP 检索基准

评分

维度 分数 (1-10)
创新性 6
技术深度 6
实验充分性 5
写作质量 7
综合 6.0