MemoPhishAgent: Memory-Augmented Multi-Modal LLM Agent for Phishing URL Detection¶

会议: ACL 2026
arXiv: 2602.21394
代码: GitHub
领域: 安全AI
关键词: 钓鱼检测, LLM智能体, 情景记忆, 多模态推理, 工具调用

一句话总结¶

提出 MemoPhishAgent（MPA），首个专为钓鱼URL检测设计的记忆增强多模态LLM智能体，通过5个专用工具的动态编排和情景记忆系统复用历史推理轨迹，在公开基准上召回率提升13.6%，在真实社交媒体数据上提升20%，并已部署生产环境每周处理约6万高风险URL。

领域现状：钓鱼攻击持续演变，传统防御（静态黑名单、手工启发式规则）对新域名和新手法覆盖不足。基于品牌-域名映射的参考方法改进了鲁棒性但维护成本高，对新品牌和子域名反应滞后。

现有痛点：（1）现有LLM方案多为提示式确定性流水线，缺乏自适应证据收集能力；（2）工具使用固定流程（如先OCR再品牌匹配再域名验证），不能根据当前证据状态动态调整；（3）无记忆系统，无法复用历史调查经验，重复分析类似钓鱼模式效率低。

核心矛盾：钓鱼攻击是非平稳的——攻击者不断变换策略，但防御系统是无记忆的，每次从零开始分析。

本文目标：构建一个能动态调整证据收集策略、从历史调查中学习、并适用于生产环境的钓鱼检测智能体。

切入角度：将钓鱼检测建模为多步推理过程——模拟人类专家的调查行为，动态选择工具收集证据。

核心idea：5个钓鱼专用多模态工具 + ReAct推理循环 + 情景记忆系统（存储/检索历史推理轨迹），三者结合实现自适应、可学习的钓鱼检测。

MPA接收可疑URL列表，每个URL通过Agent处理：（1）动态选择5个专用工具收集多模态证据（文本+视觉+外部知识）；（2）在ReAct循环中进行多步推理，基于当前证据状态决定下一步行动；（3）利用情景记忆检索相似历史案例，加速判断或提供exemplar引导。最终输出"恶意"或"良性"判定。

5个钓鱼专用工具：
- 功能：提供互补的多模态证据
- 核心思路：三方面覆盖——多模态证据（Crawl Content提取Markdown文本 + Check Screenshot全页截图分析 + Check Image细粒度图像检查）、外部知识（Intelligent Search构建证据驱动的搜索查询获取最新信息）、嵌套攻击面（Extract Targets提取重定向目标和子链接进行深层检查）
- 设计动机：通用工具不适配钓鱼场景；5个工具覆盖文本/视觉/链接/外部知识四个维度
情景记忆系统：
- 功能：存储、检索和复用历史推理轨迹
- 核心思路：用LLM从页面提取紧凑关键词（如"apple login", "wallet connect"），嵌入向量索引。检索top-k近邻，按三级策略使用——无匹配时完整ReAct循环、部分匹配时作为exemplar引导、完全匹配时直接多数投票。随部署增长，记忆越来越丰富
- 设计动机：钓鱼模式存在大量重复（同一攻击模板针对不同受害者），记忆系统将重复调查转化为快速决策
三级记忆使用策略：
- 功能：平衡速度和可靠性
- 核心思路：k'=0→完整推理（未见模式）；0<k'<k→历史轨迹作为in-context exemplar（部分相似）；k'≥k→直接多数投票（高度相似）
- 设计动机：避免记忆主导推理——应作为上下文指导而非替代思考

方法	TR-OP Recall	DynaPD Recall	速度(s/URL)
MPA	93.4%	93.6%	4.46
PhishLLM	~80%	~88%	14.2
MLLM	~82%	~85%	5.1
URLTran	~86%	—	2.8(含训练)