跳转至

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

会议: AAAI 2026
arXiv: 2603.02888
代码: 无
领域: LLM智能体
关键词: 多Agent框架, 地标感知, 多模态视频检索, 越南场景, CLIP, OCR

一句话总结

提出 LLandMark 模块化多 Agent 框架,通过地标知识增强、LLM 辅助图像检索和 OCR 精炼模块,在越南大规模视频检索挑战赛(HCMAIC 2025)中实现地标感知的多模态交互式视频检索,总分 77.40/88。

研究背景与动机

领域现状:从大规模异构视频语料库中检索信息面临多语言变异、噪声文本提取和跨模态推理等挑战。现有系统如 MAVEN 引入了 Agent 框架但规划能力有限,基于 RAG 的融合方法在可扩展性上存在困难。

核心痛点:多数现有系统忽视空间和文化上下文,尤其是地标推理能力。在越南语查询中,地标名称无法直接通过 CLIP 的文本嵌入匹配到对应视觉特征,因为 CLIP 训练数据中越南地标的文本-视觉关联不足。

核心矛盾:文本语义检索依赖词汇匹配,但地标的文本名称与其视觉外观之间存在巨大的语义鸿沟。例如"圣约瑟大教堂"的视觉特征是"双方形钟楼、深灰色石材、哥特式建筑"。

切入角度:设计地标知识 Agent,将地标名称重新表述为详细的视觉描述性提示词,桥接 CLIP 嵌入空间中的语义鸿沟;同时引入全自动的 LLM 辅助图像到图像检索管道。

方法详解

整体框架

LLandMark 包含四个紧密集成的阶段:(1) 查询解析与规划、(2) 地标知识增强、(3) 并行多模态检索、(4) 重排序与答案合成。系统基于 CLIP ConvNeXt-XXLarge 进行视觉嵌入,Milvus 向量数据库存储,Elasticsearch 用于文本检索。

关键设计

  1. 查询解析与规划 Agent

    • 分析用户查询意图(越南语/英语),构建加权搜索计划 SearchPlan
    • 语义搜索的查询翻译为描述性英语以最大化与 CLIP 空间的对齐
    • ASR/OCR 搜索保留越南语地标名和专有名词以确保精确匹配
    • 自动检测地标实体,标记进入下一阶段特殊增强
  2. 地标知识增强 Agent

    • 维护越南地标知识库,每个地标包含详细的视觉和建筑属性描述
    • 将语义查询中的地标名替换为丰富的描述性提示词
    • 示例:"圣约瑟大教堂"变为"Twin square bell towers, dark gray stone, Gothic architecture"
    • 这种重新表述桥接了 CLIP 视觉嵌入空间中的语义鸿沟
  3. LLM 辅助地标图像到图像检索

    • 全自动管道:Gemini 2.5 Flash 检测地标,生成图像搜索查询
    • Google Custom Search API 获取参考图像,CLIP 编码后在 Milvus 中向量检索
    • 消除了传统图像检索需要用户手动提供参考图像的限制
    • 通过真实地标图像作为查询锚点,减少文本查询的歧义性
  4. OCR 精炼模块

    • PaddleOCR 提取视频帧文本,但越南语变音符号处理不佳
    • 先标准化为无声调形式保留词汇完整性
    • 再通过 Gemini 2.5 Flash + LlamaIndex 自动恢复变音符号、纠正拼写

损失函数/训练策略

多模态融合评分为加权平均。时序检索使用最小分数聚合确保视频在所有步骤上均高度相关。预处理使用 TransNetV2 进行镜头分割,每个镜头选取 3 个代表性关键帧(百分位 0.15/0.5/0.85)。

实验关键数据

主实验表格(HCMAIC 2025 资格赛)

轮次 得分 满分 得分率
Round 1 20.00 23.00 87.0%
Round 2 28.20 30.00 94.0%
Round 3 29.20 35.00 83.4%
总计 77.40 88.00 87.9%

消融实验表格(定性对比)

查询 基线 CLIP 检索 LLandMark 效果
"巴亭码头夜景发光灯光" 返回无关结果 正确检索目标视频 地标增强有效
"滨城市场" 误判为普通市场 准确识别并匹配 图像检索管道有效

关键发现

  • 在 680+ 注册队伍中排名前 56(约 top 8%),验证了框架在大规模评测中的竞争力
  • 地标知识增强在文化特定查询上效果显著,基线 CLIP 完全无法处理的地标查询成功检索
  • OCR 精炼对越南语处理至关重要,原始输出的变音符号错误严重影响下游检索质量
  • Round 3(最复杂轮次)得分率 83.4%,系统在高难度任务上保持了鲁棒性

亮点与洞察

  • 地标到视觉描述的重新表述是本文最核心的创新,将语义鸿沟问题转化为文本改写问题
  • 全自动图像检索管道消除了用户需要手动找参考图像的痛点
  • 模块化多 Agent 设计使各组件可独立升级,工程可扩展性优秀

局限与展望

  • 地标知识库目前为手动策划,覆盖范围受限于越南已知地标
  • 依赖 Google Custom Search API 获取参考图像,存在 API 费用和调用限制
  • 评估仅在 HCMAIC 2025 挑战赛数据集上进行,泛化到其他文化场景未验证
  • 系统延迟和吞吐量指标未报告

相关工作与启发

方面 MAVEN(前代系统) LLandMark
规划能力 有限的 Agent 规划 查询解析 + 加权搜索计划
地标处理 无专门机制 知识增强 + 视觉重述
OCR 精度 DeepSolo+PARSeq PaddleOCR + Gemini 后校正
图像检索 需手动图像输入 全自动 LLM 辅助管道

vs 通用 CLIP 检索系统:CLIP 在文化特定场景中存在训练数据偏差,LLandMark 通过知识增强层弥补了这一缺陷。

评分

维度 评分 理由
新颖性 ⭐⭐⭐⭐ 地标感知增强 + LLM 辅助图像检索管道是新颖且实用的组合
技术深度 ⭐⭐⭐ 各技术组件成熟,创新在系统集成层面
实验完整度 ⭐⭐⭐ 仅有挑战赛排名和定性对比,缺乏系统性消融实验
实用价值 ⭐⭐⭐⭐ 旅游导览、文化遗产检索等场景有明确应用前景