LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval¶

会议: AAAI 2026
arXiv: 2603.02888
代码: 无
领域: LLM智能体
关键词: 多Agent框架, 地标感知, 多模态视频检索, 越南场景, CLIP, OCR

一句话总结¶

提出 LLandMark 模块化多 Agent 框架，通过地标知识增强、LLM 辅助图像检索和 OCR 精炼模块，在越南大规模视频检索挑战赛（HCMAIC 2025）中实现地标感知的多模态交互式视频检索，总分 77.40/88。

领域现状：从大规模异构视频语料库中检索信息面临多语言变异、噪声文本提取和跨模态推理等挑战。现有系统如 MAVEN 引入了 Agent 框架但规划能力有限，基于 RAG 的融合方法在可扩展性上存在困难。

核心痛点：多数现有系统忽视空间和文化上下文，尤其是地标推理能力。在越南语查询中，地标名称无法直接通过 CLIP 的文本嵌入匹配到对应视觉特征，因为 CLIP 训练数据中越南地标的文本-视觉关联不足。

核心矛盾：文本语义检索依赖词汇匹配，但地标的文本名称与其视觉外观之间存在巨大的语义鸿沟。例如"圣约瑟大教堂"的视觉特征是"双方形钟楼、深灰色石材、哥特式建筑"。

切入角度：设计地标知识 Agent，将地标名称重新表述为详细的视觉描述性提示词，桥接 CLIP 嵌入空间中的语义鸿沟；同时引入全自动的 LLM 辅助图像到图像检索管道。

LLandMark 包含四个紧密集成的阶段：(1) 查询解析与规划、(2) 地标知识增强、(3) 并行多模态检索、(4) 重排序与答案合成。系统基于 CLIP ConvNeXt-XXLarge 进行视觉嵌入，Milvus 向量数据库存储，Elasticsearch 用于文本检索。

查询解析与规划 Agent
- 分析用户查询意图（越南语/英语），构建加权搜索计划 SearchPlan
- 语义搜索的查询翻译为描述性英语以最大化与 CLIP 空间的对齐
- ASR/OCR 搜索保留越南语地标名和专有名词以确保精确匹配
- 自动检测地标实体，标记进入下一阶段特殊增强
地标知识增强 Agent
- 维护越南地标知识库，每个地标包含详细的视觉和建筑属性描述
- 将语义查询中的地标名替换为丰富的描述性提示词
- 示例："圣约瑟大教堂"变为"Twin square bell towers, dark gray stone, Gothic architecture"
- 这种重新表述桥接了 CLIP 视觉嵌入空间中的语义鸿沟
LLM 辅助地标图像到图像检索
- 全自动管道：Gemini 2.5 Flash 检测地标，生成图像搜索查询
- Google Custom Search API 获取参考图像，CLIP 编码后在 Milvus 中向量检索
- 消除了传统图像检索需要用户手动提供参考图像的限制
- 通过真实地标图像作为查询锚点，减少文本查询的歧义性
OCR 精炼模块
- PaddleOCR 提取视频帧文本，但越南语变音符号处理不佳
- 先标准化为无声调形式保留词汇完整性
- 再通过 Gemini 2.5 Flash + LlamaIndex 自动恢复变音符号、纠正拼写

多模态融合评分为加权平均。时序检索使用最小分数聚合确保视频在所有步骤上均高度相关。预处理使用 TransNetV2 进行镜头分割，每个镜头选取 3 个代表性关键帧（百分位 0.15/0.5/0.85）。

查询	基线 CLIP 检索	LLandMark	效果
"巴亭码头夜景发光灯光"	返回无关结果	正确检索目标视频	地标增强有效
"滨城市场"	误判为普通市场	准确识别并匹配	图像检索管道有效

维度	评分	理由
新颖性	⭐⭐⭐⭐	地标感知增强 + LLM 辅助图像检索管道是新颖且实用的组合
技术深度	⭐⭐⭐	各技术组件成熟，创新在系统集成层面
实验完整度	⭐⭐⭐	仅有挑战赛排名和定性对比，缺乏系统性消融实验
实用价值	⭐⭐⭐⭐	旅游导览、文化遗产检索等场景有明确应用前景