LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval¶
会议: AAAI 2026
arXiv: 2603.02888
代码: 无
领域: LLM智能体
关键词: 多Agent框架, 地标感知, 多模态视频检索, 越南场景, CLIP, OCR
一句话总结¶
提出 LLandMark 模块化多 Agent 框架,通过地标知识增强、LLM 辅助图像检索和 OCR 精炼模块,在越南大规模视频检索挑战赛(HCMAIC 2025)中实现地标感知的多模态交互式视频检索,总分 77.40/88。
研究背景与动机¶
领域现状:从大规模异构视频语料库中检索信息面临多语言变异、噪声文本提取和跨模态推理等挑战。现有系统如 MAVEN 引入了 Agent 框架但规划能力有限,基于 RAG 的融合方法在可扩展性上存在困难。
核心痛点:多数现有系统忽视空间和文化上下文,尤其是地标推理能力。在越南语查询中,地标名称无法直接通过 CLIP 的文本嵌入匹配到对应视觉特征,因为 CLIP 训练数据中越南地标的文本-视觉关联不足。
核心矛盾:文本语义检索依赖词汇匹配,但地标的文本名称与其视觉外观之间存在巨大的语义鸿沟。例如"圣约瑟大教堂"的视觉特征是"双方形钟楼、深灰色石材、哥特式建筑"。
切入角度:设计地标知识 Agent,将地标名称重新表述为详细的视觉描述性提示词,桥接 CLIP 嵌入空间中的语义鸿沟;同时引入全自动的 LLM 辅助图像到图像检索管道。
方法详解¶
整体框架¶
LLandMark 包含四个紧密集成的阶段:(1) 查询解析与规划、(2) 地标知识增强、(3) 并行多模态检索、(4) 重排序与答案合成。系统基于 CLIP ConvNeXt-XXLarge 进行视觉嵌入,Milvus 向量数据库存储,Elasticsearch 用于文本检索。
关键设计¶
-
查询解析与规划 Agent
- 分析用户查询意图(越南语/英语),构建加权搜索计划 SearchPlan
- 语义搜索的查询翻译为描述性英语以最大化与 CLIP 空间的对齐
- ASR/OCR 搜索保留越南语地标名和专有名词以确保精确匹配
- 自动检测地标实体,标记进入下一阶段特殊增强
-
地标知识增强 Agent
- 维护越南地标知识库,每个地标包含详细的视觉和建筑属性描述
- 将语义查询中的地标名替换为丰富的描述性提示词
- 示例:"圣约瑟大教堂"变为"Twin square bell towers, dark gray stone, Gothic architecture"
- 这种重新表述桥接了 CLIP 视觉嵌入空间中的语义鸿沟
-
LLM 辅助地标图像到图像检索
- 全自动管道:Gemini 2.5 Flash 检测地标,生成图像搜索查询
- Google Custom Search API 获取参考图像,CLIP 编码后在 Milvus 中向量检索
- 消除了传统图像检索需要用户手动提供参考图像的限制
- 通过真实地标图像作为查询锚点,减少文本查询的歧义性
-
OCR 精炼模块
- PaddleOCR 提取视频帧文本,但越南语变音符号处理不佳
- 先标准化为无声调形式保留词汇完整性
- 再通过 Gemini 2.5 Flash + LlamaIndex 自动恢复变音符号、纠正拼写
损失函数/训练策略¶
多模态融合评分为加权平均。时序检索使用最小分数聚合确保视频在所有步骤上均高度相关。预处理使用 TransNetV2 进行镜头分割,每个镜头选取 3 个代表性关键帧(百分位 0.15/0.5/0.85)。
实验关键数据¶
主实验表格(HCMAIC 2025 资格赛)¶
| 轮次 | 得分 | 满分 | 得分率 |
|---|---|---|---|
| Round 1 | 20.00 | 23.00 | 87.0% |
| Round 2 | 28.20 | 30.00 | 94.0% |
| Round 3 | 29.20 | 35.00 | 83.4% |
| 总计 | 77.40 | 88.00 | 87.9% |
消融实验表格(定性对比)¶
| 查询 | 基线 CLIP 检索 | LLandMark | 效果 |
|---|---|---|---|
| "巴亭码头夜景发光灯光" | 返回无关结果 | 正确检索目标视频 | 地标增强有效 |
| "滨城市场" | 误判为普通市场 | 准确识别并匹配 | 图像检索管道有效 |
关键发现¶
- 在 680+ 注册队伍中排名前 56(约 top 8%),验证了框架在大规模评测中的竞争力
- 地标知识增强在文化特定查询上效果显著,基线 CLIP 完全无法处理的地标查询成功检索
- OCR 精炼对越南语处理至关重要,原始输出的变音符号错误严重影响下游检索质量
- Round 3(最复杂轮次)得分率 83.4%,系统在高难度任务上保持了鲁棒性
亮点与洞察¶
- 地标到视觉描述的重新表述是本文最核心的创新,将语义鸿沟问题转化为文本改写问题
- 全自动图像检索管道消除了用户需要手动找参考图像的痛点
- 模块化多 Agent 设计使各组件可独立升级,工程可扩展性优秀
局限与展望¶
- 地标知识库目前为手动策划,覆盖范围受限于越南已知地标
- 依赖 Google Custom Search API 获取参考图像,存在 API 费用和调用限制
- 评估仅在 HCMAIC 2025 挑战赛数据集上进行,泛化到其他文化场景未验证
- 系统延迟和吞吐量指标未报告
相关工作与启发¶
| 方面 | MAVEN(前代系统) | LLandMark |
|---|---|---|
| 规划能力 | 有限的 Agent 规划 | 查询解析 + 加权搜索计划 |
| 地标处理 | 无专门机制 | 知识增强 + 视觉重述 |
| OCR 精度 | DeepSolo+PARSeq | PaddleOCR + Gemini 后校正 |
| 图像检索 | 需手动图像输入 | 全自动 LLM 辅助管道 |
vs 通用 CLIP 检索系统:CLIP 在文化特定场景中存在训练数据偏差,LLandMark 通过知识增强层弥补了这一缺陷。
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 地标感知增强 + LLM 辅助图像检索管道是新颖且实用的组合 |
| 技术深度 | ⭐⭐⭐ | 各技术组件成熟,创新在系统集成层面 |
| 实验完整度 | ⭐⭐⭐ | 仅有挑战赛排名和定性对比,缺乏系统性消融实验 |
| 实用价值 | ⭐⭐⭐⭐ | 旅游导览、文化遗产检索等场景有明确应用前景 |