ACL 2025 多模态视觉辅助视障用户 MLLM评估盲文识别文化敏感性多模态VLM 视频理解

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users¶

会议: ACL 2025
arXiv: 2503.22610
代码: https://github.com/MalvinaNikandrou/visual-assistant-eval
作者: Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders Søgaard
机构: University of Copenhagen, Heriot-Watt University
领域: 多模态大模型 / 无障碍辅助技术
关键词: 视觉辅助, 视障用户, MLLM评估, 盲文识别, 文化敏感性, 多语言VQA, 视频理解

一句话总结¶

通过用户调查确定视障人群对 AI 视觉助手的核心需求与挑战，设计涵盖图像描述、多语言VQA、光学盲文识别、视频物体识别、视频问答五大用户中心任务的评估框架，系统评测 12 个 MLLM，揭示当前模型在文化理解、多语言支持、盲文阅读、辅助设备识别和幻觉控制方面的显著不足。

研究背景与动机¶

领域现状：MLLM（如 GPT-4V、Qwen2-VL）已被集成到视障辅助服务（Be My Eyes、Aira等），但现有评估基准主要面向一般性视觉推理（VQA、MMLU等），缺少对无障碍应用场景的针对性评估。

核心挑战： - 视障用户拍摄的图片/视频质量差（模糊、取景不正、光线问题） - 用户无法自行验证模型输出的正确性，幻觉（hallucination）问题尤为致命 - 多语言和多文化需求未被现有评估覆盖 - 盲文识别和辅助设备识别等特殊需求几乎被忽略

研究动机：基于真实视障用户的调查反馈，设计以用户需求为中心的评估框架，全面揭示 MLLM 在辅助视障人群方面的能力边界。

方法详解¶

整体框架：用户驱动的五任务评估¶

本文分为两大部分：用户调查（理解需求）和系统评估（量化能力）。

用户调查设计¶

招募 106 名不同程度视力障碍的参与者（通过 Prolific 平台）
两阶段调查：开放式问题（使用场景、挑战经验）+ Likert 量表评分
关键发现：
- 87% 用户已使用或愿意使用 AI 视觉助手
- 最常见用途：描述、转录、翻译、识别（购物识别商品、理解化学/数学图表、选衣服、解读面部表情）
- 最大挑战（TF-IDF 分析）：不准确/幻觉、手写识别困难、多语言支持不足、空间理解弱

五大评估任务¶

任务1：图像描述（Image Captioning） - 数据集：VizWiz-Captions（500张）+ 文化扩展版（324张，60种文化） - 评估指标：RefCLIPScore - 考察维度：通用描述能力 vs 文化敏感描述能力

任务2：图像问答（Image QA） - 数据集：VizWiz VQA 验证集 + 自建多语言扩展（34种语言） - 翻译流程：自动翻译 + 人工质量检查 - 评估指标：VQA Accuracy

任务3：光学盲文识别（Optical Braille Recognition） - 全新任务，贡献两个新数据集： - 句子级盲文转文字：10万句训练 + NTREX-128/FLORES-200 评估 - 段落级跨脚本问答：SQuAD 改编（13万训练 + 1.19万评估） - 盲文文本渲染为图像，并施加质量增强（模拟视障用户拍照缺陷） - 评估指标：chrF++（转录）、F1/EM（问答）

任务4：视频物体识别 - 数据集：ORBIT（1036个视频片段，92类物体，含辅助设备类别） - 区分通用物体和辅助物体（如盲文显示器、拐杖） - 评估指标：LAVE 协议（LLM-as-Judge，1-3分）

任务5：视频问答 - 自建数据集：98个视频、882个问答对 - 三类问题：描述性（属性）、空间理解（位置关系）、对抗性（不存在物体） - 对抗性问题测试模型是否会幻觉回答 - 评估指标：LAVE 协议

评估模型¶

12 个主流 MLLM，包括 Qwen2-VL、InternVL2.5、LLaVA-v1.6、MiniCPM-V-2.6、PaliGemma、Phi-3.5-Vision 等。

实验关键数据¶

图像描述¶

模型	原始VizWiz	文化扩展版
PaliGemma	81.0	55.0
MiniCPM-V-2.6	78.0	74.8
Qwen2-VL	75.9	76.9
LLaVA-v1.6	72.3	52.2

5/9 模型在文化场景下性能大幅下降（20-25分）
即使最好的模型，也有约 1/3 描述遗漏文化关键细节

图像问答¶

模型	英文	多语言
PaliGemma	75.6	16.9
MiniCPM-V-2.6	72.2	30.7
Qwen2-VL	61.9	44.9

在预训练中包含 VizWiz 数据的模型（PaliGemma、MiniCPM）英文表现最好，但多语言降幅最大
Qwen2-VL 多语言表现最稳定（35.4-49.0 跨语言波动小）
高/中/低资源语言间差异不大，说明即使高资源语言也缺乏可靠支持

盲文识别¶

模型	chrF++（零样本）
Qwen2-VL	73.8
Phi-3-Vision	9.9
其他所有模型	< 9.1

只有 Qwen2-VL 展现出非平凡的盲文理解能力，其他模型几乎完全无法识别盲文
LoRA 微调 Llama-3.2-Vision 后可达 88.2 chrF++，证明学习盲文阅读是可行的，3万样本即可饱和

视频物体识别¶

模型	通用物体	辅助设备
Qwen2-VL	69.8%	39.7%
MiniCPM-V-2.6	65.1%	44.2%
LLaVA-Video	65.7%	41.3%

辅助设备识别率（20-44%）远低于通用物体（52-70%），差距明显

视频问答¶

模型	描述性	空间	对抗性	平均
LLaVA-Video	78.2	63.4	7.7	49.8
MiniCPM-V-2.6	68.7	63.3	17.7	49.9
VideoChat-Flash	72.4	64.1	9.2	48.6

对抗性问题（不存在物体的问题）准确率极低（7-18%），模型倾向于编造回答而非承认不确定性
即使明确提示可以回答"不确定"，改善也有限

亮点与洞察¶

用户驱动的评估设计：从 106 名视障用户的真实需求出发设计评估，确保了任务的实际意义
首创盲文识别基准：提出句子级和段落级两个盲文识别任务及数据集，填补了 MLLM 评估的重大空白
"幻觉是最大敌人"：对于无法自行验证输出的视障用户，模型的幻觉问题比一般用户场景更加危险
文化盲区暴露：即使最好的模型也有 1/3 描述缺少文化细节——这对需要理解多文化环境的视障旅行者是真实障碍
盲文识别的可行性：虽然现有模型几乎都不能读盲文，但微调实验证明只需中等规模数据（3万条）即可学会，为下一代模型提供了明确方向

局限性¶

缺少导航辅助任务：导航是视障用户的核心需求，但本文未涉及
受控环境评估：未完全捕捉动态真实场景的复杂性（如实时响应、移动中的视频理解）
模型覆盖：仅评测 12 个，未包含 GPT-4V/4o 等闭源领先模型
多语言翻译质量：使用自动翻译 + 人工检查，低资源语言翻译质量可能不足
缺少用户交互评估：评估基于离线基准，未评估多轮对话/交互引导场景

评分¶

⭐⭐⭐⭐ (4/5)

创新性：⭐⭐⭐⭐ 盲文识别任务全新，用户调查驱动评估设计有说服力
实验充分性：⭐⭐⭐⭐⭐ 五大任务覆盖全面，12 模型横向对比
写作质量：⭐⭐⭐⭐ 结构清晰，从需求到评估逻辑通顺
实用性：⭐⭐⭐⭐⭐ 直接指导下一代视觉辅助技术的开发方向