Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users¶
会议: ACL 2025
arXiv: 2503.22610
代码: https://github.com/MalvinaNikandrou/visual-assistant-eval
作者: Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders Søgaard
机构: University of Copenhagen, Heriot-Watt University
领域: 多模态大模型 / 无障碍辅助技术
关键词: 视觉辅助, 视障用户, MLLM评估, 盲文识别, 文化敏感性, 多语言VQA, 视频理解
一句话总结¶
通过用户调查确定视障人群对 AI 视觉助手的核心需求与挑战,设计涵盖图像描述、多语言VQA、光学盲文识别、视频物体识别、视频问答五大用户中心任务的评估框架,系统评测 12 个 MLLM,揭示当前模型在文化理解、多语言支持、盲文阅读、辅助设备识别和幻觉控制方面的显著不足。
研究背景与动机¶
领域现状:MLLM(如 GPT-4V、Qwen2-VL)已被集成到视障辅助服务(Be My Eyes、Aira等),但现有评估基准主要面向一般性视觉推理(VQA、MMLU等),缺少对无障碍应用场景的针对性评估。
核心挑战: - 视障用户拍摄的图片/视频质量差(模糊、取景不正、光线问题) - 用户无法自行验证模型输出的正确性,幻觉(hallucination)问题尤为致命 - 多语言和多文化需求未被现有评估覆盖 - 盲文识别和辅助设备识别等特殊需求几乎被忽略
研究动机:基于真实视障用户的调查反馈,设计以用户需求为中心的评估框架,全面揭示 MLLM 在辅助视障人群方面的能力边界。
方法详解¶
整体框架:用户驱动的五任务评估¶
本文分为两大部分:用户调查(理解需求)和系统评估(量化能力)。
用户调查设计¶
- 招募 106 名不同程度视力障碍的参与者(通过 Prolific 平台)
- 两阶段调查:开放式问题(使用场景、挑战经验)+ Likert 量表评分
- 关键发现:
- 87% 用户已使用或愿意使用 AI 视觉助手
- 最常见用途:描述、转录、翻译、识别(购物识别商品、理解化学/数学图表、选衣服、解读面部表情)
- 最大挑战(TF-IDF 分析):不准确/幻觉、手写识别困难、多语言支持不足、空间理解弱
五大评估任务¶
任务1:图像描述(Image Captioning) - 数据集:VizWiz-Captions(500张)+ 文化扩展版(324张,60种文化) - 评估指标:RefCLIPScore - 考察维度:通用描述能力 vs 文化敏感描述能力
任务2:图像问答(Image QA) - 数据集:VizWiz VQA 验证集 + 自建多语言扩展(34种语言) - 翻译流程:自动翻译 + 人工质量检查 - 评估指标:VQA Accuracy
任务3:光学盲文识别(Optical Braille Recognition) - 全新任务,贡献两个新数据集: - 句子级盲文转文字:10万句训练 + NTREX-128/FLORES-200 评估 - 段落级跨脚本问答:SQuAD 改编(13万训练 + 1.19万评估) - 盲文文本渲染为图像,并施加质量增强(模拟视障用户拍照缺陷) - 评估指标:chrF++(转录)、F1/EM(问答)
任务4:视频物体识别 - 数据集:ORBIT(1036个视频片段,92类物体,含辅助设备类别) - 区分通用物体和辅助物体(如盲文显示器、拐杖) - 评估指标:LAVE 协议(LLM-as-Judge,1-3分)
任务5:视频问答 - 自建数据集:98个视频、882个问答对 - 三类问题:描述性(属性)、空间理解(位置关系)、对抗性(不存在物体) - 对抗性问题测试模型是否会幻觉回答 - 评估指标:LAVE 协议
评估模型¶
12 个主流 MLLM,包括 Qwen2-VL、InternVL2.5、LLaVA-v1.6、MiniCPM-V-2.6、PaliGemma、Phi-3.5-Vision 等。
实验关键数据¶
图像描述¶
| 模型 | 原始VizWiz | 文化扩展版 |
|---|---|---|
| PaliGemma | 81.0 | 55.0 |
| MiniCPM-V-2.6 | 78.0 | 74.8 |
| Qwen2-VL | 75.9 | 76.9 |
| LLaVA-v1.6 | 72.3 | 52.2 |
- 5/9 模型在文化场景下性能大幅下降(20-25分)
- 即使最好的模型,也有约 1/3 描述遗漏文化关键细节
图像问答¶
| 模型 | 英文 | 多语言 |
|---|---|---|
| PaliGemma | 75.6 | 16.9 |
| MiniCPM-V-2.6 | 72.2 | 30.7 |
| Qwen2-VL | 61.9 | 44.9 |
- 在预训练中包含 VizWiz 数据的模型(PaliGemma、MiniCPM)英文表现最好,但多语言降幅最大
- Qwen2-VL 多语言表现最稳定(35.4-49.0 跨语言波动小)
- 高/中/低资源语言间差异不大,说明即使高资源语言也缺乏可靠支持
盲文识别¶
| 模型 | chrF++(零样本) |
|---|---|
| Qwen2-VL | 73.8 |
| Phi-3-Vision | 9.9 |
| 其他所有模型 | < 9.1 |
- 只有 Qwen2-VL 展现出非平凡的盲文理解能力,其他模型几乎完全无法识别盲文
- LoRA 微调 Llama-3.2-Vision 后可达 88.2 chrF++,证明学习盲文阅读是可行的,3万样本即可饱和
视频物体识别¶
| 模型 | 通用物体 | 辅助设备 |
|---|---|---|
| Qwen2-VL | 69.8% | 39.7% |
| MiniCPM-V-2.6 | 65.1% | 44.2% |
| LLaVA-Video | 65.7% | 41.3% |
- 辅助设备识别率(20-44%)远低于通用物体(52-70%),差距明显
视频问答¶
| 模型 | 描述性 | 空间 | 对抗性 | 平均 |
|---|---|---|---|---|
| LLaVA-Video | 78.2 | 63.4 | 7.7 | 49.8 |
| MiniCPM-V-2.6 | 68.7 | 63.3 | 17.7 | 49.9 |
| VideoChat-Flash | 72.4 | 64.1 | 9.2 | 48.6 |
- 对抗性问题(不存在物体的问题)准确率极低(7-18%),模型倾向于编造回答而非承认不确定性
- 即使明确提示可以回答"不确定",改善也有限
亮点与洞察¶
- 用户驱动的评估设计:从 106 名视障用户的真实需求出发设计评估,确保了任务的实际意义
- 首创盲文识别基准:提出句子级和段落级两个盲文识别任务及数据集,填补了 MLLM 评估的重大空白
- "幻觉是最大敌人":对于无法自行验证输出的视障用户,模型的幻觉问题比一般用户场景更加危险
- 文化盲区暴露:即使最好的模型也有 1/3 描述缺少文化细节——这对需要理解多文化环境的视障旅行者是真实障碍
- 盲文识别的可行性:虽然现有模型几乎都不能读盲文,但微调实验证明只需中等规模数据(3万条)即可学会,为下一代模型提供了明确方向
局限性¶
- 缺少导航辅助任务:导航是视障用户的核心需求,但本文未涉及
- 受控环境评估:未完全捕捉动态真实场景的复杂性(如实时响应、移动中的视频理解)
- 模型覆盖:仅评测 12 个,未包含 GPT-4V/4o 等闭源领先模型
- 多语言翻译质量:使用自动翻译 + 人工检查,低资源语言翻译质量可能不足
- 缺少用户交互评估:评估基于离线基准,未评估多轮对话/交互引导场景
相关工作¶
- MLLM 评估基准:MMLU、MME、VQAv2 等面向通用能力,Lee et al. 2024 的全面评估发现无模型全领域领先
- 视障辅助应用:VizWiz 系列(Gurari et al. 2018/2020)、ORBIT 数据集(Massiceti et al. 2021)
- 文化敏感评估:Karamolegkou et al. 2024 发现 VizWiz 中存在被忽视的文化含义
评分¶
⭐⭐⭐⭐ (4/5)
- 创新性:⭐⭐⭐⭐ 盲文识别任务全新,用户调查驱动评估设计有说服力
- 实验充分性:⭐⭐⭐⭐⭐ 五大任务覆盖全面,12 模型横向对比
- 写作质量:⭐⭐⭐⭐ 结构清晰,从需求到评估逻辑通顺
- 实用性:⭐⭐⭐⭐⭐ 直接指导下一代视觉辅助技术的开发方向