ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos¶
会议: CVPR 2026
arXiv: 2603.14662
代码: https://vidscribe.org/
领域: 音频语音
关键词: 音频描述, 视频无障碍, 多模态大语言模型, 用户定制化, 视觉问答
一句话总结¶
ViDscribe 是一个基于 Web 的平台,利用多模态大语言模型(Gemini 3 Pro)为盲人和低视力(BLV)用户提供可定制的 AI 生成音频描述(AD)和交互式视觉问答(VQA)功能,支持任意 YouTube 视频,通过为期一周的纵向用户研究验证了定制化 AD 在有效性、享受度和沉浸感方面均优于默认 AD。
研究背景与动机¶
- 领域现状:音频描述是帮助 BLV 用户理解视频视觉内容的关键辅助技术。传统人工 AD 制作昂贵、耗时且需要专业知识,导致绝大多数在线视频缺乏描述。近年来 MLLM 的进步使自动 AD 生成成为可能。
- 现有痛点:现有 AI-AD 系统采用"一刀切"策略,不适应 BLV 用户的多样化需求和偏好;评估通常在受控的短期实验室环境中进行,缺乏纵向使用数据。
- 核心矛盾:BLV 用户的需求因视力程度、观看场景和内容类型而异,但现有系统无法动态调整描述策略。
- 本文目标:构建支持用户定制和交互式问答的 AI-AD 平台,并通过纵向研究验证其价值。
- 切入角度:提供六种定制选项(频率、长度、重点、主观性、颜色、自由文本)和实时 VQA 功能。
- 核心 idea:将 MLLM 的能力转化为可控参数,让 BLV 用户根据个人偏好调整 AD 生成策略。
方法详解¶
整体框架¶
ViDscribe 使用 React 前端 + AWS Lambda 后端,核心引擎为 Gemini 3 Pro MLLM。用户粘贴 YouTube URL,选择定制设置后系统自动生成同步 AD。AD 时机通过音频分析自动确定,描述内容由 MLLM 根据定制参数生成。界面兼容屏幕阅读器和键盘控制。
关键设计¶
-
六维定制控制:
- 功能:满足 BLV 用户的多样化需求
- 核心思路:(A) 频率——每 8/15/30 秒插入一次描述;(B) 长度——滑块控制 15-100 词/条;(C) 重点——通用/角色/环境/教学内容;(D) 主观性——客观事实描述 vs 主观解读;(E) 颜色——是否描述颜色属性;(F) 自由文本——用户自定义指令。所有设置转化为 prompt 参数条件化 AD 生成
- 设计动机:先前研究和 BLV 社区反馈表明,不同用户在不同场景下需要不同类型的描述
-
自适应 AD 生成:
- 功能:在合适的时间点生成符合用户偏好的描述
- 核心思路:分两步——(a) AD 时机模块:提取音频,分析静音、无语音片段和场景变化三种信号,选择信号重叠的自然停顿点插入描述,递归分割过长间隔;(b) 描述生成模块:使用 Gemini 3 Pro,提供视频、时间戳、用户定制设置和 42 条 AD 指南,生成个性化描述
- 设计动机:好的 AD 不仅要内容正确,还要在合适的时间点出现,不打断对话
-
交互式 VQA:
- 功能:允许用户在播放过程中随时提问获取额外视觉信息
- 核心思路:用户按快捷键暂停,通过打字或语音输入问题(如"谁刚进入房间?"),系统将问题、当前时间戳、视频 AD 和代表性帧发送给 Gemini 3 Pro 生成上下文感知回答,通过文本转语音播放
- 设计动机:被动描述无法覆盖所有信息,VQA 让用户能主动获取缺失细节
损失函数 / 训练策略¶
无需训练,完全基于 Gemini 3 Pro 的零样本推理能力。
实验关键数据¶
主实验(纵向用户研究)¶
| 指标 (5分制) | 默认AD | 定制AD | 提升 |
|---|---|---|---|
| 有效性 | 4.00 | 4.32 | +0.32 |
| 享受度 | 3.45 | 3.97 | +0.52 |
| 沉浸感 | 3.72 | 4.06 | +0.34 |
| VQA 帮助程度 | - | 3.46 | - |
| SUS 可用性 | - | 70.6 | >68 基准 |
定制 AD 在所有维度上优于默认 AD,享受度提升最大。
消融实验(定制偏好分析)¶
| 定制类型 | 最常选择 | 占比 |
|---|---|---|
| 频率 | 8秒(频繁) | 54.9% |
| 长度 | 26-50词(中等) | 49.0% |
| 重点 | 通用内容 | 52.9% |
| 主观性 | 客观描述 | 72.5% |
| 颜色 | 包含颜色 | 80.4% |
关键发现¶
- 63% 的视频使用了定制设置,说明 BLV 用户确实需要且愿意使用定制功能
- 随时间推移,用户偏好向更短、更低频的描述转变,反映了使用熟练后的偏好演化
- VQA 共收到 66 个问题,最常见的是询问角色身份和场景细节
- 6/8 参与者表示会向 BLV 朋友推荐 ViDscribe
- VQA 评分略低(3.46),部分因为当前实现仅使用当前帧及附近帧回答
亮点与洞察¶
- 纵向真实场景研究:首次在为期一周的真实使用场景中评估 AI-AD 定制和 VQA,而非短期实验室实验
- 定制偏好的时间演化:发现用户偏好随使用时间变化,这对自适应系统设计有指导意义
- 完整的可部署系统:不仅是方法论贡献,还是一个可实际使用的无障碍工具
局限与展望¶
- 样本量小(8人),未做统计显著性检验
- VQA 仅使用当前帧附近信息,无法回答需要全视频理解的问题
- 定制设置需要手动调整,未来可自动学习用户偏好
- 描述质量受 Gemini 3 Pro 的能力限制
- 未来可加入用户偏好记忆和跨会话学习
相关工作与启发¶
- vs YouDescribe: YouDescribe 依赖志愿者人工描述,无法扩展;ViDscribe 自动生成
- vs NarrationBot: NarrationBot 生成固定描述,无定制化
- vs DescribePro: DescribePro 辅助人工描述者,ViDscribe 完全自动化
评分¶
- 新颖性: ⭐⭐⭐ 系统集成为主,技术创新有限
- 实验充分度: ⭐⭐⭐ 纵向研究设计好但样本量小
- 写作质量: ⭐⭐⭐⭐ 用户研究描述详细
- 价值: ⭐⭐⭐⭐ 对无障碍社区有实际意义