ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos¶

会议: CVPR 2026
arXiv: 2603.14662
代码: https://vidscribe.org/
领域: 音频语音
关键词: 音频描述, 视频无障碍, 多模态大语言模型, 用户定制化, 视觉问答

一句话总结¶

ViDscribe 是一个基于 Web 的平台，利用多模态大语言模型(Gemini 3 Pro)为盲人和低视力(BLV)用户提供可定制的 AI 生成音频描述(AD)和交互式视觉问答(VQA)功能，支持任意 YouTube 视频，通过为期一周的纵向用户研究验证了定制化 AD 在有效性、享受度和沉浸感方面均优于默认 AD。

研究背景与动机¶

领域现状：音频描述是帮助 BLV 用户理解视频视觉内容的关键辅助技术。传统人工 AD 制作昂贵、耗时且需要专业知识，导致绝大多数在线视频缺乏描述。近年来 MLLM 的进步使自动 AD 生成成为可能。
现有痛点：现有 AI-AD 系统采用"一刀切"策略，不适应 BLV 用户的多样化需求和偏好；评估通常在受控的短期实验室环境中进行，缺乏纵向使用数据。
核心矛盾：BLV 用户的需求因视力程度、观看场景和内容类型而异，但现有系统无法动态调整描述策略。
本文目标：构建支持用户定制和交互式问答的 AI-AD 平台，并通过纵向研究验证其价值。
切入角度：提供六种定制选项（频率、长度、重点、主观性、颜色、自由文本）和实时 VQA 功能。
核心 idea：将 MLLM 的能力转化为可控参数，让 BLV 用户根据个人偏好调整 AD 生成策略。

方法详解¶

整体框架¶

ViDscribe 使用 React 前端 + AWS Lambda 后端，核心引擎为 Gemini 3 Pro MLLM。用户粘贴 YouTube URL，选择定制设置后系统自动生成同步 AD。AD 时机通过音频分析自动确定，描述内容由 MLLM 根据定制参数生成。界面兼容屏幕阅读器和键盘控制。

关键设计¶

六维定制控制:
- 功能：满足 BLV 用户的多样化需求
- 核心思路：(A) 频率——每 8/15/30 秒插入一次描述；(B) 长度——滑块控制 15-100 词/条；(C) 重点——通用/角色/环境/教学内容；(D) 主观性——客观事实描述 vs 主观解读；(E) 颜色——是否描述颜色属性；(F) 自由文本——用户自定义指令。所有设置转化为 prompt 参数条件化 AD 生成
- 设计动机：先前研究和 BLV 社区反馈表明，不同用户在不同场景下需要不同类型的描述
自适应 AD 生成:
- 功能：在合适的时间点生成符合用户偏好的描述
- 核心思路：分两步——(a) AD 时机模块：提取音频，分析静音、无语音片段和场景变化三种信号，选择信号重叠的自然停顿点插入描述，递归分割过长间隔；(b) 描述生成模块：使用 Gemini 3 Pro，提供视频、时间戳、用户定制设置和 42 条 AD 指南，生成个性化描述
- 设计动机：好的 AD 不仅要内容正确，还要在合适的时间点出现，不打断对话
交互式 VQA:
- 功能：允许用户在播放过程中随时提问获取额外视觉信息
- 核心思路：用户按快捷键暂停，通过打字或语音输入问题（如"谁刚进入房间？"），系统将问题、当前时间戳、视频 AD 和代表性帧发送给 Gemini 3 Pro 生成上下文感知回答，通过文本转语音播放
- 设计动机：被动描述无法覆盖所有信息，VQA 让用户能主动获取缺失细节

损失函数 / 训练策略¶

无需训练，完全基于 Gemini 3 Pro 的零样本推理能力。

实验关键数据¶

主实验（纵向用户研究）¶

指标 (5分制)	默认AD	定制AD	提升
有效性	4.00	4.32	+0.32
享受度	3.45	3.97	+0.52
沉浸感	3.72	4.06	+0.34
VQA 帮助程度	-	3.46	-
SUS 可用性	-	70.6	>68 基准

定制 AD 在所有维度上优于默认 AD，享受度提升最大。

消融实验（定制偏好分析）¶

定制类型	最常选择	占比
频率	8秒(频繁)	54.9%
长度	26-50词(中等)	49.0%
重点	通用内容	52.9%
主观性	客观描述	72.5%
颜色	包含颜色	80.4%

关键发现¶

63% 的视频使用了定制设置，说明 BLV 用户确实需要且愿意使用定制功能
随时间推移，用户偏好向更短、更低频的描述转变，反映了使用熟练后的偏好演化
VQA 共收到 66 个问题，最常见的是询问角色身份和场景细节
6/8 参与者表示会向 BLV 朋友推荐 ViDscribe
VQA 评分略低(3.46)，部分因为当前实现仅使用当前帧及附近帧回答

亮点与洞察¶

纵向真实场景研究：首次在为期一周的真实使用场景中评估 AI-AD 定制和 VQA，而非短期实验室实验
定制偏好的时间演化：发现用户偏好随使用时间变化，这对自适应系统设计有指导意义
完整的可部署系统：不仅是方法论贡献，还是一个可实际使用的无障碍工具

局限与展望¶

样本量小(8人)，未做统计显著性检验
VQA 仅使用当前帧附近信息，无法回答需要全视频理解的问题
定制设置需要手动调整，未来可自动学习用户偏好
描述质量受 Gemini 3 Pro 的能力限制
未来可加入用户偏好记忆和跨会话学习

评分¶

新颖性: ⭐⭐⭐ 系统集成为主，技术创新有限
实验充分度: ⭐⭐⭐ 纵向研究设计好但样本量小
写作质量: ⭐⭐⭐⭐ 用户研究描述详细
价值: ⭐⭐⭐⭐ 对无障碍社区有实际意义