跳转至

IWR-Bench: Can LVLMs Reconstruct Interactive Webpage from a User Interaction Video?

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=1zOp2WPMdZ
代码: 待开源(论文承诺公开 benchmark 与评测代码)
领域: 多模态 / 视觉-语言模型评测(Video-to-Code)
关键词: LVLM 评测, 网页重建, 视频理解, 交互式代码生成, Agent-as-a-Judge

一句话总结

提出 IWR-Bench——首个让大型视觉-语言模型(LVLM)从「用户交互视频 + 完整静态资源」重建出可交互网页的基准,用 agent-as-a-judge 协议同时考核功能正确性与视觉保真度,28 个模型的实验揭示最强模型也只有 36.35 分、功能分(IFS 24.39%)远落后于视觉分(VFS 64.25%)。

研究背景与动机

领域现状:把网页截图翻译成 HTML 代码(screenshot-to-code)已是 LVLM 的成熟能力,Design2Code、WebSight 等基准在静态重建上让模型表现得相当不错;少数工作(如 Interaction2Code)开始触碰交互,但只用「前后两张图」建模单步、无状态的事件。

现有痛点:真实网页应用的本质是连续、有状态的工作流——点开搜索结果、输入评论、点星打分、玩 2048 这类带游戏逻辑的页面。现有基准存在三重缺陷:(1) 只评静态布局,回避了时序动态;(2) 为简化任务故意删掉静态资源(图片、图标、视频),与真实开发情境脱节;(3) 评测靠像素相似度,根本无法衡量「点了按钮有没有正确响应」这类功能正确性。

核心矛盾:模型「能处理视频/多图」的输入能力,和「交互式网页生成」的基准之间存在断层——没人系统问过:LVLM 能否仅凭观看一段用户操作视频,就还原出网页的动态交互功能?

本文目标:把这个问题形式化为 Interactive Webpage Reconstruction(IWR)任务,并造一个覆盖多样交互、提供真实完整资源、评测协议能真正执行交互的基准。

核心 idea用「交互视频 + 全量原始资源」当输入,用「能在浏览器里真跑动作序列的 agent」当裁判——既逼模型从时序视觉证据里推断交互逻辑,又用程序化执行而非像素比对来判定功能对不对。

方法详解

整体框架

IWR-Bench 把一个任务拆成四件套:一段记录完整有状态操作流的交互视频 \(V=\{f_1,...,f_n\}\)、一组(文件名匿名化的)静态资源 \(A=\{a_1,...,a_m\}\)、一条结构化的动作轨迹 \(T=\{(a_i,p_i,d_i,v_i,l_i)\}\)、以及每个关键动作后的稳态检查点截图 \(S\)。模型要从 \(V\)\(A\) 生成一份自包含的 HTML(含 CSS/JS)\(C\);随后一个基于 browser-use 的确定性执行器扮演裁判,逐步重放轨迹 \(T\),用 IFS 量功能、VFS 量视觉,加权成最终分。

flowchart LR
    A[交互视频 V] --> M[LVLM]
    B[匿名静态资源 A] --> M
    M --> C[生成 HTML/CSS/JS]
    C --> E[Agent-as-a-Judge<br/>browser-use 执行器]
    T[Ground-truth 动作轨迹 T] --> E
    E --> IFS[功能分 IFS<br/>动作成功率]
    E --> VFS[视觉分 VFS<br/>检查点保真度]
    IFS --> F[Final = α·IFS + 1-α·VFS]
    VFS --> F

关键设计

1. 用「真实视频 + 完整资源 + 匿名文件名」逼出真推理而非套路。 113 个任务全部源自 100 个真实网站(从 200 候选经去重、按领域/视觉复杂度/交互逻辑三轴平衡,再交叉核验筛到 113),每个任务都配齐爬下来的图片、图标、嵌入视频等全量静态资源——这正是以往基准为省事而删掉的部分。关键的一招是把资源文件名全部匿名化logo.pngasset_001.png),切断模型靠语义文件名作弊的捷径,强迫它做真正的「视觉元素↔静态资源」匹配。同时三轴 taxonomy 把交互逻辑从 L1 静态展示、L2 简单状态、L3 复杂工作流到 L4 算法/游戏逻辑分层,使难度可解释。

2. Agent-as-a-Judge 的程序化执行协议,把「功能对不对」从像素比对里解放出来。 裁判不是看图打分,而是用 browser-use 在渲染出的页面上逐个真实执行 ground-truth 动作 \(a_i\)。一个动作被判失败有两种情形:操作上不可行(目标元素找不到),或它附带的逻辑断言 \(l_i\) 不满足(如「应出现『评分更新成功:9/10』」)。断言由 Gemini-2.5-Pro 作为 MLLM 裁判对比动作前后截图来判定。这种设计把评测隔离在「代码执行」层面、剥离了高层任务规划的干扰,保证可复现。动作成功后才抓新截图、才进入视觉评估,避免在过渡态上误判。

3. IFS / VFS 双指标 + 加权 Final,刻意让功能权重压过视觉。 功能分直接是成功动作占比 \(\text{IFS}=N_{succ}/N_{total}\)。视觉分只在「成功到达且需视觉评估(\(v_i=\text{true}\))」的检查点上算,每个检查点融合低层视觉分 \(S_{LVS}\)(OCR 的 Levenshtein 相似度 + DINO 余弦相似度的均值)与高层视觉分 \(S_{HVS}\)(MLLM 整体评估),权重 \(w=0.5\): $\(\text{VFS}=\frac{1}{|I_{v,succ}|}\sum_{i\in I_{v,succ}}\big(w\cdot S_{LVS,i}+(1-w)\cdot S_{HVS,i}\big)\)$ 最终分把两者按 \(\alpha=0.7\) 加权: $\(\text{Final Score}=\alpha\cdot\text{IFS}+(1-\alpha)\cdot\text{VFS}\)$ 作者特意给 IFS 大权重,让「到不了的状态」对总分的惩罚被恰当反映——因为执行不了的步骤根本没图算视觉分。\(w\)\(\alpha\) 都经过人类对齐研究确定。

实验关键数据

主实验表格(28 个 LVLM,节选代表)

模型 LVS HVS VFS IFS Final
GPT-5 68.29 60.21 64.25 24.39 36.35
Claude-Sonnet-4 (thinking) 64.90 55.51 60.20 23.65 34.62
Claude-Opus-4 (thinking) 63.53 53.80 58.67 23.61 34.13
Doubao-seed-1.6 65.95 55.62 60.79 22.55 34.02
Claude-Sonnet-4 65.75 56.92 61.34 22.29 34.00
GPT-4o (latest) 63.39 51.71 57.55 17.55 29.55
Qwen3-VL (thinking)(最强开源) 58.55 46.13 52.34 22.07 31.15
Qwen2.5-VL-72B 47.83 28.25 38.04 17.42 23.61
VideoLLaMA3-7B(视频专用) 31.29 11.86 21.58 10.29 13.67
InternVideo-2.5-Chat-8B(视频专用) 17.27 3.33 10.30 9.97 10.07
  • 明显的性能分层:闭源 MLLM > 顶尖开源(Qwen3-VL)> 中低端开源 > 视频专用模型。说明通用多模态推理 + 代码生成能力比专门的视频处理架构更关键
  • 最强模型 Final 仅 36.35,所有模型 IFS 都不超过 25——交互式网页重建基本是个未解问题

消融 / 验证(评测协议有效性)

验证项 设置 结论
权重 \(w,\alpha\) 人类对齐研究 \(w=0.5\)\(\alpha=0.7\) 最贴合人判;按成功步比例加权的替代方案区分度差
Agent 裁判可靠性 3 名博士生在 100 个生成页面上关闭 headless 人工核对 仅 3 例评测失败,均因元素描述歧义(同名按钮),修正定位符后解决
断言验证 Gemini-2.5-Pro 对比动作前后截图 自动核验逻辑断言准确性

关键发现

  • 功能是主要瓶颈,不是视觉:VFS 普遍远高于 IFS(GPT-5:64.25 vs 24.39)。模型能复刻静态布局,但合成事件驱动逻辑的能力严重欠缺。
  • 静态→交互断崖:从 L1 静态展示到 L2–L4 交互任务性能急剧下滑;高度结构化布局也让模型吃力。
  • 推理增强收益稳定但有限:thinking 变体普遍小幅提升(Claude-Sonnet-4:34.62 vs 34.00),但基座能力才决定性能天花板
  • 数据规模:113 视频、平均 35.4 秒、共 1001 个动作(620 需视觉评估、403 含断言)、平均每视频 8.9 个动作、10.62% 针对移动端。

亮点与洞察

  • 把「无状态单步」升级为「有状态全轨迹」:抓住了真实网页交互的本质——连续、带状态转移的工作流,而非孤立事件,这是相对 Interaction2Code 等前作最实质的进步。
  • 反作弊设计很到位:匿名化资源文件名这一细节,直接堵死了模型靠语义先验「猜」的捷径,使基准真正考验视觉-资源 grounding。
  • 可执行的评测协议:用 browser-use 真跑动作 + 逻辑断言,让「功能正确性」第一次成为可量化、可复现的指标,而非靠像素相似度的代理量。
  • 诊断价值清晰:VFS↔IFS 的巨大落差给社区指了明路——下一步不在视觉理解,而在时序推理、动态资源绑定、事件逻辑合成。

局限与展望

  • 规模偏小:113 个任务对一个 benchmark 而言数量有限,子维度(如 L4 游戏类仅 10.62%)样本更稀疏,统计结论的稳健性受限。
  • 重度依赖 Gemini-2.5-Pro 当裁判:逻辑断言和高层视觉分都由它判定,裁判模型本身的偏差/能力上限会传导到所有被测模型的分数上,存在「裁判即天花板」的隐忧。
  • 视频采样妥协:为兼容无原生视频能力的模型,视频按 1fps 采样、上限 64 帧,长视频被下采样,可能丢失关键的快速交互瞬间。
  • 未来方向:作者点名时序推理、动态资源绑定、鲁棒代码合成三条路;可进一步扩大规模、引入更细粒度的过程奖励或交互式 agent 范式来缩小 IFS 差距。

相关工作与启发

  • 静态网页重建:Pix2Code、WebSight、Design2Code、CC-HARD、ScreenCoder——都是 image-to-code,且大多删资源、合成数据。
  • 交互式前作:Interaction2Code 用图像对建模单步交互,但无状态、删资源,IWR-Bench 正是对它的关键补全。
  • 视频理解基准:MMBench-Video、MVBench、Video-MME、Video-MMMU——做 Video QA 而非代码生成,与本任务正交。
  • Agent-as-a-Judge / MLLM 裁判:借鉴 Zhuge et al. 2024 的 agent 裁判范式与 MLLM-as-judge 思路,把它落到「真实执行网页交互」的可验证场景。
  • 启发:对做「多模态 → 可执行产物」(代码、UI、动作)的工作,本文示范了如何把评测从相似度代理升级为程序化执行验证,这套思路可迁移到 GUI agent、自动化前端生成等任务。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个 video-to-interactive-code 基准,「全轨迹有状态 + 完整真实资源 + 匿名反作弊 + agent 真执行」的组合是实打实的空白填补。
  • 实验充分度: ⭐⭐⭐⭐ — 28 个跨闭源/开源/视频专用的模型横评,配人类对齐与裁判可靠性验证,分析维度全面;扣分在任务规模偏小、部分子类样本稀疏。
  • 写作质量: ⭐⭐⭐⭐ — 问题动机层层递进,任务定义/指标公式清晰,图表组织得当,易读。
  • 价值: ⭐⭐⭐⭐ — 精准定位了「视觉会、逻辑不会」这一当前 LVLM 的真实短板,为前端自动化与多模态代码生成提供了高区分度的硬骨头基准,社区价值高。