LLM2D
基于MLLM的交互式原型生成的交互性网页代码生成基准测试
Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping
作者: Jingyu Xiao, Yuxuan Wan, Yintong Huo, Zixin Wang, Xinyi Xu, Wenxuan Wang, Zhiyao Xu, Yuhang Wang, Michael R. Lyu
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2411.03292v2

摘要

arXiv:2411.03292v2 宣告类型: replace-cross 摘要:多模态大型语言模型(MLLMs)在设计到代码任务中表现出色,即从UI原型生成UI代码。然而,现有的基准仅包含静态网页,忽略了动态交互,限制了生成网页的实用性和可用性以及用户的参与度。 为弥补这些差距,我们进行了首个系统研究,探讨MLLMs在生成交互式网页方面的应用。具体来说,我们提出了交互到代码任务,并建立了Interaction2Code基准,包括127个独特的网页和涵盖15种网页类型及31类交互的374种不同的交互。通过使用最先进的(SOTA)MLLM进行全面实验,并通过自动指标和人工评估进行评估,我们识别出MLLM在交互到代码任务中的四个关键限制:(1)与完整页面相比,交互生成不足;(2)容易出现十种类型的失败;(3)对视觉上微妙的交互表现不佳;(4)在仅限单模态视觉描述的情况下对交互的理解不足。为解决这些限制,我们提出了四种增强策略:交互元素突出显示、失败感知提示(FAP)、视觉显著性增强以及视觉描述与文本描述的结合,所有策略均旨在改善MLLMs在交互到代码任务中的表现。Interaction2Code基准及代码可在 https://github.com/WebPAI/Interaction2Code 获取。