LLM2D

摘要

arXiv:2411.03292v2 宣告类型: replace-cross 摘要：多模态大型语言模型（MLLMs）在设计到代码任务中表现出色，即从UI原型生成UI代码。然而，现有的基准仅包含静态网页，忽略了动态交互，限制了生成网页的实用性和可用性以及用户的参与度。为弥补这些差距，我们进行了首个系统研究，探讨MLLMs在生成交互式网页方面的应用。具体来说，我们提出了交互到代码任务，并建立了Interaction2Code基准，包括127个独特的网页和涵盖15种网页类型及31类交互的374种不同的交互。通过使用最先进的（SOTA）MLLM进行全面实验，并通过自动指标和人工评估进行评估，我们识别出MLLM在交互到代码任务中的四个关键限制：（1）与完整页面相比，交互生成不足；（2）容易出现十种类型的失败；（3）对视觉上微妙的交互表现不佳；（4）在仅限单模态视觉描述的情况下对交互的理解不足。为解决这些限制，我们提出了四种增强策略：交互元素突出显示、失败感知提示（FAP）、视觉显著性增强以及视觉描述与文本描述的结合，所有策略均旨在改善MLLMs在交互到代码任务中的表现。Interaction2Code基准及代码可在 https://github.com/WebPAI/Interaction2Code 获取。