LLM2D
从屏幕截图自动生成UI代码:一种分而治之的方法
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach
作者: Yuxuan Wan, Chaozheng Wang, Yi Dong, Wenxuan Wang, Shuqing Li, Yintong Huo, Michael R. Lyu
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2406.16386v3

摘要

arXiv:2406.16386v3 宣告类型: 替换-交叉 摘要:网站在当今的数字世界中至关重要,目前有超过11亿个活跃网站,每天大约有252,000个新的网站上线。将网站布局设计转化为功能性的UI代码是网站开发中一个耗时但不可或缺的步骤。将视觉设计手动转化为功能代码对非专家来说是一个巨大的挑战。为了探索自动设计到代码的解决方案,我们首先对GPT-4o进行了一项激励性研究,并识别出在生成UI代码时存在的三种类型的问题:元素遗漏、元素变形和元素错位。我们进一步发现,关注较小的视觉片段可以帮助多模态大语言模型(MLLMs)在生成过程中减轻这些失败。 在这篇论文中,我们提出DCGen,一种将网页设计自动化转换为UI代码的分而治之的方法。DCGen首先将截屏分割成可管理的片段,为每个片段生成代码,然后将它们重新组装成整个截屏的完整UI代码。我们使用包含真实网站和各种MLLMs的数据集进行了广泛的测试,并证明DCGen在大尺寸输入图像的情况下,视觉相似性和代码相似性分别提高了15%和8%。人工评估表明,DCGen可以帮助开发人员以更快的速度并且更接近UI设计实现网页。据我们所知,DCGen是第一个基于分割感知的大语言模型直接从截屏生成UI代码的方法。