LLM2D

摘要

arXiv:2406.16386v3 宣告类型: 替换-交叉摘要：网站在当今的数字世界中至关重要，目前有超过11亿个活跃网站，每天大约有252,000个新的网站上线。将网站布局设计转化为功能性的UI代码是网站开发中一个耗时但不可或缺的步骤。将视觉设计手动转化为功能代码对非专家来说是一个巨大的挑战。为了探索自动设计到代码的解决方案，我们首先对GPT-4o进行了一项激励性研究，并识别出在生成UI代码时存在的三种类型的问题：元素遗漏、元素变形和元素错位。我们进一步发现，关注较小的视觉片段可以帮助多模态大语言模型（MLLMs）在生成过程中减轻这些失败。在这篇论文中，我们提出DCGen，一种将网页设计自动化转换为UI代码的分而治之的方法。DCGen首先将截屏分割成可管理的片段，为每个片段生成代码，然后将它们重新组装成整个截屏的完整UI代码。我们使用包含真实网站和各种MLLMs的数据集进行了广泛的测试，并证明DCGen在大尺寸输入图像的情况下，视觉相似性和代码相似性分别提高了15%和8%。人工评估表明，DCGen可以帮助开发人员以更快的速度并且更接近UI设计实现网页。据我们所知，DCGen是第一个基于分割感知的大语言模型直接从截屏生成UI代码的方法。