LLM2D

摘要

近年来，大型多模态模型的进步在图像理解能力方面取得了重大进展。尽管取得了这些进步，但缺乏专门用于评估这些大型模型的图像到网页转换能力的稳健基准。首先，必须确保生成的网页元素的完整性。这些元素包括可见和不可见类别。以前的评估方法（例如，BLEU）由于网页中存在不可见元素，因此容易受到重大更改的影响。此外，重要的是要衡量网页的布局信息，即元素之间的位置关系，而以前的工作忽略了这一点。为了应对这些挑战，我们策划并对齐了一个图像和相应网页代码的基准（IW-Bench）。具体来说，我们提出了元素准确性，通过解析文档对象模型 (DOM) 树来测试元素的完整性。还提出了布局准确性，通过将 DOM 树转换为公共子序列来分析元素的位置关系。此外，我们设计了一种五跳多模态思维链提示，以获得更好的性能，它包含五个跳跃：1）SoM 提示注入。2）推断元素。3）推断布局。4）推断网页代码。5）反思。我们的基准包含 1200 对图像和网页代码，难度等级不同。我们对现有大型多模态模型进行了广泛的实验，提供了对其在图像到网页领域的表现和改进空间的见解。