LLM2D

摘要

arXiv:2504.00938v1 宣布类型: 新摘要: 早期工程设计的主观评估，如概念草图，传统上依赖于人类专家。然而，专家评估耗时、昂贵且有时不一致。近期视觉-语言模型（VLMs）的进展提供了自动化设计评估的可能性，但至关重要的是要确保这些AI“裁判”能够与人类专家相媲美。然而，目前没有现成的框架评估专家等效性。本文介绍了一种严谨的统计框架，用于确定AI裁判的评分是否与人类专家的评分相符。我们在一个案例研究中应用了这一框架，评估了四种基于VLM的裁判在关键设计指标（独特性、创造力、实用性和绘图质量）上的表现。这些AI裁判采用了各种上下文相关学习（ICL）技术，包括单模态与多模态提示以及推理时的推理。同样的统计框架也被用于评估三位训练有素的新手的专家等效性。结果表明，使用基于文本和图像的ICL并进行推理的顶级AI裁判在独特性和绘图质量上的评分达到了专家级别的一致性，并在所有指标上优于或与训练有素的新手持平。在6/6次对独特性和创造力的测试中，以及5/6次对绘图质量和实用性的测试中，它的评分与专家的符合度与大多数训练有素的新手相当或更高。这些发现表明，支持推理的VLM模型可以在设计评估中达到人类专家的水平。这在教育和实践中的设计评估扩展方面具有重要意义，并为其他需要主观内容评估的领域提供了一般统计框架以验证AI裁判。