LLM2D
设计中的AI法官:实现视觉-语言模型与人类专家等效性的统计视角
AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models
作者: Kristen M. Edwards, Farnaz Tehranchi, Scarlett R. Miller, Faez Ahmed
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00938v1

摘要

arXiv:2504.00938v1 宣布类型: 新 摘要: 早期工程设计的主观评估,如概念草图,传统上依赖于人类专家。然而,专家评估耗时、昂贵且有时不一致。近期视觉-语言模型(VLMs)的进展提供了自动化设计评估的可能性,但至关重要的是要确保这些AI“裁判”能够与人类专家相媲美。然而,目前没有现成的框架评估专家等效性。本文介绍了一种严谨的统计框架,用于确定AI裁判的评分是否与人类专家的评分相符。我们在一个案例研究中应用了这一框架,评估了四种基于VLM的裁判在关键设计指标(独特性、创造力、实用性和绘图质量)上的表现。这些AI裁判采用了各种上下文相关学习(ICL)技术,包括单模态与多模态提示以及推理时的推理。同样的统计框架也被用于评估三位训练有素的新手的专家等效性。结果表明,使用基于文本和图像的ICL并进行推理的顶级AI裁判在独特性和绘图质量上的评分达到了专家级别的一致性,并在所有指标上优于或与训练有素的新手持平。在6/6次对独特性和创造力的测试中,以及5/6次对绘图质量和实用性的测试中,它的评分与专家的符合度与大多数训练有素的新手相当或更高。这些发现表明,支持推理的VLM模型可以在设计评估中达到人类专家的水平。这在教育和实践中的设计评估扩展方面具有重要意义,并为其他需要主观内容评估的领域提供了一般统计框架以验证AI裁判。