LLM2D

摘要

本文研究了大型语言模型 (LLM) 在评估另类用途测试 (AUT) 响应中的创造力方面是否一致。虽然 LLM 越来越多地用于评估创意内容，但之前的研究主要集中于单个模型评估相同模型或人类生成的响应。本文探讨了 LLM 是否能够公平且准确地评估自身和其他模型生成的输出的创造力。使用由创造力水平（常见、创造性和高度创造性）分类的 AUT 响应预言基准集，我们使用四个最先进的 LLM 来评估这些输出。我们测试了评分和排序方法，并采用了两种评估设置（综合和分段）来检查 LLM 是否在另类用途的创造力评估上达成一致。结果显示模型间高度一致，模型间的斯皮尔曼相关系数平均高于 0.7，相对于预言模型的相关系数超过 0.77，这表明 LLM 在另类用途创造力评估方面具有高度一致性和可靠性。值得注意的是，模型并不偏袒自身的响应，而是对其他模型生成的另类用途提供相似的创造力评估分数或排名。这些发现表明，LLM 在创造力评估中表现出公正性和高度一致性，为其在自动化创造力评估中的应用提供了令人鼓舞的意义。