摘要
本文研究了大型语言模型 (LLM) 在评估另类用途测试 (AUT) 响应中的创造力方面是否一致。虽然 LLM 越来越多地用于评估创意内容,但之前的研究主要集中于单个模型评估相同模型或人类生成的响应。本文探讨了 LLM 是否能够公平且准确地评估自身和其他模型生成的输出的创造力。使用由创造力水平(常见、创造性和高度创造性)分类的 AUT 响应预言基准集,我们使用四个最先进的 LLM 来评估这些输出。我们测试了评分和排序方法,并采用了两种评估设置(综合和分段)来检查 LLM 是否在另类用途的创造力评估上达成一致。结果显示模型间高度一致,模型间的斯皮尔曼相关系数平均高于 0.7,相对于预言模型的相关系数超过 0.77,这表明 LLM 在另类用途创造力评估方面具有高度一致性和可靠性。值得注意的是,模型并不偏袒自身的响应,而是对其他模型生成的另类用途提供相似的创造力评估分数或排名。这些发现表明,LLM 在创造力评估中表现出公正性和高度一致性,为其在自动化创造力评估中的应用提供了令人鼓舞的意义。