LLM2D

摘要

arXiv:2504.12320v1 类别：交叉学科摘要：在2023年初ChatGPT广泛采用之后，许多研究报道大型语言模型（LLMs）能在创造性任务中达到甚至超越人类的表现。然而，尚未明确LLMs在创造性方面是否随着时间变得更加出色，以及它们的创造性产出是否一致。在此研究中，我们评估了14种广泛使用的LLMs——包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek——在两种验证过的创造性评估任务：发散联想任务（DAT）和替代用途任务（AUT）中。与其预期相反，我们没有发现过去18至24个月内创造性表现有所提升的证据，且GPT-4的表现低于之前的研究。对于更为广泛使用的AUT任务，所有模型平均而言都优于人类平均水平，GPT-4o和o3-mini表现最佳。然而，只有0.28%的LLM生成的回答达到了人类创造性基准的前10%。除了模型间的差异，我们记录了显著的模型内变异：同一LLM在给定相同提示的情况下，可以生成从低于平均水平到有原创性的多种输出。这种变异对创造性研究和实际应用都有重要的影响。忽略这种变异可能会错误地评估LLMs的创造性潜力，要么高估，要么低估它们的能力。提示的选择以不同的方式影响了LLMs。我们的研究强调了在使用生成性人工智能（GenAI）工具进行创造性任务时需要更精细的评估框架，并突显了模型选择、提示设计和多次评估的重要性。