摘要
arXiv:2504.12320v1 类别:交叉学科
摘要:在2023年初ChatGPT广泛采用之后,许多研究报道大型语言模型(LLMs)能在创造性任务中达到甚至超越人类的表现。然而,尚未明确LLMs在创造性方面是否随着时间变得更加出色,以及它们的创造性产出是否一致。在此研究中,我们评估了14种广泛使用的LLMs——包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek——在两种验证过的创造性评估任务:发散联想任务(DAT)和替代用途任务(AUT)中。与其预期相反,我们没有发现过去18至24个月内创造性表现有所提升的证据,且GPT-4的表现低于之前的研究。对于更为广泛使用的AUT任务,所有模型平均而言都优于人类平均水平,GPT-4o和o3-mini表现最佳。然而,只有0.28%的LLM生成的回答达到了人类创造性基准的前10%。除了模型间的差异,我们记录了显著的模型内变异:同一LLM在给定相同提示的情况下,可以生成从低于平均水平到有原创性的多种输出。这种变异对创造性研究和实际应用都有重要的影响。忽略这种变异可能会错误地评估LLMs的创造性潜力,要么高估,要么低估它们的能力。提示的选择以不同的方式影响了LLMs。我们的研究强调了在使用生成性人工智能(GenAI)工具进行创造性任务时需要更精细的评估框架,并突显了模型选择、提示设计和多次评估的重要性。