LLM2D
评估人类和大型语言模型在创作短篇故事方面的生成能力
Evaluating Creative Short Story Generation in Humans and Large Language Models
作者: Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2411.02316v5

摘要

arXiv:2411.02316v5 通告类型: replace-cross 摘要:故事情节创作是人类想象力的基本方面,依赖于创造力来生成新颖、有效且令人惊讶的故事。虽然大型语言模型(LLMs)已经展现了生成高质量故事的能力,但它们的创造性故事创作能力仍然没有得到充分探索。在本文中,我们使用一个基于五句提示词的创造性故事创作任务,对60个LLMs和60个人进行系统分析,评估短篇故事生成的创造力。我们使用指标来自动评估模型生成和人类生成的故事在新颖性、惊奇感、多样性和语言复杂性等多个维度上的表现。我们还从非专家和专家人类评审员以及LLMs那里收集了创造力评估和图灵测试分类。自动指标显示,LLMs生成了风格复杂的故事,但在新颖性、惊奇感和多样性方面,通常不及平均水平的人类作家。专家评分通常与自动指标相符。然而,LLMs和非专家评审员认为LLMs的故事更具创造性,而专家评审员认为人类生成的故事更具创造性。我们讨论了这些评分差异的原因及其对人类和人工智能创造力的影响。