LLM2D

摘要

arXiv:2504.15784v1 跨领域公告类型：摘要：创造性的写作是大型语言模型（LLMs）的关键能力，具有在文学、讲故事以及各种创意领域中的潜在应用。然而，评估机器生成文本的创意性仍然是一个重大挑战，因为现有的方法要么依赖于昂贵的手动注释，要么无法与人类评估紧密对齐。在本文中，我们提出了基于托兰斯写作创意测试（TTCW）的有效自动化评估方法，该测试评估创造性作为产品。该方法采用参考文本为基础的李克特量表方法，在各种测试中对生成的创造性文本与高质量参考文本进行评分。实验结果表明，我们的方法显著改善了LLM评估与人类评估之间的对齐，准确率达到0.75（+15%）。