LLM2D
大型语言模型的自动化 creativity 评估:一种参考导向的方法
Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach
作者: Ruizhe Li, Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15784v1

摘要

arXiv:2504.15784v1 跨领域公告类型: 摘要:创造性的写作是大型语言模型(LLMs)的关键能力,具有在文学、讲故事以及各种创意领域中的潜在应用。然而,评估机器生成文本的创意性仍然是一个重大挑战,因为现有的方法要么依赖于昂贵的手动注释,要么无法与人类评估紧密对齐。在本文中,我们提出了基于托兰斯写作创意测试(TTCW)的有效自动化评估方法,该测试评估创造性作为产品。该方法采用参考文本为基础的李克特量表方法,在各种测试中对生成的创造性文本与高质量参考文本进行评分。实验结果表明,我们的方法显著改善了LLM评估与人类评估之间的对齐,准确率达到0.75(+15%)。