摘要
arXiv:2504.15784v1 跨领域公告类型:
摘要:创造性的写作是大型语言模型(LLMs)的关键能力,具有在文学、讲故事以及各种创意领域中的潜在应用。然而,评估机器生成文本的创意性仍然是一个重大挑战,因为现有的方法要么依赖于昂贵的手动注释,要么无法与人类评估紧密对齐。在本文中,我们提出了基于托兰斯写作创意测试(TTCW)的有效自动化评估方法,该测试评估创造性作为产品。该方法采用参考文本为基础的李克特量表方法,在各种测试中对生成的创造性文本与高质量参考文本进行评分。实验结果表明,我们的方法显著改善了LLM评估与人类评估之间的对齐,准确率达到0.75(+15%)。