LLM2D

摘要

arXiv:2504.07532v1 类型: cross 摘要：AI生成的文本正在各个领域泛滥，从创意写作和新闻报道到市场营销内容和科学文章。模型可以遵循用户提供的指令生成连贯且语法正确的输出，但在本文中，我们研究了一个更基本的问题：我们如何评估和提高AI生成文本的写作质量？写作质量评估在社区中得到了较少的关注，部分原因是它本质上是主观的，需要专业知识。我们首先通过合并五个写作偏好数据集，形成4,729份写作质量判断，引入了写作质量基准(WQ)。我们的实验表明，包括在推理任务上表现出色的最新一代语言模型在内的竞争基线仅略微优于随机基线的WQ。然后，我们训练了不同规模的专门用于写作质量评估的写作质量奖励模型(WQRM)，这些模型在四个离分布测试集上展示了强大的泛化能力，并在WQ基准上的准确率为74%。为了进一步展示WQRM在推断过程中的实际益处，我们利用额外的测试时计算能力生成并排名多个候选修订版本，从而可以从初稿中选择更高质量的输出。9名经验丰富的写作者的人类评估证实，基于WQRM的选择产生了总体上66%由专家偏好的写作样本，当奖励差距超过1分时，这一比例为72.2%。我们发布了我们的数据集和模型，以鼓励社区参与写作质量评估，并开发更好地与人类偏好相一致的AI写作系统。