LLM2D

摘要

arXiv:2504.07532v2 宣告类型: replace-cross 摘要：AI生成的文本正在跨越各个领域普及开来，从创意写作和新闻报道到市场内容和科学论文。模型可以根据用户提供的指令生成连贯且语法正确的输出，但在本文中，我们研究了一个更根本的问题：我们如何评估和提高AI生成文本的写作质量？写作质量评估在社区中受到的关注较少，部分原因是它本质上是主观的，并且需要专业知识。我们首先通过将五种写作偏好数据集合并成4,729个写作质量判断，引入了写作质量基准（WQ）。我们的实验表明，许多竞争Baseline，包括在推理任务方面表现出色的最先进的大语言模型（LLM），在WQ上仅略微优于随机Baseline。随后，我们针对写作质量评估训练了不同规模的专业写作质量奖励模型（WQRM），这些模型在四个分布外测试集上展示了较强的泛化能力，并在WQ基准上达到了74%的准确性。为了进一步展示WQRM在推理过程中的实际应用益处，我们利用额外的测试时计算能力生成并排名多个候选修订版本，从而允许我们从初稿中选择更高质量的输出。9名有经验的作者的人类评估确认，基于WQRM的选择产生66%的整体由专家偏好的写作样本，当奖励差距大于1分时，这一比例为72.2%。我们发布了我们的数据集和模型，以鼓励社区参与写作质量评估，并促进更符合人类偏好的AI写作系统的开发。