摘要
arXiv:2504.07532v2 宣告类型: replace-cross
摘要:AI生成的文本正在跨越各个领域普及开来,从创意写作和新闻报道到市场内容和科学论文。模型可以根据用户提供的指令生成连贯且语法正确的输出,但在本文中,我们研究了一个更根本的问题:我们如何评估和提高AI生成文本的写作质量?写作质量评估在社区中受到的关注较少,部分原因是它本质上是主观的,并且需要专业知识。我们首先通过将五种写作偏好数据集合并成4,729个写作质量判断,引入了写作质量基准(WQ)。我们的实验表明,许多竞争Baseline,包括在推理任务方面表现出色的最先进的大语言模型(LLM),在WQ上仅略微优于随机Baseline。随后,我们针对写作质量评估训练了不同规模的专业写作质量奖励模型(WQRM),这些模型在四个分布外测试集上展示了较强的泛化能力,并在WQ基准上达到了74%的准确性。为了进一步展示WQRM在推理过程中的实际应用益处,我们利用额外的测试时计算能力生成并排名多个候选修订版本,从而允许我们从初稿中选择更高质量的输出。9名有经验的作者的人类评估确认,基于WQRM的选择产生66%的整体由专家偏好的写作样本,当奖励差距大于1分时,这一比例为72.2%。我们发布了我们的数据集和模型,以鼓励社区参与写作质量评估,并促进更符合人类偏好的AI写作系统的开发。