LLM2D
基于模型评分排序的学习单词替换方法
Learning to Substitute Words with Model-based Score Ranking
作者: Hongye Liu, Ricardo Henao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.05933v2

摘要

arXiv:2502.05933v2 宣布类型: 替换交叉 摘要: 智能词语替换旨在通过改善词语选择来提升句子质量;然而当前的标准基准依赖于人工标注的数据。由于词语选择本质上是主观的,由一小群标注者生成的真实词语替换通常不完整,并且很可能是不具普适性的。为了解决这一问题,我们改用基于模型的评分(BARTScore)来量化句子质量,从而避免了人工标注的需要。具体而言,我们使用这个评分来定义每个词语替换的分布,从而使人们能够测试一个替换是否在统计上优于其他替换。此外,我们提出了一种损失函数,该函数直接优化了模型预测与句子评分之间的对齐,同时提高了替换的整体质量评分。重要的是,模型学习不再需要人工标签,从而避免了标注的成本,并保持了使用替换修改后的文本质量。实验结果表明,所提出的方法优于屏蔽语言模型(BERT、BART)和大型语言模型(GPT-4、LLaMA)。源代码可在 https://github.com/Hyfred/Substitute-Words-with-Ranking 获取。