LLM2D
基于模型评分排序的学习单词替换方法
Learning to Substitute Words with Model-based Score Ranking
作者: Hongye Liu, Ricardo Henao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05933v1

摘要

arXiv:2502.05933v1 Announce Type: cross 摘要:智能词替换旨在通过改进词汇选择来提升句子质量;然而当前基准依赖于人工标注的数据。由于词汇选择本质上具有主观性,由一小群注释者生成的真实词汇替换往往不完整,很可能不具备普适性。为了克服这一问题,我们改而采用基于模型的评分(BARTScore)来量化句子质量,从而省去了人工标注的需求。具体来说,我们使用这个评分来定义每个词汇替换的概率分布,允许我们测试一个替换相对于其他替换是否具有统计上的优越性。此外,我们提出了一种损失函数,该函数直接优化模型预测与句子评分之间的对齐,同时也能提高替换本身的整体质量评分。最关键的是,模型学习不再需要人工标签,从而避免了标注成本,但仍能保持使用替换修改的文本质量。实验结果显示,所提出的方法在智能掩码语言模型(BERT,BART)和大型语言模型(GPT-4,LLaMA)中表现更优。源代码可在 https://github.com/Hyfred/Substitute-Words-with-Ranking 获取。