摘要
arXiv:2502.14037v1 通告类型: 横向
摘要: 尽管大型语言模型的性能不断提高,但它们仍然倾向于复制训练数据,生成多个重复内容,并专注于最常见的语法结构和词汇。可能的原因是采用的解码策略:最常见的解码策略要么只考虑最可能的标记,从而减少输出的多样性,要么在牺牲输出准确性和正确性的前提下增加不可能标记的可能性。在本文中,我们通过利用标记概率分布的数学分析提出了一种新的解码方法的家族。特别是,按顺序排序的概率之间的差异可以用来避免不正确的标记并增加低概率但准确的词汇出现的机会。关于数学问题解决、极端摘要以及发散关联任务的实验表明,我们的方法在质量和多样性方面至少与当前的替代方案相当。