摘要
arXiv:2502.13207v1 Announce Type: 交叉
摘要:尽管大型语言模型在创意任务中的应用日益增多,但它们的输出往往缺乏多样性。常见的解决方案,如在较高的温度下采样,可能会牺牲结果的质量。基于信息理论,我们提出了一种基于上下文的分数来定量评估价值和原创性。该分数激励准确性并遵守请求,同时促进与学习分布的偏差。我们提议在强化学习框架中使用我们的分数作为奖励,以微调大型语言模型以实现最佳性能。通过在诗歌生成和数学问题解决中的实验,验证了我们的策略,表明它提高了生成解决方案的价值和原创性。