LLM2D

摘要

arXiv:2502.13207v1 Announce Type: 交叉摘要：尽管大型语言模型在创意任务中的应用日益增多，但它们的输出往往缺乏多样性。常见的解决方案，如在较高的温度下采样，可能会牺牲结果的质量。基于信息理论，我们提出了一种基于上下文的分数来定量评估价值和原创性。该分数激励准确性并遵守请求，同时促进与学习分布的偏差。我们提议在强化学习框架中使用我们的分数作为奖励，以微调大型语言模型以实现最佳性能。通过在诗歌生成和数学问题解决中的实验，验证了我们的策略，表明它提高了生成解决方案的价值和原创性。