摘要
arXiv:2410.21236v2 宣告类型: 更换和交叉
摘要:自ChatGPT发布以来,大型语言模型(LLMs)在各个领域都展现了卓越的能力。在开发这些通用能力的过程中,一个关键挑战是如何高效地获取多样且高质量的数据。在需要沙盒检查器的推理相关任务中,特别是在数学或代码任务中,目标是生成更高概率的正确解决方案。在本文中,我们介绍了一种简单而有效的采样方法——Flaming-hot Initiation with Regular Execution (FIRE)采样,以高效地找到好的回应。我们的实证研究显示,FIRE采样可以提高推理时生成的质量,并且也有助于对齐阶段的训练。此外,我们还探索了FIRE采样通过促进多样性和在回应的不同位置采用FIRE采样对性能的改进,并分析了在回应的不同位置采用FIRE采样的影响。