LLM2D

摘要

arXiv:2410.21236v2 宣告类型: 更换和交叉摘要：自ChatGPT发布以来，大型语言模型（LLMs）在各个领域都展现了卓越的能力。在开发这些通用能力的过程中，一个关键挑战是如何高效地获取多样且高质量的数据。在需要沙盒检查器的推理相关任务中，特别是在数学或代码任务中，目标是生成更高概率的正确解决方案。在本文中，我们介绍了一种简单而有效的采样方法——Flaming-hot Initiation with Regular Execution (FIRE)采样，以高效地找到好的回应。我们的实证研究显示，FIRE采样可以提高推理时生成的质量，并且也有助于对齐阶段的训练。此外，我们还探索了FIRE采样通过促进多样性和在回应的不同位置采用FIRE采样对性能的改进，并分析了在回应的不同位置采用FIRE采样的影响。