LLM2D

摘要

arXiv:2504.18246v1 交叉公告类型摘要：训练大型语言模型（LLMs）在生成答案之前生成明确的推理已被证明可以提高它们在数学和编程等各种任务中的性能。然而，对多轮推理数据集进行LLMs微调提出了一个独特的挑战：LLMs必须生成不会包含在后续输入到LLM中的推理标记。这种差异阻碍了我们一次性处理整个对话——这在我们使用多轮非推理数据集进行微调时是很容易实现的优化。这篇论文提出了一种新方法，通过响应标记复制和一个自定义的注意力掩码来克服这个限制，该掩码施加了适当可见性的约束。我们的方法显著减少了训练时间，并允许高效地对多轮推理数据集进行微调。