LLM2D

摘要

arXiv:2502.12304v1 类型: cross 摘要: 对于序列到序列的任务，传统的监督微调(SFT)策略通常直接训练模型生成目标输出。最近的研究表明，通过关键词、提纲或推理链等中间步骤来引导模型，可以显著提高性能、连贯性和可解释性。然而，这些方法通常依赖于预先定义的中间格式和标注数据，限制了其可扩展性和通用性。在本文中，我们提出了一种任务无关的框架，使模型能够生成中间的“预热”序列。这些预热序列作为后续生成的初始状态，优化以增强生成目标序列的概率，而无需依赖外部监督或人工设计的结构。借鉴强化学习的原则，我们的方法通过迭代优化这些中间步骤，以最大化其对最终输出的贡献，类似于在人类反馈驱动的强化学习中进行奖励驱动的优化。在翻译、总结和逻辑推理的多选题回答等任务上的实验结果表明，我们的方法优于传统的SFT方法，并为序列到序列的任务提供了一种可扩展且灵活的解决方案。