LLM2D
预热生成:一种无需监督初始状态生成的任务无关指导方法序列到序列学习
Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation
作者: Senyu Li, Zipeng Sun, Jiayi Wang, Xue Liu, Pontus Stenetorp, Siva Reddy, David Ifeoluwa Adelani
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12304v1

摘要

arXiv:2502.12304v1 类型: cross 摘要: 对于序列到序列的任务,传统的监督微调(SFT)策略通常直接训练模型生成目标输出。最近的研究表明,通过关键词、提纲或推理链等中间步骤来引导模型,可以显著提高性能、连贯性和可解释性。然而,这些方法通常依赖于预先定义的中间格式和标注数据,限制了其可扩展性和通用性。在本文中,我们提出了一种任务无关的框架,使模型能够生成中间的“预热”序列。这些预热序列作为后续生成的初始状态,优化以增强生成目标序列的概率,而无需依赖外部监督或人工设计的结构。借鉴强化学习的原则,我们的方法通过迭代优化这些中间步骤,以最大化其对最终输出的贡献,类似于在人类反馈驱动的强化学习中进行奖励驱动的优化。在翻译、总结和逻辑推理的多选题回答等任务上的实验结果表明,我们的方法优于传统的SFT方法,并为序列到序列的任务提供了一种可扩展且灵活的解决方案。