LLM2D
不性能退化的情况下Fine-Tuning
Fine-Tuning without Performance Degradation
作者: Han Wang, Adam White, Martha White
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00913v1

摘要

arXiv:2505.00913v1 宣告类型: cross 摘要:在应用领域,离线学习的策略进行微调仍然是一项重大挑战。在微调过程中实现单调性能提升通常也颇具挑战性,因为代理在微调的早期阶段通常会经历性能下降。社区已经识别出在线微调学习网络时遇到的多个困难,然而,大多数进展都集中在提高微调期间的学习效率上。实际上,在微调过程中,这带来了严重的问题:最初,代理的性能随着代理探索和有效地覆盖了离线学习的策略而下降。我们在一系列设置中表明,许多离线到在线的算法在微调过程中要么(1)表现出性能下降,要么(2)学习缓慢(有时实质上没有改进)。我们介绍了一种新的微调算法,该算法基于一种称为Jump Start的算法,它根据在线性能估计逐渐允许更多的探索。实验证明,这种方法实现了快速微调,并且与设计用于实现相同功能的现有算法相比,显著减少了性能下降。