LLM2D

摘要

arXiv:2505.00913v1 宣告类型: cross 摘要：在应用领域，离线学习的策略进行微调仍然是一项重大挑战。在微调过程中实现单调性能提升通常也颇具挑战性，因为代理在微调的早期阶段通常会经历性能下降。社区已经识别出在线微调学习网络时遇到的多个困难，然而，大多数进展都集中在提高微调期间的学习效率上。实际上，在微调过程中，这带来了严重的问题：最初，代理的性能随着代理探索和有效地覆盖了离线学习的策略而下降。我们在一系列设置中表明，许多离线到在线的算法在微调过程中要么（1）表现出性能下降，要么（2）学习缓慢（有时实质上没有改进）。我们介绍了一种新的微调算法，该算法基于一种称为Jump Start的算法，它根据在线性能估计逐渐允许更多的探索。实验证明，这种方法实现了快速微调，并且与设计用于实现相同功能的现有算法相比，显著减少了性能下降。