LLM2D

摘要

arXiv:2502.12776v1 Announce Type: cross 摘要：尽管通过微调可以将基础模型应用于各种专家任务，但由于其过时的知识或有限的能力，任何基础模型最终都将变得过时。因此，应该逐步用新的基础模型来替换，这会导致反复进行这些新模型的微调，产生额外的成本。现有工作通过推理时调整来解决这个问题，即通过修改新基础模型和旧基础模型及其微调模型的输出概率来解决，这在最后两个模型的推理中涉及额外的开销。在本文中，我们提出了一种新的微调原则——便携式奖励调整（PRT），该原则从本质上减少了推理开销，基于将微调重新定义为奖励最大化。具体来说，PRT 通过与微调相同的损失函数明确地训练奖励模型，而不是调整基础模型的参数。在推理时，通过奖励最大化的形式，奖励模型可以与任何基础模型（具有相同的词汇表或标签集）结合使用。实验结果涵盖了视觉和语言模型，表明PRT训练的模型在推理准确性方面可以与现有推理时调整的工作达到相当的水平，但具有更低的推理成本。