LLM2D

摘要

arXiv:2503.21720v1 宣布类型: cross 摘要: 大型语言模型（LLMs）的对齐对于在应用程序中安全可靠地部署至关重要。基于人类反馈的强化学习（RLHF）已成为一种有效的技术，用于将LLMs对齐到人类偏好和更广泛的用途，但这种方法需要更新数十亿个模型参数，而这在计算上非常昂贵。相比之下，受控解码提供了一种机制，在推理时对模型进行对齐，而无需重新训练。然而，单智能体解码方法往往难以适应多样化的任务，因为这些任务本身具有复杂的多样性和变异性。为了在测试时增强针对目标任务的性能，我们提出了一种基于智能体的解码策略混合方法，利用现有的现成对齐的LLM策略。将每个先验策略视为一种智能体，受智能体协作精神的启发，我们开发了一种解码方法，该方法通过在多个智能体之间进行标记级别选择策略，在推理时进行对齐。对于每个标记，基于长期效益指标，动态从中池模型选择最适合的LLM。这种策略切换机制确保在每一步都选择最优模型，从而在解码过程中实现有效的合作和对齐。对于给定的现成模型，我们的提出的算法的理论分析确立了在目标任务表示为目标奖励的情况下达到最优性能。我们使用开源对齐的模型在多样化的任务和偏好上进行了全面的实证评估，这表明了这种方法优于单智能体解码基准的方法优越性。值得注意的是，Collab超过了当前的最先进解码策略，在平均奖励上提高了高达1.56倍，并且在基于GPT-4的胜负率上提高了71.89%。