摘要
arXiv:2410.14596v2 归类类型: replace-cross
摘要: 大型语言模型(LLMs)容易受到说服的影响,这在模型面对对手时会带来风险。我们首次尝试防御模型免受说服的影响,同时也认为防御对抗(即负面)说服只是问题的一部分:模型也应该能够接受有利(即正面)的说服以改进它们的答案。我们展示了仅优化模型的一方面会导致另一方面表现不佳。为了平衡正面和负面的说服,我们引入了Persuasion-Training(或PBT),它利用多代理递归对话树生成数据并通过偏好优化训练模型,在适当的情况下接受说服。PBT允许我们使用来自较小的7-8B模型对话生成的数据来训练更大的70B模型。此外,PBT始终能够提高对错误信息的抵抗力和对质疑的韧性,同时在包含正面和负面说服的整体数据中表现出最佳的整体性能。至关重要的是,我们证明了PBT模型在两个领域( trivia和常识问答)的多代理辩论中是更好的团队成员。我们发现,没有PBT的情况下,强弱模型的组合表现不稳定,展示答案的顺序决定了团队是得到更强模型还是较弱模型的表现。PBT带来了更好的、更稳定的结果,减少了顺序依赖性,并且更强的模型始终在提升较弱模型的表现方面发挥作用。