LLM2D

摘要

arXiv:2410.14596v2 归类类型: replace-cross 摘要: 大型语言模型（LLMs）容易受到说服的影响，这在模型面对对手时会带来风险。我们首次尝试防御模型免受说服的影响，同时也认为防御对抗（即负面）说服只是问题的一部分：模型也应该能够接受有利（即正面）的说服以改进它们的答案。我们展示了仅优化模型的一方面会导致另一方面表现不佳。为了平衡正面和负面的说服，我们引入了Persuasion-Training（或PBT），它利用多代理递归对话树生成数据并通过偏好优化训练模型，在适当的情况下接受说服。PBT允许我们使用来自较小的7-8B模型对话生成的数据来训练更大的70B模型。此外，PBT始终能够提高对错误信息的抵抗力和对质疑的韧性，同时在包含正面和负面说服的整体数据中表现出最佳的整体性能。至关重要的是，我们证明了PBT模型在两个领域（ trivia和常识问答）的多代理辩论中是更好的团队成员。我们发现，没有PBT的情况下，强弱模型的组合表现不稳定，展示答案的顺序决定了团队是得到更强模型还是较弱模型的表现。PBT带来了更好的、更稳定的结果，减少了顺序依赖性，并且更强的模型始终在提升较弱模型的表现方面发挥作用。