LLM2D
通过自我博弈训练语言模型以提升辩论获胜能力,从而提高评判准确性
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy
作者: Samuel Arnesen, David Rein, Julian Michael
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16636v1

摘要

我们通过训练模型与通过自我博弈生成的数据进行辩论,来测试辩论作为可扩展监督方法的鲁棒性。在长文本阅读理解任务中,我们发现当评估模型被优化以赢得辩论时,基于语言模型的评估者能够更准确地回答问题。相比之下,我们发现对于在没有对手辩论者的情况下被训练说服法官的咨询模型,不存在这种关系。在我们的辩论模型和新颖的咨询基线之间的定量和定性比较中,我们发现证据表明辩论训练鼓励更强大和更有信息的论点,这表明它有可能帮助为难以直接评估的任务提供高质量的监督。