LLM2D
大型语言模型在辩论人类时的局限性
Limits of Large Language Models in Debating Humans
作者: James Flamino, Mohammed Shahid Modi, Boleslaw K. Szymanski, Brendan Cross, Colton Mikolajczyk
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2402.06049v2

摘要

arXiv:2402.06049v2 宣告类型: 替换 摘要:大规模语言模型(LLMs)在与人类交流方面表现出显著的潜力。作为社会学实验中人类对话伙伴的人工伙伴的潜在用途是一个令人兴奋的前景。但这是多么可行呢?在这里,我们通过一个预先注册的研究进行了严格测试,该研究运行了多个基于辩论的共识游戏。每场比赛开始时有六名人类、六名代理或三名人类和三名代理。我们发现,代理能够更好地融入并专注于辩论的话题,从而提高所有玩家的生产效率。然而,人类认为代理不如其他人类有说服力和自信,我们收集的人类和代理的行为指标在很大程度上与其他人的存在显著差异。我们观察到代理已经相当不错的辩论者,但他们的行为产生了一种与人类生成数据截然不同的模式。