LLM2D
大型语言模型在公平行事时克服了机器惩罚,但在自私或利他行事时则未能克服
Large Language Models Overcome the Machine Penalty When Acting Fairly but Not When Acting Selfishly or Altruistically
作者: Zhen Wang, Ruiqi Song, Chen Shen, Shiya Yin, Zhao Song, Balaraju Battu, Lei Shi, Danyang Jia, Talal Rahwan, Shuyue Hu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.03724v2

摘要

在集体利益与个人利益冲突的社会困境中,人们与机器合作的程度通常低于与人类合作,这种现象被称为“机器惩罚”。克服这种惩罚对于成功的人机集体至关重要,然而,目前的解决方案往往涉及伦理上存疑的策略,例如隐瞒机器的非人类本质。本研究邀请了1152名参与者,探讨了利用大型语言模型(LLM)解决这一研究问题的可能性,研究情境为互动双方可以进行沟通。我们设计了三种类型的LLM:(i)合作型,旨在协助其人类伙伴;(ii)自私型,专注于最大化自身利益;(iii)公平型,在自身利益和集体利益之间取得平衡,同时略微优先考虑自身利益。我们的研究结果表明,与人类互动时,公平型LLM能够诱导与人际互动中观察到的合作水平相当的合作水平,即使它们的非人类本质被完全披露。相比之下,自私型和合作型LLM未能实现这一目标。实验后分析表明,所有三种类型的LLM都能成功与人类形成互惠合作协议,但只有偶尔违背承诺的公平型LLM能够在人类中灌输与它们合作是社会规范的认知,并引发对它们的信任度、体贴度、智力和沟通质量的积极评价。我们的研究结果表明,为了有效的人机合作,机器人制造商应避免设计只具有理性决策能力或仅仅专注于协助人类的机器。相反,他们应该设计能够明智地平衡自身利益和人类利益的机器。