LLM2D
大型语言模型在公平行为时克服了机器惩罚,但在自私或利他行为时则未能克服。
Large Language Models Overcome the Machine Penalty When Acting Fairly but Not When Acting Selfishly or Altruistically
作者: Zhen Wang (School of Cybersecurity, and School of Artificial Intelligence, OPtics and ElectroNics), Ruiqi Song (School of Cybersecurity, and School of Artificial Intelligence, OPtics and ElectroNics), Chen Shen (Faculty of Engineering Sciences, Kyushu University, Japan), Shiya Yin (School of Cybersecurity, and School of Artificial Intelligence, OPtics and ElectroNics), Zhao Song (School of Computing, Engineering and Digital Technologies, Teesside University, United Kingdom), Balaraju Battu (Computer Science, Science Division, New York University Abu Dhabi, UAE), Lei Shi (School of Statistics and Mathematics, Yunnan University of Finance and Economics, China), Danyang Jia (School of Cybersecurity, and School of Artificial Intelligence, OPtics and ElectroNics), Talal Rahwan (Computer Science, Science Division, New York University Abu Dhabi, UAE), Shuyue Hu (Shanghai Artificial Intelligence Laboratory, China)
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03724v1

摘要

在集体利益和个人利益发生冲突的社会困境中,人们通常比与人类同伴相比,与机器合作的程度更低,这种现象被称为“机器惩罚”。克服这种惩罚对于成功的人机集体至关重要,然而,目前解决方案通常涉及道德上有问题的策略,例如隐藏机器的非人类本质。在本研究中,我们招募了1152名参与者,探索了在交互方之间可以进行沟通的情况下,使用大型语言模型 (LLM) 来解决这一研究问题的可能性。我们设计了三种类型的 LLM:(i) 合作型,旨在帮助其人类伙伴;(ii) 自私型,只关注最大化其自身利益;以及 (iii) 公平型,平衡自身利益和集体利益,同时略微优先考虑自身利益。我们的研究结果表明,在与人类互动时,公平型 LLM 能够诱导与人类之间互动中观察到的类似的合作水平,即使它们的非人类本质完全公开。相比之下,自私型和合作型 LLM 无法实现这一目标。实验后分析表明,三种类型的 LLM 都成功地与人类形成了相互合作协议,但只有公平型 LLM,它们偶尔会违背承诺,能够在人类中灌输一种观念,即与它们合作是一种社会规范,并引发对它们的信任、警觉性、智力和沟通质量的积极评价。我们的研究结果表明,为了有效的人机合作,机器人制造商应该避免设计只具有理性决策能力或只专注于帮助人类的机器。相反,他们应该设计能够明智地平衡自身利益和人类利益的机器。