LLM2D
多模态思维:通过多模态推理和心智理论增强狼人代理
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind
作者: Zheng Zhang, Nuoqian Xiao, Qi Chai, Deheng Ye, Hao Wang
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2504.18039v2

摘要

arXiv:2504.18039v2 通知类型: 重写 摘要:大规模语言模型(LLM)代理在需要战略推理和社交欺骗的社会推理游戏(SDGs)如狼人游戏中展示了令人印象深刻的性能。然而,当前的方法仍然局限于文本信息,忽视了人类自然使用的至关重要的多模态线索,如面部表情和语音语气。此外,现有的SDG代理主要集中在推断其他玩家的身份,而忽略了如何展示自己或其他玩家的看法。为了解决这些限制,我们使用One Night Ultimate Werewolf(ONUW)作为测试平台,并提出了MultiMind,这是第一个将多模态信息集成到SDG代理中的框架。MultiMind在处理面部表情和语音语气的同时,使用心智理论(ToM)模型来表示每个玩家对其他玩家的信任水平。通过将这种ToM模型与蒙特卡洛树搜索(MCTS)结合,我们的代理识别出能够将自身置于他人最小信任水平的沟通策略。通过在代理对战模拟和与人类玩家的研究中进行全面评估,我们展示了MultiMind在游戏中的优越性能。我们的工作标志着向能够进行类似人类跨多模态领域社会推理的大规模语言模型代理的重大进展。