摘要
arXiv:2504.06868v2 通知类型: 替换-跨类别
摘要:人工智能代理在复杂的互动和决策任务中扮演着越来越重要的角色,但如何使它们的行为符合期望的人类价值观仍然是一个开放的挑战。在这项工作中,我们研究了人类特征人格特质如何影响代理在基于文本的交互环境中的行为和表现。我们介绍了 PANDA:个性适配神经决策代理,这是一种新的方法,用于将人类的人格特质投影到代理上以指导其行为。为了在基于文本的游戏代理中诱导人格特征,我们采取了两项措施:(i) 训练一个人格分类器来识别代理行为体现的人格类型,(ii) 直接将人格档案整合到代理的学习策略流程中。通过在25款基于文本的游戏中小规模部署16种不同的人格类型代理,并分析其轨迹,我们展示了代理行动决策可以导向特定的人格特征。此外,某些人格类型,如开放性较高的人格类型,显示出了明显的表现优势。这些发现强调了适用于人格的人工智能代理在促进更对齐、更有效和以人类为中心的决策中的潜力。