摘要
arXiv:2412.19726v2 通知类型: 替换
摘要:这篇观点文章认为,大多数关于心理理论的基准测试都存在问题,因为它们无法直接测试大型语言模型(LLMs)在遇到新伙伴时如何适应。这个问题源于心理理论基准测试主要受到用于测试人类心理理论方法的启发,并且被归因给人工智能代理的类似人类品质所蒙蔽。我们认为,人类在对同一情境的各种问题进行推理时会保持一致性,但当前的LLMs并未能做到这一点。大多数关于心理理论的基准测试仅测量我们所谓的字面心理理论:预测他人行为的能力。这种推理类型的测量在测试具有自我一致推理能力的代理时非常有用。然而,需要指出的是,当这种自我一致性无法保证时,这种区别实际上很重要。我们称之为功能性心理理论:在根据对对方行为预测的理性回应适应情境中的代理的能力。我们发现,开源的顶级LLMs在适量提示下可能在字面心理理论方面表现出很强的能力,但在功能性心理理论方面却显得吃力——即使伙伴策略异常简单。简而言之,强大的字面心理理论性能并不必然意味着强大的功能性心理理论性能。实现功能性心理理论,特别是与伙伴进行长时间交互时,是一项重大挑战,值得任何有意义的LLM心理理论评估占据重要位置。