LLM2D

摘要

arXiv:2408.08083v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）已成为各个领域中强有力的技术工具。近期研究表明，在某些任务中，例如预测神经科学研究的结果，LLMs 的表现甚至超过了人类。在整体决策过程中，人类的作用会如何变化？一种可能性是，尽管人类在某些任务上的表现不如LLMs，但与LLMs 结合时仍然可以增加价值。当团队成员对自己的判断进行了准确校准，且团队成员在哪些任务上发现困难不同（即校准和多样性是必要的），人类和机器的团队可以在某些任务上表现优于个别成员。我们简化并扩展了将判断结合的贝叶斯方法，在逻辑回归框架中整合了任意数量团队成员的加权判断。使用这种方法，我们在一项神经科学预测任务中表明，即使人类在某些任务上不如LLMs，但与一个或多个LLMs 结合时，团队的整体表现始终有所提升。我们希望这种整合人类和机器判断的简单而有效的方法能够促进富有成效的合作。