摘要
arXiv:2502.14155v1 Announce Type: 新
摘要:在计算认知建模中,超越最优行为,捕捉人类判断和决策过程的完整谱系是一项重大挑战。本研究探讨大型语言模型(LLMs)是否能够通过预测直观快速的System 1和审慎缓慢的System 2过程来模拟人类推理的广泛性。我们研究了人工智能模仿人类推理行为的潜力,涵盖了整个人群的多样性,我们称之为“完整推理谱系问题”。我们设计了一种新的自然语言推理(NLI)格式的变体作为推理任务,以评估LLMs复制人类推理的能力。这些问题的设计旨在激发System 1和System 2的反应。通过众包收集了人类反应,并对整个分布进行了建模,而不仅仅是大多数答案。我们采用了基于人格的提示,受到五大人格特质模型的启发,以激发反映特定人格特质的AI响应,捕捉人类推理的多样性,并探讨人格特质如何影响LLM的输出。结合遗传算法优化这些提示的权重,该方法与传统的机器学习模型一起进行了测试。结果显示,开源模型如Llama和Mistral在模拟人类响应分布方面优于专有的GPT模型。基于人格的提示,特别是在遗传算法优化下,显著增强了LLMs预测人类响应分布的能力,表明捕捉非最优的、符合自然的人类推理可能需要融合多种推理风格和心理特征的建模技术。研究结论认为,结合遗传算法的人格基于提示有潜力增强AI在推理中的“人性”。