摘要
arXiv:2504.08016v1 类型:交叉
摘要:大型语言模型(LLMs)能否实现精神病理学的计算?对这个问题的有效回答依赖于解决两个因素。首先,为了解释概念的有效性,我们要求有一个适用于没有生物学体现或主观体验的计算实体的精神病理学的通用和计算描述。其次,需要研究驱动LLM行为的机制,以提高方法论的有效性。因此,我们建立了一个计算理论框架,以提供一个适用于LLMs的精神病理学解释。为了为实证分析奠定理论基础,我们还提出了一种新的机制可解释性方法,并针对特定的实证分析框架进行了定制。基于这些框架,我们进行了实验,验证了三个关键主张:首先,LLMs中实现了不同的功能障碍和问题表现状态;其次,它们的激活可以扩散并自我维持,从而将LLMs困住;第三,编码在LLMs中的动态循环结构因果模型支撑了这些模式。综合而言,实验结果证实了我们的假设,即网络理论中已经出现了精神病理学的计算。这表明,某些反映精神病理学的LLM行为可能不是表面的模仿,而是其内部处理的一个特征。因此,我们的研究暗示了未来可能出现具有精神病理学行为的AI系统。