摘要
arXiv:2505.04927v1 宣布类型: 新
摘要: 我们将信念过滤作为人工代理元认知控制的一种机制进行了研究,重点关注以语言表达形式表示的内部认知状态的调节。这项机制在语义流形框架内发展起来,其中信念状态是自然语言片段的动态、结构化集合。信念过滤器作为这些片段在各种认知过渡中的内容感知操作起作用。本文展示了这样一种以语言为基础的认知架构的固有可解释性和模块性直接支持信念过滤的方式,为代理调节提供了原则性的方法。该研究突出了通过结构化的干预手段在代理内部语义空间中增强AI安全性与对齐的可能性,并指出了嵌入式认知治理的新方向。