摘要
arXiv:2410.17477v4 公告类型: replace-cross
摘要:大型语言模型(LLMs)在日常生活中的重要性增长主要是由于它们的生成能力,但这也部分归因于其使用所带来的风险和成本。一方面,LLMs 有虚构或误导性信息的倾向,这限制了它们的可靠性。另一方面,人们对传统基于自注意力的LLMs的计算限制的关注不断增加,这催生了新的替代方案,特别是循环模型,旨在克服这些问题。然而,同时考虑这两种关注点的情况仍然较为罕见。结构上的变化是否会加剧/减轻现有关于虚构信息的关切?它们是否会以不同的方式和地点引发虚构信息?通过广泛的评估,我们研究了这些基于结构的归纳偏见如何影响虚构信息的倾向。虽然虚构信息是一种普遍现象,不局限于特定的架构,但特定类型虚构信息的发生情况和引发的难易程度可以显著根据模型架构的不同而改变。这些发现强调了需要同时更好地理解这两个问题的必要性,以及如何设计更通用的方法来处理虚构信息。