摘要
arXiv:2505.00557v1 类型: cross
摘要:大型语言模型(LLMs)中的幻觉在医疗保健、法律等领域构成了日益增长的挑战,这些领域对事实可靠性有着至关重要的要求。尽管在对齐和指令调整方面取得了进展,但LLMs仍然可以生成流畅但本质上不真实的内容。了解支撑这些幻觉的认知动态仍然是一个开放的问题。在这项研究中,我们提出了一种基于提示的框架,以系统地引发和量化幻觉:一种幻觉诱导提示(HIP),它以误导性的方式合成了语义上相距较远的概念(例如,元素周期表和塔罗占卜),以及一种幻觉量化提示(HQP),它评估输出的可信度、信心和一致性。在多种LLM的控制实验中揭示了HIP总是比其无融合对照组产生更不连贯且更多的幻觉反应。这些效果在不同模型之间有所不同,推理导向型的LLM表现出与通用型LLM不同的模式。我们的框架提供了一个可重复的测试平台,用于研究幻觉的脆弱性,并为开发更安全、更具内省性的LLM铺平了道路,这些LLM能够检测并自我调节概念不稳定性。