LLM2D

摘要

arXiv:2505.00557v1 类型: cross 摘要：大型语言模型（LLMs）中的幻觉在医疗保健、法律等领域构成了日益增长的挑战，这些领域对事实可靠性有着至关重要的要求。尽管在对齐和指令调整方面取得了进展，但LLMs仍然可以生成流畅但本质上不真实的内容。了解支撑这些幻觉的认知动态仍然是一个开放的问题。在这项研究中，我们提出了一种基于提示的框架，以系统地引发和量化幻觉：一种幻觉诱导提示（HIP），它以误导性的方式合成了语义上相距较远的概念（例如，元素周期表和塔罗占卜），以及一种幻觉量化提示（HQP），它评估输出的可信度、信心和一致性。在多种LLM的控制实验中揭示了HIP总是比其无融合对照组产生更不连贯且更多的幻觉反应。这些效果在不同模型之间有所不同，推理导向型的LLM表现出与通用型LLM不同的模式。我们的框架提供了一个可重复的测试平台，用于研究幻觉的脆弱性，并为开发更安全、更具内省性的LLM铺平了道路，这些LLM能够检测并自我调节概念不稳定性。