摘要
arXiv:2504.01153v2 通告类型:替换-交叉
摘要:随着我们越来越多地依赖大型语言模型(LLMs)完成各种任务,这些模型被已知会产生不准确的内容或“幻觉”,这可能导致灾难性的后果。最近将网络搜索结果整合到LLMs中,引发了人们是否会利用这些结果来验证生成的内容以避免落入幻觉的陷阱的问题。这项研究(N=560)调查了提供搜索结果(无论是静态的(固定搜索结果)还是动态的(参与者驱动的搜索))如何影响参与者对LLM生成内容(即真实的、轻微的幻觉、重大的幻觉)的评估准确性和信心,与对照组(没有搜索结果)的情况相比。研究结果表明,与对照组相比,处于静态和动态条件下的参与者认为幻觉内容的准确性较低。然而,在动态条件下,参与者认为真实内容的准确性更高,并且在评估方面的总体信心也更强,这与静态或对照条件下的参与者有所不同。此外,好奇心需求较高(NFC)的参与者认为重大的幻觉内容的准确性较低,而对真实内容和轻微幻觉内容没有相应的不同。这些结果强调了将在网络搜索结果整合到LLMs中以检测幻觉的潜在益处,以及在开发以人为中心的系统时需要采取更细致的方法,考虑到用户特征。