摘要
arXiv:2504.01153v1 宣告类型:跨学科
摘要:随着我们越来越依赖大型语言模型(LLMs)完成各种任务,这些模型被已知会产生不准确的内容或“幻觉”,且可能带来灾难性的后果。最近将网络搜索结果集成到LLMs中引发了这样的问题:人们是否利用这些搜索结果来验证生成的内容,从而避免陷入幻觉的陷阱。这项研究(N=560)探讨了提供搜索结果(无论是静态的,即固定搜索结果,还是动态的,即参与者驱动的搜索)如何影响参与者对LLM生成内容的判断准确性和自信程度(即真实、轻微幻觉、重大幻觉),相比于没有提供搜索结果的控制条件。研究结果表明,与控制条件相比,处于静态和动态条件下的参与者都评价幻觉内容的准确性较低。然而,动态条件下的人比静态或控制条件下的人更评价真实内容的准确性更高,并且展示了更广泛的评估信心。此外,高认知需求(NFC)的人评价重大幻觉内容的准确性较低,而对于真实内容或轻微幻觉内容没有相应的差异。这些结果强调了将网络搜索结果集成到LLMs中以检测幻觉的潜在益处,同时也强调了在开发以人为中心的系统时需要采取更加精细的方法,考虑到用户特征的重要性。