摘要
arXiv:2504.20699v1 Announce Type: 交叉
摘要:LLM中经常会遇到一个问题,那就是它们倾向于生成没有意义、不合逻辑或事实错误的输出,这种现象通常被广泛地称为幻觉。基于最近提出的用于幻觉检测和生成的HalluciGen任务,我们评估了一系列开源LLM在两种条件生成任务(翻译和改写)上检测内在幻觉的能力。我们研究了模型性能在不同任务和语言中的差异,并探讨了模型规模、指令调优和提示选择的影响。我们发现,模型性能在不同模型之间有所不同,但在不同提示下却是一致的。最后,我们发现NLI模型表现相当不错,这表明基于LLM的检测器并非处理此特定任务的唯一可行选择。