LLM2D
LLM们能在改写和机器翻译中检测到内在幻觉吗?
Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?
作者: Evangelia Gogoulou, Shorouq Zahra, Liane Guillou, Luise D\"urlich, Joakim Nivre
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20699v1

摘要

arXiv:2504.20699v1 Announce Type: 交叉 摘要:LLM中经常会遇到一个问题,那就是它们倾向于生成没有意义、不合逻辑或事实错误的输出,这种现象通常被广泛地称为幻觉。基于最近提出的用于幻觉检测和生成的HalluciGen任务,我们评估了一系列开源LLM在两种条件生成任务(翻译和改写)上检测内在幻觉的能力。我们研究了模型性能在不同任务和语言中的差异,并探讨了模型规模、指令调优和提示选择的影响。我们发现,模型性能在不同模型之间有所不同,但在不同提示下却是一致的。最后,我们发现NLI模型表现相当不错,这表明基于LLM的检测器并非处理此特定任务的唯一可行选择。