LLM2D

摘要

arXiv:2504.20699v1 Announce Type: 交叉摘要：LLM中经常会遇到一个问题，那就是它们倾向于生成没有意义、不合逻辑或事实错误的输出，这种现象通常被广泛地称为幻觉。基于最近提出的用于幻觉检测和生成的HalluciGen任务，我们评估了一系列开源LLM在两种条件生成任务（翻译和改写）上检测内在幻觉的能力。我们研究了模型性能在不同任务和语言中的差异，并探讨了模型规模、指令调优和提示选择的影响。我们发现，模型性能在不同模型之间有所不同，但在不同提示下却是一致的。最后，我们发现NLI模型表现相当不错，这表明基于LLM的检测器并非处理此特定任务的唯一可行选择。