LLM2D

摘要

arXiv:2503.01921v2 宣传类型: replace-cross 摘要：SemEval-2025 任务 3（Mu-SHROOM）专注于检测由多种大型语言模型（LLMs）生成的内容中的幻觉，涉及多种语言。此任务不仅包括识别幻觉的存在，还包括确定它们的具体发生情况。为了应对这一挑战，本研究引入了两种方法：修改后的 RefChecker 和修改后的 SelfCheckGPT。修改后的 RefChecker 将基于提示的实事验证整合到参考中，将其结构化为基于声明的测试，而非单一的外部知识来源。修改后的 SelfCheckGPT 则结合外部知识以克服其对内部知识的依赖。此外，两种方法的原始提示设计也得到了增强，以在 LLM 生成的文本中识别幻觉词汇。实验结果证明了该方法的有效性，在检测多种语言中的幻觉时在测试数据集上取得了较高的排名，平均 IoU 为 0.5310，平均 COR 为 0.5669。