LLM2D
NCL-UoR参见SemEval-2025任务3:使用修改后的RefChecker和修改后的SelfCheckGPT检测多语言幻觉及相关可观察的过度生成文本片段
NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT
作者: Jiaying Hong, Thanet Markchom, Jianfei Xu, Tong Wu, Huizhi Liang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2503.01921v2

摘要

arXiv:2503.01921v2 宣传类型: replace-cross 摘要:SemEval-2025 任务 3(Mu-SHROOM)专注于检测由多种大型语言模型(LLMs)生成的内容中的幻觉,涉及多种语言。此任务不仅包括识别幻觉的存在,还包括确定它们的具体发生情况。为了应对这一挑战,本研究引入了两种方法:修改后的 RefChecker 和修改后的 SelfCheckGPT。修改后的 RefChecker 将基于提示的实事验证整合到参考中,将其结构化为基于声明的测试,而非单一的外部知识来源。修改后的 SelfCheckGPT 则结合外部知识以克服其对内部知识的依赖。此外,两种方法的原始提示设计也得到了增强,以在 LLM 生成的文本中识别幻觉词汇。实验结果证明了该方法的有效性,在检测多种语言中的幻觉时在测试数据集上取得了较高的排名,平均 IoU 为 0.5310,平均 COR 为 0.5669。