LLM2D

摘要

arXiv:2504.08596v1 声明类型: cross 摘要: 我们介绍了MedHal，这是一个新型大规模数据集，专门设计用于评估模型是否能够检测医疗文本中的幻觉。当前的幻觉检测方法在应用于像医学这样的专业领域时存在显著的局限性，在这些领域内，它们可能导致灾难性的后果。现有的医疗数据集要么太小，只包含几十到几百个样本，要么专注于单个任务，例如问答或自然语言推理。MedHal通过以下方式解决了这些问题：(1)包含多样化的医疗文本来源和任务；(2)提供了大量适合训练医疗幻觉检测模型的注释样本；(3)包括事实不一致的解释，以引导模型学习。我们通过训练和评估一个基线医疗幻觉检测模型来展示MedHal的实用性，并展示与通用幻觉检测方法相比的进步。该资源使得更高效地评估医疗文本生成系统成为可能，从而减少依赖昂贵的专家审查，有可能加速医疗AI研究的发展。