LLM2D
医学文本中的幻觉与关键信息提取:开源大型语言模型的全面评估
Hallucinations and Key Information Extraction in Medical Texts: A Comprehensive Assessment of Open-Source Large Language Models
作者: Anindya Bijoy Das, Shibbir Ahmed, Shahnewaz Karim Sakib
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19061v1

摘要

arXiv:2504.19061v1 Announce Type: cross 摘要:临床总结在医疗保健中至关重要,因为它能够将复杂的医疗数据提炼成易于理解的信息,从而增强患者的理解和护理管理能力。大型语言模型(LLMs)因其先进的自然语言理解能力,已经在自动化和提高此类总结的准确性方面显示出巨大的潜力。这些模型特别适用于医疗/临床文本的总结,其中准确和简洁的信息传递至关重要。在本文中,我们研究了开源LLMs在从出院报告中提取关键事件(如住院原因、住院期间的重大事件和关键后续行动)方面的有效性。此外,我们还评估了这些模型生成的总结中各种类型幻觉的频度。检测幻觉至关重要,因为它直接影响信息的可靠性,可能影响患者的护理和治疗结果。我们进行全面的数值模拟,以严格评估这些模型的性能,进一步探查提取内容在临床总结中的准确性和忠实度。