LLM2D
基于文献综述的人工智能医疗领域大型语言模型评估框架
A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2405.02559v2

摘要

随着生成式人工智能(AI),特别是大型语言模型(LLM)在医疗保健领域的不断应用,用人工评估来补充传统的自动化评估至关重要。理解和评估LLM的输出对于确保其安全、可靠性和有效性至关重要。然而,人工评估繁琐、耗时且缺乏标准化的特点,给全面评估和LLM在实践中的广泛应用带来了重大障碍。本研究回顾了关于医疗保健领域LLM人工评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显著需求。我们遵循系统评价和荟萃分析的优选报告项目(PRISMA)指南,对2018年1月至2024年2月的出版物进行了广泛的文献检索。该综述考察了LLM在各个医学专业的评估,涉及评估维度、样本类型和大小、评估人员的选择和招募、框架和指标、评估过程以及统计分析类型等因素。借鉴这些研究中采用的多种评估策略,我们提出了一个全面且实用的LLM人工评估框架:QUEST:信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南,提高LLM在不同医疗保健应用中人工评估的可靠性、通用性和适用性。