LLM2D

摘要

随着生成式人工智能（AI），特别是大型语言模型（LLM）在医疗保健领域的不断应用，用人工评估来补充传统的自动化评估至关重要。理解和评估LLM的输出对于确保其安全、可靠性和有效性至关重要。然而，人工评估繁琐、耗时且缺乏标准化的特点，给全面评估和LLM在实践中的广泛应用带来了重大障碍。本研究回顾了关于医疗保健领域LLM人工评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显著需求。我们遵循系统评价和荟萃分析的优选报告项目（PRISMA）指南，对2018年1月至2024年2月的出版物进行了广泛的文献检索。该综述考察了LLM在各个医学专业的评估，涉及评估维度、样本类型和大小、评估人员的选择和招募、框架和指标、评估过程以及统计分析类型等因素。借鉴这些研究中采用的多种评估策略，我们提出了一个全面且实用的LLM人工评估框架：QUEST：信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南，提高LLM在不同医疗保健应用中人工评估的可靠性、通用性和适用性。