LLM2D
可扩展的健康语言模型评估框架
A Scalable Framework for Evaluating Health Language Models
作者: Neil Mallinar, A. Ali Heydari, Xin Liu, Anthony Z. Faranesh, Brent Winslow, Nova Hammerquist, Benjamin Graef, Cathy Speed, Mark Malhotra, Shwetak Patel, Javier L. Prieto, Daniel McDuff, Ahmed A. Metwally
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2503.23339v2

摘要

arXiv:2503.23339v2 声明类型: 替换 摘要:大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期的研究表明,当提供给模型包含生活方式、生物标志物和上下文的患者特定健康信息时,它们能够生成有用且个性化的回应。随着以LLM驱动的健康应用程序的逐步 adoption,确保多维度响应质量(包括准确性、个性化和安全性)的严格且高效的单向评估方法变得至关重要。当前对开放文本回应的评估实践主要依赖于人类专家。这种做法引入了人类因素,并且往往成本高昂、工作量大,限制了可扩展性,特别是在需要领域专业知识来评估响应并考虑多方面患者数据的复杂领域如医疗保健中。在这项工作中,我们引入了自适应精确布尔评判标准:一种通过使用少量有针对性的评判标准问题来识别模型回应缺口,从而简化人类和自动化评估开放问题的评估框架。我们的方法基于在更广泛评估环境中进行的工作,将一组复杂的评估目标与一组更精确、细致且可通过简单布尔响应回答的目标进行对比。我们在代谢健康领域验证了这种方法,该领域包括糖尿病、心血管疾病和肥胖症。结果显示,自适应精确布尔评判标准在专家和非专家评估者之间以及在自动化评估中获得了更高的评价者间一致性,与传统的李克特量表相比,所需评价时间大约为李克特量表方法的一半。这种增强的效率,特别是在自动化评估和非专家贡献方面,为在医疗保健领域更广泛和成本效益更高的评估LLMs铺平了道路。