LLM2D
一种可扩展的健康语言模型评估框架
A Scalable Framework for Evaluating Health Language Models
作者: Neil Mallinar, A. Ali Heydari, Xin Liu, Anthony Z. Faranesh, Brent Winslow, Nova Hammerquist, Benjamin Graef, Cathy Speed, Mark Malhotra, Shwetak Patel, Javier L. Prieto, Daniel McDuff, Ahmed A. Metwally
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23339v1

摘要

arXiv:2503.23339v1 通知类型: 新 摘要: 大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期研究表明,在提供包含生活方式、生物标志物和上下文的患者特定健康信息时,它们有可能生成有用且个性化的响应。随着基于LLM的健康应用的日益普及,有效的单向评估方法至关重要,这有助于在多个维度确保响应质量,包括准确性、个性化和安全性。目前,对开放文本响应的评估很大程度上依赖于人类专家。这种方法引入了人为因素,并且常常成本高昂、劳动密集,不利于大规模应用,尤其是在需要领域专业知识的复杂领域如医疗保健,其中响应评估需要考虑多方面的患者数据。在本工作中,我们引入了自适应精确布尔评判标准,这是一种通过使用一组针对性的问题来识别模型响应中的差距,从而简化人工和自动评估开放问题的评估框架。我们的方法基于在更通用评估设定中的一些最近研究,将一组复杂的评估目标与一组更精确、可由简单布尔响应回答的细粒度目标进行对比。我们在代谢健康领域验证了这一方法,代谢健康涵盖了糖尿病、心血管疾病和肥胖症。我们的结果表明,自适应精确布尔评判标准能够比传统的Likert量表在专家和非专家人类评价者之间获得更高的评定一致性,并在自动化评估中具有更高的一致性,同时所需评估时间约为Likert方法的一半。这种增强的效率,特别是在自动化评估和非专家贡献方面,为更广泛和成本效益更高的LLM评估铺平了道路。