摘要
arXiv:2503.23339v1 通知类型: 新
摘要: 大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期研究表明,在提供包含生活方式、生物标志物和上下文的患者特定健康信息时,它们有可能生成有用且个性化的响应。随着基于LLM的健康应用的日益普及,有效的单向评估方法至关重要,这有助于在多个维度确保响应质量,包括准确性、个性化和安全性。目前,对开放文本响应的评估很大程度上依赖于人类专家。这种方法引入了人为因素,并且常常成本高昂、劳动密集,不利于大规模应用,尤其是在需要领域专业知识的复杂领域如医疗保健,其中响应评估需要考虑多方面的患者数据。在本工作中,我们引入了自适应精确布尔评判标准,这是一种通过使用一组针对性的问题来识别模型响应中的差距,从而简化人工和自动评估开放问题的评估框架。我们的方法基于在更通用评估设定中的一些最近研究,将一组复杂的评估目标与一组更精确、可由简单布尔响应回答的细粒度目标进行对比。我们在代谢健康领域验证了这一方法,代谢健康涵盖了糖尿病、心血管疾病和肥胖症。我们的结果表明,自适应精确布尔评判标准能够比传统的Likert量表在专家和非专家人类评价者之间获得更高的评定一致性,并在自动化评估中具有更高的一致性,同时所需评估时间约为Likert方法的一半。这种增强的效率,特别是在自动化评估和非专家贡献方面,为更广泛和成本效益更高的LLM评估铺平了道路。