LLM2D

摘要

arXiv:2503.23339v1 通知类型: 新摘要: 大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期研究表明，在提供包含生活方式、生物标志物和上下文的患者特定健康信息时，它们有可能生成有用且个性化的响应。随着基于LLM的健康应用的日益普及，有效的单向评估方法至关重要，这有助于在多个维度确保响应质量，包括准确性、个性化和安全性。目前，对开放文本响应的评估很大程度上依赖于人类专家。这种方法引入了人为因素，并且常常成本高昂、劳动密集，不利于大规模应用，尤其是在需要领域专业知识的复杂领域如医疗保健，其中响应评估需要考虑多方面的患者数据。在本工作中，我们引入了自适应精确布尔评判标准，这是一种通过使用一组针对性的问题来识别模型响应中的差距，从而简化人工和自动评估开放问题的评估框架。我们的方法基于在更通用评估设定中的一些最近研究，将一组复杂的评估目标与一组更精确、可由简单布尔响应回答的细粒度目标进行对比。我们在代谢健康领域验证了这一方法，代谢健康涵盖了糖尿病、心血管疾病和肥胖症。我们的结果表明，自适应精确布尔评判标准能够比传统的Likert量表在专家和非专家人类评价者之间获得更高的评定一致性，并在自动化评估中具有更高的一致性，同时所需评估时间约为Likert方法的一半。这种增强的效率，特别是在自动化评估和非专家贡献方面，为更广泛和成本效益更高的LLM评估铺平了道路。