摘要
arXiv:2504.15330v1 Announce Type: cross
摘要:大型语言模型(LLMs)的出现显著影响了包括医疗在内的许多领域,通过增强自动化系统处理和生成类人类文本的能力。然而,尽管取得了进展,LLMs在医疗环境中的可靠性和准确性仍然存在关键问题。当前的评估方法往往缺乏稳健性,无法提供LLM性能的全面评估,这在临床环境中可能导致潜在风险。为了解决这些问题,我们提出了Med-CoDE,一种专门设计的评估框架,用于评估医疗LLMs。该框架利用批判性方法来定量测量模型生成的响应与已建立的医疗标准真相之间的分歧程度。该框架同时捕捉了医疗环境中的准确性和可靠性。提出的评估框架旨在通过提供一种系统的方法来评估医疗LLMs的质量和可信度,填补现有的评估缺口。通过广泛的实验和案例研究,我们展示了该框架在提供全面、可靠地评估医疗LLMs方面的实用性。