摘要
随着大型语言模型 (LLM) 能力不断提升并在医疗领域得到应用,评估其医疗安全性变得至关重要,因为它们对个人和公共健康、患者安全以及人权具有深远的影响。然而,人们对 LLM 医疗安全的概念几乎没有了解,更不用说如何评估和改进它了。为了填补这一空白,我们首先基于美国医学会提出的医学伦理原则,定义了 LLM 中的医疗安全概念。然后,我们利用这一理解,引入了 MedSafetyBench,这是第一个旨在衡量 LLM 医疗安全性的基准数据集。我们通过使用 MedSafetyBench 来评估和改进 LLM 的医疗安全性,证明了它的实用性。我们的结果表明,公开可用的医疗 LLM 并不符合医疗安全标准,而使用 MedSafetyBench 对其进行微调可以提高它们的医疗安全性,同时保持其医疗性能。通过引入这个新的基准数据集,我们的工作使人们能够系统地研究 LLM 中的医疗安全现状,并激发该领域的未来工作,为减轻 LLM 在医学中的安全风险铺平道路。基准数据集和代码可在 https://github.com/AI4LIFE-GROUP/med-safety-bench 获取。