LLM2D

摘要

随着大型语言模型 (LLM) 能力不断提升并在医疗领域得到应用，评估其医疗安全性变得至关重要，因为它们对个人和公共健康、患者安全以及人权具有深远的影响。然而，人们对 LLM 医疗安全的概念几乎没有了解，更不用说如何评估和改进它了。为了填补这一空白，我们首先基于美国医学会提出的医学伦理原则，定义了 LLM 中的医疗安全概念。然后，我们利用这一理解，引入了 MedSafetyBench，这是第一个旨在衡量 LLM 医疗安全性的基准数据集。我们通过使用 MedSafetyBench 来评估和改进 LLM 的医疗安全性，证明了它的实用性。我们的结果表明，公开可用的医疗 LLM 并不符合医疗安全标准，而使用 MedSafetyBench 对其进行微调可以提高它们的医疗安全性，同时保持其医疗性能。通过引入这个新的基准数据集，我们的工作使人们能够系统地研究 LLM 中的医疗安全现状，并激发该领域的未来工作，为减轻 LLM 在医学中的安全风险铺平道路。基准数据集和代码可在 https://github.com/AI4LIFE-GROUP/med-safety-bench 获取。