摘要
arXiv:2505.00467v1 宣告类型:交叉
摘要:我们介绍了在2024年机器学习健康大会(Machine Learning for Healthcare Conference)上于2024年8月15日举行的名为“针对健康领域的大型语言模型进行红队测试”的预会议工作坊的设计过程和发现。工作坊参与者包括计算和临床专业知识的混合组合,他们试图发现漏洞——即真实临床提示,其中大型语言模型(LLM)输出的响应可能对临床造成危害。与临床医师合作进行红队测试有助于识别LLM漏洞,而这些漏洞可能不会被缺乏临床专业知识的LLM开发者所识别。我们报告了发现的漏洞,对其进行分类,并展示了对所有提供的LLM进行复现研究以评估这些漏洞的结果。