LLM2D
面向医疗领域的红队测试大型语言模型
Red Teaming Large Language Models for Healthcare
作者: Vahid Balazadeh, Michael Cooper, David Pellow, Atousa Assadi, Jennifer Bell, Jim Fackler, Gabriel Funingana, Spencer Gable-Cook, Anirudh Gangadhar, Abhishek Jaiswal, Sumanth Kaja, Christopher Khoury, Randy Lin, Kaden McKeen, Sara Naimimohasses, Khashayar Namdar, Aviraj Newatia, Allan Pang, Anshul Pattoo, Sameer Peesapati, Diana Prepelita, Bogdana Rakova, Saba Sadatamin, Rafael Schulman, Ajay Shah, Syed Azhar Shah, Syed Ahmar Shah, Babak Taati, Balagopal Unnikrishnan, Stephanie Williams, Rahul G Krishnan
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00467v1

摘要

arXiv:2505.00467v1 宣告类型:交叉 摘要:我们介绍了在2024年机器学习健康大会(Machine Learning for Healthcare Conference)上于2024年8月15日举行的名为“针对健康领域的大型语言模型进行红队测试”的预会议工作坊的设计过程和发现。工作坊参与者包括计算和临床专业知识的混合组合,他们试图发现漏洞——即真实临床提示,其中大型语言模型(LLM)输出的响应可能对临床造成危害。与临床医师合作进行红队测试有助于识别LLM漏洞,而这些漏洞可能不会被缺乏临床专业知识的LLM开发者所识别。我们报告了发现的漏洞,对其进行分类,并展示了对所有提供的LLM进行复现研究以评估这些漏洞的结果。