LLM2D

摘要

arXiv:2505.00467v1 宣告类型：交叉摘要：我们介绍了在2024年机器学习健康大会（Machine Learning for Healthcare Conference）上于2024年8月15日举行的名为“针对健康领域的大型语言模型进行红队测试”的预会议工作坊的设计过程和发现。工作坊参与者包括计算和临床专业知识的混合组合，他们试图发现漏洞——即真实临床提示，其中大型语言模型（LLM）输出的响应可能对临床造成危害。与临床医师合作进行红队测试有助于识别LLM漏洞，而这些漏洞可能不会被缺乏临床专业知识的LLM开发者所识别。我们报告了发现的漏洞，对其进行分类，并展示了对所有提供的LLM进行复现研究以评估这些漏洞的结果。