LLM2D
安全可靠大型语言模型的全球性挑战:赛道一
Global Challenge for Safe and Secure LLMs Track 1
作者: Xiaojun Jia, Yihao Huang, Yang Liu, Peng Yan Tan, Weng Kuan Yau, Mun-Thye Mak, Xin Ming Sim, Wee Siong Ng, See Kiong Ng, Hanqing Liu, Lifeng Zhou, Huanqian Yan, Xiaobing Sun, Wei Liu, Long Wang, Yiming Qian, Yong Liu, Junxiao Yang, Zhexin Zhang, Leqi Lei, Renmiao Chen, Yida Lu, Shiyao Cui, Zizhou Wang, Shaohua Li, Yan Wang, Rick Siow Mong Goh, Liangli Zhen, Yingjie Zhang, Zhe Zhao
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14502v1

摘要

本文介绍了安全可靠大型语言模型(LLM)全球挑战赛,这是一项由新加坡人工智能(AISG)和网络安全研发项目办公室(CRPO)发起的开创性倡议,旨在促进针对自动化越狱攻击的高级防御机制的开发。随着LLM在医疗、金融和公共管理等关键领域的日益融合,确保这些模型能够抵御对抗性攻击对于防止滥用和维护道德标准至关重要。此次竞赛侧重于两个不同的赛道,旨在评估和增强LLM安全框架的稳健性。赛道1的任务是让参与者开发自动化方法来探测LLM漏洞,诱导其产生不良反应,有效测试LLM现有安全协议的极限。参与者面临的挑战是设计出能够绕过各种场景中内容防护的技术,从攻击性语言到虚假信息和非法活动。通过这一过程,赛道1旨在加深对LLM漏洞的理解,并为创建更强大的模型提供见解。