LLM2D
基于特征的预测模型在临床培训LLM中检测 Jailbreak 的方法
Jailbreak Detection in Clinical Training LLMs Using Feature-Based Predictive Models
作者: Tri Nguyen, Lohith Srikanth Pentapalli, Magnus Sieverding, Laurah Turner, Seth Overla, Weibing Zheng, Chris Zhou, David Furniss, Danielle Weber, Michael Gharib, Matt Kelleher, Michael Shukis, Cameron Pawlik, Kelly Cohen
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00010v1

摘要

arXiv:2505.00010v1 类型: cross 摘要:大型语言模型(LLMs)的越狱行为威胁着其在教育等敏感领域中的安全使用,这使得用户能够绕过伦理保护措施。本研究关注于检测基于LLMs的2-Sigma临床教育平台中的越狱行为,该平台通过LLMs模拟患者互动。我们在158次对话中对2,300多个提示语进行了标注,使用了四种与越狱行为密切相关的语言变量。提取的特征被用来训练多种预测模型,包括决策树、模糊逻辑分类器、提升方法和逻辑回归。结果表明,基于特征的预测模型始终优于提示工程,其中模糊决策树在总体性能上表现最好。我们的研究结果表明,基于语言特征的模型是检测越狱的有效且可解释的替代方案。我们建议未来的工作探索结合基于提示的灵活性与基于规则的稳健性的混合框架,以便在教育LLMs中进行实时、频谱化的越狱监控。