LLM2D
基于大型语言模型评估聊天机器人的操作风险提案
A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models
作者: Pedro Pinacho-Davidson, Fernando Gutierrez, Pablo Zapata, Rodolfo Vergara, Pablo Aqueveque
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04784v1

摘要

arXiv:2505.04784v1 安全公告类型:交叉 摘要:生成式人工智能(Gen AI)和大型语言模型(LLMs)的出现使更高级的聊天机器人能够实现类似于人类的交互。然而,这些对话代理引入了一整套操作风险,这些风险延伸到传统的网络安全考量之外。在这项工作中,我们提出了一种新颖的、经度量化的风险评估指标,该指标同时评估对三个关键利益相关者的潜在威胁:服务提供组织、最终用户和第三方。我们的方法考虑了在诱导聊天机器人错误行为所需的的技术复杂性——从未诱导的失败到高级提示注入攻击——以及目标行业、用户年龄范围和漏洞严重性等上下文因素。为了验证我们的指标,我们利用Garak(一个开源的大语言模型漏洞测试框架)来进行测试。进一步增强了Garak以捕捉各种威胁向量(例如,错误信息、代码生成错误、社会工程和恶意代码生成)。我们的方法在涉及使用检索增强生成(RAG)的聊天机器人的情景中进行了展示,展示了聚合的风险评分如何指导短期缓解和更长期的模型设计和部署改进。结果强调了实现安全可靠的AI驱动对话系统的多维度风险评估的重要性。