LLM2D
面向信任的自适应防护栏用于大型语言模型
Trust-Oriented Adaptive Guardrails for Large Language Models
作者: Jinwei Hu, Yi Dong, Xiaowei Huang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2408.08959v2

摘要

arXiv:2408.08959v2 安全类型: 替换 摘要: 作为一种新兴机制,Guardrail 设计旨在通过调节有害或有毒的响应,确保大型语言模型(LLMs)与人类价值观对齐,它在设计中需要一种社会技术方法。本文解决了一个关键问题:现有的 Guardrail 缺乏一套确立的方法来满足不同用户群体的多样化需求,特别是关于访问权限的问题。本研究依托于信任建模(主要在“社会”方面)并通过对检索增强生成的在线上下文学习进行增强,在“技术”方面引入了一种自适应 Guardrail 机制,以根据用户的信任度指标动态调节对敏感内容的访问。用户的信任度指标,作为一种新颖的直接互动信任和权威验证信任的组合,使系统能够根据用户的真实性以及他们询问的具体情境,精确地调整内容审核的严格程度。我们的实证评估表明,这种自适应 Guardrail 在满足多样化用户需求方面表现出色,优于现有的 Guardrail,同时通过上下文感知的知识库来保护敏感信息并精确管理潜在的危险内容。据我们所知,这是首次将信任导向的概念引入到 Guardrail 系统中,提供了一种可扩展的解决方案,丰富了下一代 LLM 服务伦理部署的讨论。