LLM2D
Home
Arxiv
返回列表
CBF-LLM:用于语言模型对齐的安全控制
CBF-LLM: Safe Control for LLM Alignment
作者:
Yuya Miyaoka, Masaki Inoue
发布日期:
10/8/2024
arXiv ID:
oai:arXiv.org:2408.15625v2
摘要
本文提出了一种基于控制的框架,通过利用控制障碍函数 (CBF) 来对大型语言模型 (LLM) 进行对齐,以确保用户期望的文本生成。该框架将基于 CBF 设计的安全过滤器应用于基线 LLM 的输出生成,即标记序列,目的是对生成的文本进行干预。整个文本生成系统使用 Llama 3 和 RoBERTa 模型实现,源代码可在 https://github.com/Mya-Mya/CBF-LLM 获取。实验表明,该框架具有控制能力,并且可以有效减少用户指定对齐任务所需的干预次数。
查看原文
下载 PDF