LLM2D

摘要

本文提出了一种基于控制的框架，通过利用控制障碍函数 (CBF) 来对大型语言模型 (LLM) 进行对齐，以确保用户期望的文本生成。该框架将基于 CBF 设计的安全过滤器应用于基线 LLM 的输出生成，即标记序列，目的是对生成的文本进行干预。整个文本生成系统使用 Llama 3 和 RoBERTa 模型实现，源代码可在 https://github.com/Mya-Mya/CBF-LLM 获取。实验表明，该框架具有控制能力，并且可以有效减少用户指定对齐任务所需的干预次数。