LLM2D
通过激活输送来控制语言和扩散模型
Controlling Language and Diffusion Models by Transporting Activations
作者: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2410.23054v2

摘要

大型生成模型能力的增强及其日益广泛的部署引发了对其可靠性、安全性及潜在误用的担忧。为了解决这些问题,最近的研究提出通过引导模型激活来控制模型生成,从而有效地诱导或阻止生成的输出中概念或行为的出现。本文介绍了激活传输 (AcT) ,这是一种由最优传输理论引导的激活引导框架,它概括了许多之前的激活引导工作。AcT 与模态无关,并以可忽略的计算开销提供对模型行为的细粒度控制,同时最大程度地减少对模型能力的影响。我们通过解决大型语言模型 (LLM) 和文本到图像扩散模型 (T2I) 中的关键挑战,通过实验展示了我们方法的有效性和多功能性。对于 LLM,我们证明 AcT 可以有效地减轻毒性,诱导任意概念,并提高其真实性。在 T2I 中,我们展示了 AcT 如何实现细粒度的风格控制和概念否定。