LLM2D

摘要

大型生成模型能力的增强及其日益广泛的部署引发了对其可靠性、安全性及潜在误用的担忧。为了解决这些问题，最近的研究提出通过引导模型激活来控制模型生成，从而有效地诱导或阻止生成的输出中概念或行为的出现。本文介绍了激活传输 (AcT) ，这是一种由最优传输理论引导的激活引导框架，它概括了许多之前的激活引导工作。AcT 与模态无关，并以可忽略的计算开销提供对模型行为的细粒度控制，同时最大程度地减少对模型能力的影响。我们通过解决大型语言模型 (LLM) 和文本到图像扩散模型 (T2I) 中的关键挑战，通过实验展示了我们方法的有效性和多功能性。对于 LLM，我们证明 AcT 可以有效地减轻毒性，诱导任意概念，并提高其真实性。在 T2I 中，我们展示了 AcT 如何实现细粒度的风格控制和概念否定。