LLM2D
Home
Arxiv
返回列表
关于语言模型对齐中引导的局限性
On the Limitations of Steering in Language Model Alignment
作者:
Chebrolu Niranjan, Kokil Jaidka, Gerard Christopher Yeo
发布日期:
5/5/2025
arXiv ID:
oai:arXiv.org:2505.01162v1
摘要
arXiv:2505.01162v1 类别: cross 摘要:导向向量是一种在推理时对语言模型行为进行对齐的有希望的方法。在本文中,我们提出了一种框架来评估导向向量作为对齐机制的局限性。通过使用变压器钩介入和反义词基础的功能向量框架,我们评估了提示结构和上下文复杂性在导向效果中的作用。我们的发现表明,导向向量对于特定的对齐任务(如价值对齐)是有前景的,但在LLMs的一般对齐中,特别是在复杂场景中,可能无法提供一个稳健的基础。我们为未来关于推理模型导向能力的研究奠定了方法论基础。
查看原文
下载 PDF