LLM2D

摘要

arXiv:2505.01162v1 类别: cross 摘要：导向向量是一种在推理时对语言模型行为进行对齐的有希望的方法。在本文中，我们提出了一种框架来评估导向向量作为对齐机制的局限性。通过使用变压器钩介入和反义词基础的功能向量框架，我们评估了提示结构和上下文复杂性在导向效果中的作用。我们的发现表明，导向向量对于特定的对齐任务（如价值对齐）是有前景的，但在LLMs的一般对齐中，特别是在复杂场景中，可能无法提供一个稳健的基础。我们为未来关于推理模型导向能力的研究奠定了方法论基础。