LLM2D

摘要

arXiv:2504.19483v1 摘要类型: cross 摘要：大型语言模型（LLMs）的最近进展导致了日益拟人化的语言，特别是在LLMs推理能力方面的表现。然而，是否认为推理在LLMs中本就不同，这一话题广泛存在争议。我们提出了一种表示工程方法，其中在处理推理任务时，从LLM的残差流中读取模型激活。这些激活被用于推导出一个控制向量，该向量在推理时间作为干预措施应用于模型，以调节模型的表示空间，从而提高特定任务的表现。我们发布了推导控制向量和分析模型表示的代码。该方法使我们能够提高推理基准测试的表现，并通过KL散度和熵等指标来评估控制向量如何影响模型最终的logit分布。我们对Mistral-7B-Instruct和一系列Pythia模型在归纳、演绎和数学推理任务上应用了控制向量。结果显示，可以通过调节激活来在一定程度上控制LLM，以提升其感知的推理能力。这种干预依赖于在正确解决任务时可靠地提取模型的典型状态的能力。我们的结果表明，可以像调整其他由LLMs执行的信息处理任务一样调整推理性能，并展示了我们能够通过在残差流中进行简单的干预而无需额外训练来提高特定任务的表现。