摘要
大型语言模型 (LLMs) 的应用已广泛应用于各个领域。然而,LLMs 的基本能力,例如可控性,仍然有限。为了解决这个问题,我们提出了“自控制器”,这是一个新颖的代理框架,将自我意识引入 LLMs 的推理逻辑。这项工作的核心思想是根据 LLM 的响应来维护状态,使 LLM 能够意识到当前状态,并在多轮思维链范式中逐步思考。我们在文本长度状态上的实验表明了自控制器的可控性和有效性。我们进一步实施了一种二分查找算法,以基于文本长度状态的线性性和单调性来加速生成过程。自控制器的另一个优势是利用 DeepSeek 的上下文缓存技术,当一组对话共享相同的上下文前缀时,可以显着节省计算令牌消耗。从理论上讲,我们证明在这种情况下,额外的时空复杂度为 $O(c \log n)$。信封估计结果表明,我们的方法的令牌消耗不超过单轮生成的令牌消耗的两倍。此外,我们在单词约束上的消融研究表明,自控制器在所有基础模型中都具有持续的可控性。