LLM2D

摘要

我们关注目标导向型智能体，这类智能体在决策规划期间会生成目标来指导其行为，并在评估期间实现更好的泛化能力。这些智能体的训练不当会导致妄想：智能体可能会对目标产生错误的信念，而无法正确地摒弃这些信念，从而导致不良行为和有害的分布外泛化。我们通过在精心控制的环境中使用直观的例子来识别不同类型的妄想，并调查其成因。我们演示了如何解决通过后见式重标记训练的智能体的妄想问题，后见式重标记是训练目标导向型强化学习智能体的一种主流方法。我们通过实验证实了所提出的解决方案在纠正妄想行为和改进分布外泛化方面的有效性。