LLM2D
利用预训练基础模型培养强化学习中的内在动机
Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models
作者: Alain Andres, Javier Del Ser
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2410.07404v2

摘要

大型语言模型(LLM)已经在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法…… 强化学习中的探索仍然是一个重大挑战,尤其是在外部奖励稀疏或不存在的环境中。近年来基础模型(如CLIP)的兴起,为利用预训练的、语义丰富的嵌入提供了机会,这些嵌入封装了广泛且可重用的知识。在这项工作中,我们探索了这些基础模型不仅可以驱动探索,还可以分析情景新颖性项在增强智能体探索有效性方面的关键作用的潜力。我们还研究了向内在模块提供完整的状态信息(而不仅仅是部分观察)是否可以改善探索,尽管处理大型状态空间内的小变化存在困难。我们在MiniGrid领域进行的实验表明,内在模块可以有效地利用完整的状态信息,在学习最优策略的同时显著提高样本效率。此外,我们表明,基础模型提供的嵌入有时甚至比智能体在训练过程中构建的嵌入更好,进一步加快了学习过程,尤其是在与情景新颖性项结合以增强探索时。