LLM2D

摘要

arXiv:2406.08315v2 通告类型: 替换摘要: 我们提出了ε-retrain，这是一种探索策略，在优化策略时鼓励行为偏好，并提供了单调改进的保证。为此，我们引入了一种迭代过程，用于收集重培训区域——即智能体未满足行为偏好的状态空间部分。我们的方法使用衰减因子ε在典型的均匀重启状态分布和重培训区域之间切换，允许智能体在违反偏好情况时进行重培训。我们还利用神经网络的形式验证来证明地量化智能体遵守这些行为偏好程度的程度。在数百个种子在移动、电力网络和导航任务上的实验表明，我们的方法可以产生表现出显著性能和采样效率改进的智能体。