摘要
强化学习在动态环境中的决策过程取得了革命性的进展,然而在没有明确反馈信号的情况下,它往往难以自主检测和实现目标。例如,在源项估计问题中,缺乏精确的环境信息使得提供明确的反馈信号以及定义和评估源位置的确定方式变得困难。为了应对这一挑战,我们开发了自主目标检测与终止(AGDC)模块,通过引入自我反馈机制,增强了各种强化学习算法在任务完成时自主检测和终止目标的能力。我们的方法通过近似代理的信念,有效地识别并终止未定义的目标,显著提升了强化学习算法在反馈有限的环境中的能力。为了验证我们方法的有效性,我们将AGDC与深度Q网络、近端策略优化和深度确定性策略梯度算法集成,并在源项估计问题上评估了其性能。实验结果表明,AGDC增强的强化学习算法在成功率、平均行进距离和搜索时间方面显著优于传统的统计方法,如信息论、熵论和双控制策略,以及非统计的随机动作选择方法。这些改进凸显了AGDC在复杂现实场景中的有效性和效率。