摘要
arXiv:2409.13754v1 公告类型: 新论文 摘要: 先前的研究表明,对于许多现实世界的问题,POMDPs可以通过在线算法快速且接近最优地解决。然而,在一个重要的问题集合中,当代理收集信息与需要使用该信息之间存在较大时间延迟时,这些解决方案未能充分考虑信息的价值。因此,即使信息收集行动在最佳策略中至关重要,现有解决方案也会忽略这些行动,导致代理做出次优决策。在本研究中,我们开发了一种新颖的解决方案,通过引入一种新的算法来纠正这一问题,该算法通过在POMCP算法中加入熵来改进现有的在线规划,更好地反映信息收集行动的价值。我们在走廊问题中测试了这一解决方案。结果表明,我们的新算法显著优于POMCP。