LLM2D

摘要

arXiv:2409.13754v1 公告类型: 新论文摘要: 先前的研究表明，对于许多现实世界的问题，POMDPs可以通过在线算法快速且接近最优地解决。然而，在一个重要的问题集合中，当代理收集信息与需要使用该信息之间存在较大时间延迟时，这些解决方案未能充分考虑信息的价值。因此，即使信息收集行动在最佳策略中至关重要，现有解决方案也会忽略这些行动，导致代理做出次优决策。在本研究中，我们开发了一种新颖的解决方案，通过引入一种新的算法来纠正这一问题，该算法通过在POMCP算法中加入熵来改进现有的在线规划，更好地反映信息收集行动的价值。我们在走廊问题中测试了这一解决方案。结果表明，我们的新算法显著优于POMCP。