LLM2D

摘要

arXiv:2502.04998v1 宣告类型: 新摘要: 我们提出了一个称为顺序容错过程规划(SFIPP)的规划问题。SFIPP 描述了一种在许多顺序多阶段决策问题中常见的奖励结构，只有当所有阶段都成功时，规划才被认为成功。这种奖励结构不同于经典的加性奖励结构，并且在药物/材料发现、安全、以及质量关键型产品设计等重要应用中频繁出现。我们设计了在每个阶段需要在不同行动之间进行选择，而这些行动的成功概率未知时的可证明紧致的在线算法。我们不仅在行动行为确定的基础情况下进行了设计，还在行动结果具有概率性的情况下进行了设计，在这种情况下，我们通过使用多臂赌博机算法有效地平衡了探索以学习和利用以规划之间的关系。在我们的实证评估中，我们展示了我们开发的专门算法，这些算法利用了SFIPP实例的额外结构信息，比我们的通用算法表现更优。