LLM2D

摘要

arXiv:2410.18242v2 类型：替换摘要：在不完善信息的情况下，自主代理和人类合作伙伴的战略协调可以建模为轮次制合作博弈。我们将不完善信息下的轮次制博弈扩展为允许每个轮次执行多次行动，而不是一次行动。这一扩展允许使用多步意图，我们假设这将提高在长期任务中的性能。为了在扩展后的博弈中综合出代理的合作策略，我们提出了一种方法，该方法包含一个记忆模块，用于维护对环境动态的运行中概率信念，以及一种名为IntentMCTS的在线规划算法。该算法通过借助任何传达的多步意图进行奖励增强来战略性地选择下一个行动，同时考虑当前信念。在夜精灵测试床中进行的代理到代理模拟表明，IntentMCTS所需的动作步骤和控制切换次数少于基准方法。人机用户研究也证实了这些发现，与启发式基准相比，成功率达到18.52%的提高，并且比单步先驱工作提高5.56%。参与者还报告认知负担、挫败感更低，对IntentMCTS代理伙伴的满意度更高。