摘要
arXiv:2503.05383v4 宣告类型: 修订
摘要: 我们介绍了注意力视觉语言模型代理(AVA),这是一种多模态的StarCraft II代理,它使人工代理的感知与人类游戏体验相一致。传统的框架,如SMAC,依赖于与人类感知差异很大的抽象状态表示,从而限制了代理行为的生态有效性。我们的代理通过引入RGB视觉输入和自然语言观察来解决这一限制,这些观察更贴近人类在游戏过程中认知过程的模拟。AVA架构由三个集成组件构成:(1) 一个增强有专门自注意力机制以进行战略单位目标设定和战场评估的视觉语言模型;(2) 一个检索增强生成系统,利用特定领域的StarCraft II知识来指导战术决策;以及(3) 一个动态角色任务分配系统,使代理能够协同工作。在我们提出的AVACraft环境中,该环境包含21个多元模态的StarCraft II场景,实验评估表明,在以基础模型(具体为Qwen-VL和GPT-4o)为动力的情形下,AVA可以执行复杂的战术机动,而无需显式的训练,其性能与传统的多代理强化学习方法相当,后者需要大量的训练迭代。本工作为开发与人类相匹配的StarCraft II代理奠定了基础,并推进了多元模态游戏AI的更广泛研究议程。我们的实现可在 https://github.com/camel-ai/VLM-Play-StarCraft2 获得。