LLM2D

摘要

本文研究了深度强化学习（DRL）在电子游戏中的语义聚类特性，丰富了我们对DRL内部动力学的理解，并提高了其可解释性。在这个语境下，语义聚类指的是神经网络根据语义相似性对视频输入进行内部分组的固有能力。为了实现这一目标，我们提出了一种新颖的DRL架构，该架构集成了一个语义聚类模块，该模块既能降低特征维数，又能进行在线聚类。该模块无缝地集成到DRL训练管道中，解决了先前基于t-SNE的分析方法中观察到的不稳定性问题，并消除了对语义分析进行大量人工标注的必要性。通过实验，我们验证了所提出的模块的有效性和DRL在电子游戏中的语义聚类特性。此外，基于这些特性，我们引入了新的分析方法来帮助理解策略的层次结构和特征空间中的语义分布。