LLM2D

摘要

arXiv:2502.04402v1 宣告类型：交叉学科摘要：尽管取得了令人难以置信的进步，许多神经架构仍无法在训练分布之外进行良好的泛化。因此，在正确且可泛化的方式下进行学习，仍是当前机器学习领域的基本挑战之一。在这方面，逻辑谜题提供了一个绝佳的测试平台，因为我们可以完全理解和控制学习环境。因此，它们允许评估在先前未见过的、更大且更难的谜题上的性能，这些谜题遵循相同的底层规则。由于传统方法通常难以表示此类可扩展的逻辑结构，我们提出使用图基方法来建模这些谜题。然后，我们探讨使所提议的模型能够在强化学习环境中学习可泛化解决方案的关键因素。我们的研究集中在架构的归纳偏差、不同的奖励系统以及递归建模在促进顺序推理中所扮演的角色的影响上。通过广泛的实验，我们展示了这些元素如何有助于在越来越复杂的谜题上的成功外推。这些见解和框架提供了一种系统的方法来设计能够进行超越内插的可泛化推理的学习系统。