LLM2D

摘要

arXiv:2505.07215v1 宣告类型: 新摘要: 我们介绍了gg-bench，这是一个游戏环境集合，旨在评估语言模型的通用推理能力。与大多数静态基准不同，gg-bench 是一个数据生成过程，新的评估实例可以随时生成。具体而言，通过以下步骤生成合成的gg-bench：(1) 使用大型语言模型 (LLM) 生成新颖游戏的自然语言描述，(2) 使用LLM将每款游戏编码实现为一个Gym环境，以及(3) 使用自博弈训练强化学习 (RL) 剂量，针对生成的游戏。我们通过让模型提供游戏描述、当前棋盘状态和有效移动列表来评估语言模型，然后模型输出它们希望采取的移动。gg-bench 具有挑战性：像GPT-4o 和Claude 3.7 Sonnet这样的先进LLM在上下文学习的情况下，在gg-bench 上的胜率为7-9%，而像o1、o3-mini 和DeepSeek-R1这样的推理模型在gg-bench上的平均胜率是31-36%。我们发布了生成的游戏、数据生成过程和评估代码，以便支持未来的工作并对我们的基准进行进一步扩展。