LLM2D
用生成的游戏测量通用智能
Measuring General Intelligence with Generated Games
作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07215v1

摘要

arXiv:2505.07215v1 宣告类型: 新 摘要: 我们介绍了gg-bench,这是一个游戏环境集合,旨在评估语言模型的通用推理能力。与大多数静态基准不同,gg-bench 是一个数据生成过程,新的评估实例可以随时生成。具体而言,通过以下步骤生成合成的gg-bench:(1) 使用大型语言模型 (LLM) 生成新颖游戏的自然语言描述,(2) 使用LLM将每款游戏编码实现为一个Gym环境,以及(3) 使用自博弈训练强化学习 (RL) 剂量,针对生成的游戏。我们通过让模型提供游戏描述、当前棋盘状态和有效移动列表来评估语言模型,然后模型输出它们希望采取的移动。gg-bench 具有挑战性:像GPT-4o 和Claude 3.7 Sonnet这样的先进LLM在上下文学习的情况下,在gg-bench 上的胜率为7-9%,而像o1、o3-mini 和DeepSeek-R1这样的推理模型在gg-bench上的平均胜率是31-36%。我们发布了生成的游戏、数据生成过程和评估代码,以便支持未来的工作并对我们的基准进行进一步扩展。