LLM2D
Enigme: 用于评估语言模型推理能力的生成性文本谜题
Enigme: Generative Text Puzzles for Evaluating Reasoning in Language Models
作者: John Hawkins
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04914v1

摘要

arXiv:2505.04914v1 宣言类型: 新 摘要:Transformer解码器语言模型是文本生成型人工智能的核心创新。这些模型正在被部署为许多应用中的通用智能系统。它们的实用性在于能够理解自然语言指令,并利用人类文本数据中嵌入的推理能力来应用于各种新任务。为了理解这种生成推理方法的局限性,我们主张需要考虑这些系统的设计约束。通过考虑transformer解码器模型的潜在变量结构,我们可以设计出能够探测其推理能力边界的任务。我们提出了一种开源库enigme,用于生成基于文本的谜题,这些谜题可用于训练和评估transformer解码器模型及未来AI架构中的推理能力。