LLM2D
提升ARC性能取决于视角
Boosting Performance on ARC is a Matter of Perspective
作者: Daniel Franzen, Jan Disselhoff, David Hartmann
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07859v1

摘要

arXiv:2505.07859v1 任务类型:交叉 摘要:抽象与推理语料库(ARC-AGI)对大型语言模型(LLMs)构成了重大挑战,暴露了它们在抽象推理能力上的局限性。在此项工作中,我们通过在整个训练、生成和评分阶段使用任务特定的数据增强方法,采用了深度优先搜索算法生成多样且高概率的候选解决方案。此外,我们不仅将LLM用作生成器,还用作评分器,利用其输出概率来选择最有前途的解决方案。我们的方法在公共ARC-AGI评估集中达到了71.6%(286.5/400已完成任务)的分数,展示了在现有公开方法中处于领先水平的性能。尽管同时进行的内部工作报告了更高的分数,但我们的方法通过其透明性、可重现性和极低的推理成本而脱颖而出,平均而言,在可获得的硬件上(假设Nvidia 4090 GPU的单价为每小时36美分),每任务的推理成本仅为约2美分。