LLM2D

摘要

arXiv:2505.07859v1 任务类型：交叉摘要：抽象与推理语料库（ARC-AGI）对大型语言模型（LLMs）构成了重大挑战，暴露了它们在抽象推理能力上的局限性。在此项工作中，我们通过在整个训练、生成和评分阶段使用任务特定的数据增强方法，采用了深度优先搜索算法生成多样且高概率的候选解决方案。此外，我们不仅将LLM用作生成器，还用作评分器，利用其输出概率来选择最有前途的解决方案。我们的方法在公共ARC-AGI评估集中达到了71.6%（286.5/400已完成任务）的分数，展示了在现有公开方法中处于领先水平的性能。尽管同时进行的内部工作报告了更高的分数，但我们的方法通过其透明性、可重现性和极低的推理成本而脱颖而出，平均而言，在可获得的硬件上（假设Nvidia 4090 GPU的单价为每小时36美分），每任务的推理成本仅为约2美分。