LLM2D

摘要

arXiv:2505.05115v1 更新类型: 新摘要: 在Kwa等人(2025)的近期实证研究基础上，我表明，在他们研究-工程任务套件中，AI代理在较长持续时间任务上的表现可以用一个极其简单的数学模型来解释——在人类完成任务所需的时间内的每分钟失败率保持恒定。这暗示了随任务长度呈指数下降的成功率，并且每个代理都可以通过其自身的半衰期来表征。这种实证规律使我们能够估计代理在不同任务长度下的成功率。而该模型与数据的良好拟合暗示了较长任务失败的根本原因——它们涉及越来越多的子任务集合，其中任何一个子任务的失败都会导致整个任务失败。尚不清楚该模型在其他任务套件中的适用性如何，这是进一步工作中一个重要的话题。