LLM2D
Cost-of-Pass:一个评估语言模型的经济框架
Cost-of-Pass: An Economic Framework for Evaluating Language Models
作者: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13359v1

摘要

arXiv:2504.13359v1 宣告类型:新 摘要:经济中广泛采用人工智能系统取决于其产生的经济价值能否超过其推理成本。评估这种权衡需要同时考虑性能和成本的指标。我们提出了一种基于生产理论的框架,通过结合准确性和推理成本来评估语言模型。我们引入了“cost-of-pass”概念,即生成正确解决方案的预期货币成本。然后定义“前沿成本-pass”为在可用模型或“人类专家”之间能够实现的最小成本-pass,使用专家招聘的近似成本。我们的分析揭示了不同的经济见解。首先,轻量级模型对于基本的定量任务最具成本效益,大型模型对于知识密集型任务最具成本效益,推理模型对于复杂的定量问题最具成本效益,尽管每单位成本更高。其次,过去一年跟踪这一前沿成本-pass 显示了显著的进展,特别是对于复杂的定量任务,成本大约每几个月减半。第三,为了追踪推动这一进展的关键创新,我们检查了反事实前沿:没有特定模型类的成本效率估计。我们发现,轻量级、大型和推理模型中的创新对于分别推动基本定量、知识密集型和复杂的定量任务的前沿至关重要。最后,我们评估了如多数投票和自我改进等常见推理时技术的成本降低,发现它们的边际准确性增益很少能够弥补成本。我们的研究成果强调了互补的模型级创新是成本效率的主要驱动因素,而我们提出的职业框架提供了一个有原则的工具来衡量这一进展并指导部署。