U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
作者: Tung-Yu Wu, Pei-Yu Lo
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01692v1
摘要
大型语言模型 (LLM) 在一些下游任务中展现出涌现能力,即性能在最初停滞不前,然后随着规模超过阈值而急剧且不可预测地提高。通过根据平均性能将数据集中的问题划分为不同难度级别,我们观察到对于困难问题,缩放呈现 U 形趋势,而对于简单问题,缩放呈现倒 U 形趋势,之后稳定提高。此外,涌现阈值大致与简单问题的性能从逆缩放转变为标准缩放的点一致。利用在简单和困难问题上可观察到的相反缩放趋势,我们提出了一种简单而有效的管道,称为“切片和夹心”,用于预测涌现阈值和模型性能。