LLM2D

摘要

大型语言模型 (LLM) 在一些下游任务中展现出涌现能力，即性能在最初停滞不前，然后随着规模超过阈值而急剧且不可预测地提高。通过根据平均性能将数据集中的问题划分为不同难度级别，我们观察到对于困难问题，缩放呈现 U 形趋势，而对于简单问题，缩放呈现倒 U 形趋势，之后稳定提高。此外，涌现阈值大致与简单问题的性能从逆缩放转变为标准缩放的点一致。利用在简单和困难问题上可观察到的相反缩放趋势，我们提出了一种简单而有效的管道，称为“切片和夹心”，用于预测涌现阈值和模型性能。