LLM2D
大型语言模型涌现能力背后的U形和倒U形规模规律
U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
作者: Tung-Yu Wu, Pei-Yu Lo
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2410.01692v2

摘要

arXiv:2410.01692v2 宣告类型: 替换 摘要:大规模语言模型(LLMs)在某些下游任务中表现出 emergent 能力,在达到一定阈值后,模型性能起初停滞不前,随后在规模增加时会突然且不可预测地大幅提高。在本工作中,我们通过根据问题难度级别进行组群来研究这一现象,并提供了一种可能的解释。具体来说,我们观察到对于难度高的问题,存在 U 型扩展模式;而对于难度低的问题,则存在倒 U 型扩展模式,随后是稳步改进。这两种扩展模式最初相互抵消,导致整体性能停滞不前。当难度低的问题的扩展模式从倒 U 型返回到标准扩展模式时,性能开始大幅上升,从而表现出 emergent 能力。基于这一发现,我们提出了一个简单且有效的管道,称为 Slice-and-Sandwich,用于预测 emergent 能力出现的阈值和阈值后的模型性能。我们的代码可在 https://github.com/tony10101105/ExpEmergence 获取。