LLM2D

摘要

arXiv:2502.12120v1 类型: cross 摘要: 标度定律指导大型语言模型（LLMs）的发展，通过提供模型大小、令牌和计算之间的最佳平衡估计。最近，跨预训练数据集和下游任务的损失到损失标度定律成为了理解并改进LLM性能的强大工具。在本文中，我们探究了哪些因素对损失到损失标度影响最大。我们的实验揭示了预训练数据和分词器决定了标度趋势。相比之下，模型大小、优化超参数，甚至如Llama这类基于变压器的模型和Mamba这类状态空间模型之间的重要架构差异，其影响是有限的。因此，实践者应该精心选择适合的预训练数据集以获得最佳的下游性能，而架构和其他设置可以自由优化以提高训练效率。