摘要
arXiv:2409.15051v1 公告类型: 交叉 摘要: 最近的研究展示了仅解码器模型在包括翻译在内的许多自然语言处理任务中的显著能力。然而,机器翻译领域在很大程度上仍由基于Transformer架构的编码器-解码器模型主导。因此,编码器-解码器模型的神经机器翻译扩展规律已经得到了充分研究,但仅解码器模型却受到较少关注。本研究探讨了仅解码器模型在多语言和多领域翻译任务中的扩展规律。我们在一个句子级别的多语言和多领域数据集上训练了一系列六个仅解码器模型,参数规模从70M到7B不等。我们进行了一系列实验,结果表明仅解码器模型的损失可以通过类似于大型语言模型的扩展规律来估计,但我们也发现这种扩展规律在应用于过大模型或不同数据分布时存在困难。我们还研究了不同的扩展方法,发现扩展模型的深度和宽度都能带来类似的测试损失改进,但对模型效率的影响不同。