LLM2D

摘要

arXiv:2505.02550v1 类型: cross 摘要：我们介绍了Bielik v3，这是一个针对波兰语处理优化的参数效率生成文本模型系列（15亿参数和45亿参数）。这些模型展示了更小、优化良好的架构可以在计算资源显著减少的情况下，达到与更大模型相当的性能。我们的方法包含以下几个关键创新：一个自定义的波兰分词器（APT4），显著提高了分词效率；加权指令交叉熵损失来平衡不同指令类型的学习；以及自适应学习率，根据训练进度动态调整。这些模型在包含2920亿个令牌、跨越3.03亿份文档的精心编纂语料库上进行训练，它们在多个基准测试中表现出色，包括Open PL LLM Leaderboard、复杂波兰文本理解基准、Polish EQ-Bench和波兰医疗领导榜。45亿参数的模型在性能上与大小是其2-3倍的模型相当，而1.5亿参数的模型尽管其极为紧凑，仍表现出强大的性能。这些进步为资源受限应用中的少有表示语言的参数效率语言建模设立了新的基准，使高质量的波兰语AI更加适用于资源受限的应用。