LLM2D

摘要

arXiv:2505.02550v2 声称类型: replace-cross 摘要：我们引入了Bielik v3，这是一种针对波兰语处理进行优化的参数高效生成文本模型（15亿和45亿参数版本）。这些模型表明，较小且优化良好的架构可以在所需的计算资源大幅减少的情况下，达到与更大模型相当的性能。我们的方法包含几个关键创新：一种自定义的波兰语分词器（APT4），可以显著提高标记效率；加权指令交叉熵损失，用于平衡不同类型指令的学习；以及自适应学习率，根据训练进度动态调整。这些模型在包含2920亿个标记、跨越3亿3030万份文档的精心编纂语料库上进行训练，它们在多个基准测试中表现出色，包括Open PL LLM Leaderboard、复杂波兰文本理解基准、Polish EQ-Bench 和 Polish Medical Leaderboard。45亿参数模型的性能与2-3倍大的模型相当，而15亿参数模型即使在其极为紧凑的配置下也能展现出强大的性能。这些进步为较少代表的语言建立了新的参数高效语言建模基准，使得资源受限的应用程序能够更便捷地应用高质量的波兰语言AI技术。