LLM2D
比列克 v3 小:技术报告
Bielik v3 Small: Technical Report
作者: Krzysztof Ociepa, {\L}ukasz Flis, Remigiusz Kinas, Krzysztof Wr\'obel, Adrian Gwo\'zdziej
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.02550v2

摘要

arXiv:2505.02550v2 声称类型: replace-cross 摘要:我们引入了Bielik v3,这是一种针对波兰语处理进行优化的参数高效生成文本模型(15亿和45亿参数版本)。这些模型表明,较小且优化良好的架构可以在所需的计算资源大幅减少的情况下,达到与更大模型相当的性能。我们的方法包含几个关键创新:一种自定义的波兰语分词器(APT4),可以显著提高标记效率;加权指令交叉熵损失,用于平衡不同类型指令的学习;以及自适应学习率,根据训练进度动态调整。这些模型在包含2920亿个标记、跨越3亿3030万份文档的精心编纂语料库上进行训练,它们在多个基准测试中表现出色,包括Open PL LLM Leaderboard、复杂波兰文本理解基准、Polish EQ-Bench 和 Polish Medical Leaderboard。45亿参数模型的性能与2-3倍大的模型相当,而15亿参数模型即使在其极为紧凑的配置下也能展现出强大的性能。这些进步为较少代表的语言建立了新的参数高效语言建模基准,使得资源受限的应用程序能够更便捷地应用高质量的波兰语言AI技术。