LLM2D

摘要

arXiv:2505.02410v1 Announce Type: cross 摘要：我们介绍了Bielik 11B v2，这是一个针对波兰文本处理优化的最先进的语言模型。该模型基于Mistral 7B v0.2架构，并通过深度扩展扩展到11B参数，展示了在波兰语言基准测试中的出色性能，同时保持较强的跨语言能力。我们引入了两项关键技术创新：加权指令交叉熵损失，通过根据训练样例的质量分配权重来优化不同指令类型的跨学习；自适应学习率，可以根据上下文长度动态调整。在多个基准测试中的全面评估表明，Bielik 11B v2在性能上超过了包括参数多2-6倍的许多更大模型，并在从语言理解到复杂推理等各种任务中显著超过了其他专门针对波兰语言的模型。模型的参数效率和广泛的量化选项使其能够适应各种硬件配置，推动了波兰语言AI能力的发展，并为资源高效的语言建模设立了新的标准，特别是在代表性较弱的语言中。