摘要
arXiv:2505.02410v2 宣告类型: 替换-交叉
摘要:我们介绍了Bielik 11B v2,这是一种针对波兰语文本处理优化的最先进的语言模型。该模型基于Mistral 7B v0.2架构,并通过深度扩展扩展到11B参数,展示了在波兰语基准测试中的出色性能,同时保持了强大的跨语言能力。我们引入了两项关键技术创新:加权指令交叉熵损失,通过为训练示例分配基于质量的权重来优化不同指令类型的学习;自适应学习率,根据上下文长度动态调整。跨多个基准的全面评估表明,Bielik 11B v2在多个任务中表现出色,优于许多更大规模的模型(包括参数多2-6倍的模型),并在从语言理解到复杂推理的多项任务上显著超过了其他专门针对波兰语的模型。该模型的参数效率和广泛的量化选项使其能够在不同的硬件配置中部署,提升了波兰语言人工智能的能力,并为少代表性语言的资源高效语言建模设立了新的基准。