摘要
arXiv:2504.15431v1 Announce Type: cross
摘要:我们介绍了Trillion-7B,这是目前最高效的以韩语为中心的多语言大语言模型。我们新颖的跨语文档注意力(XLDA)机制能够高效且有效地将英语知识转移到目标语言如韩语和日语。结合优化的数据混合、语言特定的过滤和定制的分词器构建,Trillion-7B 在仅将 10% 的训练 tokens(共计 2T)用于多语言数据的情况下实现了具有竞争力的表现,并且只需要 59.4K H100 GPU 小时(约 $148K)即可完成全部训练。多语言基准测试中的全面评估显示了Trillion-7B 的稳健的多语言性能和卓越的跨语言一致性。