LLM2D

摘要

arXiv:2504.15431v1 Announce Type: cross 摘要：我们介绍了Trillion-7B，这是目前最高效的以韩语为中心的多语言大语言模型。我们新颖的跨语文档注意力（XLDA）机制能够高效且有效地将英语知识转移到目标语言如韩语和日语。结合优化的数据混合、语言特定的过滤和定制的分词器构建，Trillion-7B 在仅将 10% 的训练 tokens（共计 2T）用于多语言数据的情况下实现了具有竞争力的表现，并且只需要 59.4K H100 GPU 小时（约 $148K）即可完成全部训练。多语言基准测试中的全面评估显示了Trillion-7B 的稳健的多语言性能和卓越的跨语言一致性。