LLM2D
七万亿参数技术报告
Trillion 7B Technical Report
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15431v1

摘要

arXiv:2504.15431v1 Announce Type: cross 摘要:我们介绍了Trillion-7B,这是目前最高效的以韩语为中心的多语言大语言模型。我们新颖的跨语文档注意力(XLDA)机制能够高效且有效地将英语知识转移到目标语言如韩语和日语。结合优化的数据混合、语言特定的过滤和定制的分词器构建,Trillion-7B 在仅将 10% 的训练 tokens(共计 2T)用于多语言数据的情况下实现了具有竞争力的表现,并且只需要 59.4K H100 GPU 小时(约 $148K)即可完成全部训练。多语言基准测试中的全面评估显示了Trillion-7B 的稳健的多语言性能和卓越的跨语言一致性。