LLM2D
Home
Arxiv
返回列表
PLaMo-100B:一款专为日语能力设计的全新语言模型
PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency
作者:
Preferred Elements, :, Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase
发布日期:
10/23/2024
arXiv ID:
oai:arXiv.org:2410.07563v2
摘要
我们介绍了 PLaMo-100B,一个为日语能力而设计的大型语言模型。该模型使用 2 万亿个词元从头开始训练,并采用了诸如 QK 归一化和 Z 损失等架构,以确保训练过程中的稳定性。训练后技术,包括监督微调和直接偏好优化,被应用于改进模型的性能。基准评估表明,PLaMo-100B 表现良好,尤其是在日语特定任务中,取得了与 GPT-4 等前沿模型相媲美的结果。基础模型可在 https://huggingface.co/pfnet/plamo-100b 获取。
查看原文
下载 PDF