LLM2D

摘要

我们介绍了 PLaMo-100B，一个为日语能力而设计的大型语言模型。该模型使用 2 万亿个词元从头开始训练，并采用了诸如 QK 归一化和 Z 损失等架构，以确保训练过程中的稳定性。训练后技术，包括监督微调和直接偏好优化，被应用于改进模型的性能。基准评估表明，PLaMo-100B 表现良好，尤其是在日语特定任务中，取得了与 GPT-4 等前沿模型相媲美的结果。基础模型可在 https://huggingface.co/pfnet/plamo-100b 获取。