LLM2D
Home
Arxiv
返回列表
xGen-small 技术报告
xGen-small Technical Report
作者:
Erik Nijkamp, Bo Pang, Egor Pakhomov, Akash Gokul, Jin Qu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
发布日期:
5/13/2025
arXiv ID:
oai:arXiv.org:2505.06496v1
摘要
arXiv:2505.06496v1 宣布类型:交叉 摘要: 我们介绍了xGen-small,这是一种专门为长上下文应用优化的4B和9B Transformer解码器模型家族。我们的垂直集成流水线将领域平衡、频率感知的数据整理;多阶段预训练,具备质量退火和长度扩展至128k个标记;以及通过监督微调、偏好学习和在线强化学习的目标后训练相结合。xGen-small在各种任务中表现出色,特别是在数学和编码领域,同时在长上下文基准测试中表现出色。
查看原文
下载 PDF