摘要
arXiv:2502.09042v1 摘要类型: cross
摘要:本文介绍了Typhoon T1,这是一个开放的努力,旨在开发一种开放的泰语推理模型。推理模型是一种基于大规模语言模型(LLMs)的相对较新的生成模型。推理模型在生成最终答案之前会生成一条漫长的思想链,这种方法已被证明有助于在复杂任务上提高性能。然而,关于此类模型的开发细节相对有限,尤其是对于能够生成低资源语言推理路径的推理模型来说更是如此。Typhoon T1 提出了一种开放的努力,通过利用监督微调来更经济高效地开发推理模型,而非使用强化学习。本文分享了关于合成数据生成和训练的细节,以及我们的数据集和模型权重。此外,我们还提供了在开发能够跨领域泛化并能够在低资源语言(以泰语为例)中生成推理路径的推理模型过程中获得的见解。我们希望这一开放努力能够为该领域的进一步研究提供基础。