摘要
arXiv:2502.09042v2 宣传类型: replace-cross
摘要:本文介绍了Typhoon T1,这是一个开放努力,旨在开发一个开放的泰语推理模型。推理模型是一种基于大型语言模型(LLMs)的新类型生成模型。推理模型在做出最终答案之前会生成一个较长的思考链,这种方法被发现有助于在复杂任务上的表现。然而,关于如何开发这种模型的详细信息有限,尤其是对于能够生成低资源语言推理痕迹的推理模型。Typhoon T1 提出了一个开放努力,通过利用监督微调来降低成本地开发推理模型,而不是使用强化学习。本文分享了关于合成数据生成和训练的详细信息,以及我们的数据集和模型权重。此外,我们还提供了关于开发一个能够在多种领域泛化且能够生成低资源语言推理痕迹的推理模型的经验教训,以泰语为例。我们希望这种开放努力能够为该领域的进一步研究提供基础。