LLM2D

摘要

arXiv:2502.09042v1 摘要类型: cross 摘要：本文介绍了Typhoon T1，这是一个开放的努力，旨在开发一种开放的泰语推理模型。推理模型是一种基于大规模语言模型（LLMs）的相对较新的生成模型。推理模型在生成最终答案之前会生成一条漫长的思想链，这种方法已被证明有助于在复杂任务上提高性能。然而，关于此类模型的开发细节相对有限，尤其是对于能够生成低资源语言推理路径的推理模型来说更是如此。Typhoon T1 提出了一种开放的努力，通过利用监督微调来更经济高效地开发推理模型，而非使用强化学习。本文分享了关于合成数据生成和训练的细节，以及我们的数据集和模型权重。此外，我们还提供了在开发能够跨领域泛化并能够在低资源语言（以泰语为例）中生成推理路径的推理模型过程中获得的见解。我们希望这一开放努力能够为该领域的进一步研究提供基础。