LLM2D
通过模型合并将语言特定的大规模语言模型在一天内适配到一个推理模型——一种开源食谱
Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging - An Open Recipe
作者: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.09056v2

摘要

arXiv:2502.09056v2 通告类型: 交叉替换 摘要:本文探讨了旨在将如DeepSeek R1等先进推理能力纳入语言特定的大语言模型(LLMs)中的数据选择和模型合并方法,特别关注泰语LLM。我们的目标是在增强语言特定LLMs的推理能力的同时,保持它们的目标语言能力。DeepSeek R1在推理方面表现出色,但主要惠及资源丰富语言如英语和汉语。然而,由于以英语为中心的训练数据和模型优化占据主导地位,低资源语言仍未能得到充分服务,这限制了这些语言在性能上的表现。这种限制导致了不可靠的语言转换,并减少了在低资源语言任务上的有效性。同时,地方性和区域性LLM倡议试图通过开发专注于提高地方语言准确性的语言特定LLM来填补这一缺口。我们证明,在仅有公开可用的数据集和120美元的计算预算的情况下,有可能增强语言特定LLMs的推理能力,使其与DeepSeek R1的水平相当,同时不牺牲其在目标语言任务上的表现。