LLM2D
InstaTrans:面向非英语指令数据集的指令感知翻译框架
InstaTrans: An Instruction-Aware Translation Framework for Non-English Instruction Datasets
作者: Yungi Kim, Chanjun Park
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01512v1

摘要

由于尾部现象的存在,为非英语语言生成高质量指令数据集是一个挑战,这些现象限制了对较少观察到的数据的性能。为了缓解这个问题,我们提出将现有的高质量英语指令数据集翻译为解决方案,强调需要完整且指令感知的翻译以保持这些数据集的固有属性。我们声称,使用以这种方式翻译的数据集微调大型语言模型 (LLM) 可以提高它们在目标语言中的性能。为此,我们引入了一种新的针对指令数据集的翻译框架,名为 InstaTrans (INSTruction-Aware TRANSlation)。通过大量的实验,我们证明了 InstaTrans 在翻译的完整性和指令感知性方面优于其他竞争对手,突出了其以相对较低的成本扩展多种语言 LLM 可访问性的潜力。此外,我们已经验证了使用 InstaTrans 翻译的数据集微调 LLM 可以有效地提高它们在目标语言中的性能。