LLM2D
通过反向指令生成低资源语言的高质量指令调优数据集:MURI
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12958v1

摘要

指令调优通过使大型语言模型(LLMs)与多样化任务中的人类偏好对齐,从而增强了其性能。传统的创建指令调优数据集的方法由于依赖数据标注,在低资源语言上面临严重挑战。本研究提出了一种新方法——多语言逆向指令(MURI),该方法无需人工标注或预先存在的多语言模型,即可为低资源语言生成高质量的指令调优数据集。利用逆向指令和翻译管道,MURI从低资源语言的现有人类书写文本中生成指令-输出对。该方法通过从不同本土领域获取文本并应用过滤器消除不适当内容,确保了文化相关性和多样性。我们的数据集MURI-IT包含超过200万条指令-输出对,涵盖200种语言。通过母语者评估和mT5模型的微调实验,证明了该方法在自然语言理解和开放式生成方面的有效性。我们公开发布了数据集和模型,链接为https://github.com/akoksal/muri。