LLM2D
母语与非母语提示:对比分析
Native vs Non-Native Language Prompting: A Comparative Analysis
作者: Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra Bendou, Maram Hasanain, Firoj Alam
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2409.07054v2

摘要

大型语言模型(LLMs)在不同领域展现出非凡的能力,包括标准的自然语言处理(NLP)任务。为了从 LLMs 中引出知识,提示起着关键作用,它由自然语言指令组成。大多数开放和闭源 LLMs 在可用的标记和未标记资源(如文本、图像、音频和视频等数字内容)上进行训练。因此,这些模型在资源丰富的语言方面拥有更好的知识,但在资源匮乏的语言方面却难以应付。由于提示在理解其能力方面起着至关重要的作用,因此用于提示的语言仍然是一个重要的研究问题。尽管在这个领域已经进行了大量的研究,但它仍然有限,而且对于中等资源到低资源语言的研究更少。在本研究中,我们调查了 12 个不同阿拉伯语数据集(9.7K 个数据点)相关的 11 个不同 NLP 任务上的不同提示策略(母语与非母语)。总的来说,我们进行了 197 个实验,涉及 3 个 LLMs、12 个数据集和 3 种提示策略。我们的发现表明,平均而言,非母语提示表现最佳,其次是混合提示和母语提示。