LLM2D

摘要

arXiv:2409.12683v1 公告类型: 交叉摘要: 尽管在大规模语言模型在少数语言的基准测试中取得了优异的成绩，但它们在处理位于“低资源”场景中的文本时仍面临挑战，如方言/社会方言（国家或社会语言变体）、克里奥尔语（由多种语言接触产生的语言）以及其他低资源语言。本入门教程将识别在自然语言处理（NLP）研究中常见的挑战、方法和主题，以应对和克服数据匮乏环境中的固有障碍。通过将过去的思想与当前领域相连接，本教程旨在激发在这些场景中工作的研究人员之间的合作与交叉融合。我们所说的“低资源”广泛指模型训练所需数据的显著缺乏——并且可能适用于教程中未涵盖的其他场景。