LLM2D
面向系统性单语自然语言处理调查:希腊语自然语言处理的生成分析
Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2407.09861v2

摘要

自然语言处理(NLP)研究传统上主要集中在英语上,这主要归因于资源的可用性、研究社区的规模以及市场需求。近年来,NLP领域明显转向多语言研究,认识到在不同语言和文化中实现包容性和有效性的必要性。单语调查通过提供基础见解和资源,有可能补充NLP向多语言趋势的扩展,这些资源对于有效应对全球交流中的语言多样性至关重要。然而,单语NLP调查在文献中极为罕见。本研究通过引入一种创建系统性和全面单语NLP调查的方法填补了这一空白。该方法具有结构化的搜索协议,可用于选择出版物并通过NLP任务的分类法组织它们。我们根据语言资源的可用性及其数据集的注释,对语言资源(LRs)进行了分类,以突出公开可用且机器可操作的LRs。通过应用我们的方法,我们对2012年至2022年间的希腊语NLP进行了系统的文献综述,提供了希腊语NLP研究现状和挑战的全面概述。我们讨论了希腊语NLP的进展,并概述了遇到的希腊语LRs,按可用性和可用性分类。正如我们所展示的,我们提出的方法有助于避免常见陷阱,如数据泄露和污染,并评估每个NLP任务的语言支持。我们认为,对希腊语NLP的系统文献综述是我们方法的一个应用实例,展示了单语NLP调查的益处。类似的应用可以关注那些在NLP进展上落后于充分支持语言的众多语言。