LLM2D

摘要

自然语言处理（NLP）研究传统上主要集中在英语上，这主要归因于资源的可用性、研究社区的规模以及市场需求。近年来，NLP领域明显转向多语言研究，认识到在不同语言和文化中实现包容性和有效性的必要性。单语调查通过提供基础见解和资源，有可能补充NLP向多语言趋势的扩展，这些资源对于有效应对全球交流中的语言多样性至关重要。然而，单语NLP调查在文献中极为罕见。本研究通过引入一种创建系统性和全面单语NLP调查的方法填补了这一空白。该方法具有结构化的搜索协议，可用于选择出版物并通过NLP任务的分类法组织它们。我们根据语言资源的可用性及其数据集的注释，对语言资源（LRs）进行了分类，以突出公开可用且机器可操作的LRs。通过应用我们的方法，我们对2012年至2022年间的希腊语NLP进行了系统的文献综述，提供了希腊语NLP研究现状和挑战的全面概述。我们讨论了希腊语NLP的进展，并概述了遇到的希腊语LRs，按可用性和可用性分类。正如我们所展示的，我们提出的方法有助于避免常见陷阱，如数据泄露和污染，并评估每个NLP任务的语言支持。我们认为，对希腊语NLP的系统文献综述是我们方法的一个应用实例，展示了单语NLP调查的益处。类似的应用可以关注那些在NLP进展上落后于充分支持语言的众多语言。