摘要
arXiv:2504.21475v1 通知类型:交叉
摘要:本研究通过开发一个有效的阿拉伯语逆词典(RD)系统解决了阿拉伯语自然语言处理中的关键差距,该系统使用户能够根据描述或含义查找单词。我们提出了一种新颖的基于转换器的方法,该方法采用了一种几何递减层的半编码神经网络架构,实现了阿拉伯语RD任务的最佳结果。我们的方法包括一个全面的数据集构建过程,并建立了阿拉伯语词典定义的形式质量标准。使用各种预训练模型的实验表明,专门针对阿拉伯语的模型显着优于通用多语言嵌入,ARBERTv2 获得最佳排名分数(0.0644)。此外,我们提供了一种增强逆词典任务理论理解的正式抽象,并开发了一个模块化且可扩展的 Python 库(RDTL),具有可配置的训练管道。我们对数据集质量的分析揭示了改善阿拉伯语定义构建的重要见解,从而提出了八项具体标准,用于构建高质量的逆词典资源。本工作在阿拉伯语计算语言学领域做出了重要贡献,并提供了有价值的工具,用于阿拉伯语学习、学术写作和专业沟通。