LLM2D
匈牙利语静态词嵌入的比较分析
A Comparative Analysis of Static Word Embeddings for Hungarian
作者: M\'at\'e Gedeon
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07809v1

摘要

arXiv:2505.07809v1 宣告类型: cross 摘要:本文对匈牙利语的各种静态词嵌入进行了全面分析,包括传统的Word2Vec模型和FastText模型,以及使用不同提取方法从BERT基模型中提取的静态嵌入。我们对这些嵌入进行了内在和外在两种任务的评估,以提供其性能的全面视图。在内在评估中,我们采用了一个词类比任务,该任务评估嵌入捕捉语义和句法关系的能力。结果显示,传统的静态嵌入,尤其是FastText,在这方面表现出色,实现了高准确率和均值倒数排名(MRR)评分。在BERT基模型中,使用X2Static方法提取静态嵌入的方法表现出优于去语境化和聚合方法的性能,接近传统静态嵌入的效果。在外在评估中,我们使用双向LSTM模型进行命名实体识别(NER)和词性标注(POS)任务。结果显示,来自动态模型的嵌入,尤其是使用X2Static方法提取的嵌入,优于纯静态嵌入。值得注意的是,ELMo嵌入在NER和POS标记任务中均获得最高准确率,突显了即使在静态形式下使用上下文化表示的好处。我们的研究结果强调了静态词嵌入在自然语言处理(NLP)应用中的持续相关性,并且先进的提取方法可能有助于增强基于BERT模型的实用性。此研究为匈牙利语嵌入性能的理解提供了新的见解,并为该领域未来的发展提供了有价值的参考。本文的训练脚本、评估代码、受限词汇表和提取的嵌入将公开发布,以支持进一步的研究和可重复性。