LLM2D

摘要

arXiv:2505.07809v1 宣告类型: cross 摘要：本文对匈牙利语的各种静态词嵌入进行了全面分析，包括传统的Word2Vec模型和FastText模型，以及使用不同提取方法从BERT基模型中提取的静态嵌入。我们对这些嵌入进行了内在和外在两种任务的评估，以提供其性能的全面视图。在内在评估中，我们采用了一个词类比任务，该任务评估嵌入捕捉语义和句法关系的能力。结果显示，传统的静态嵌入，尤其是FastText，在这方面表现出色，实现了高准确率和均值倒数排名（MRR）评分。在BERT基模型中，使用X2Static方法提取静态嵌入的方法表现出优于去语境化和聚合方法的性能，接近传统静态嵌入的效果。在外在评估中，我们使用双向LSTM模型进行命名实体识别（NER）和词性标注（POS）任务。结果显示，来自动态模型的嵌入，尤其是使用X2Static方法提取的嵌入，优于纯静态嵌入。值得注意的是，ELMo嵌入在NER和POS标记任务中均获得最高准确率，突显了即使在静态形式下使用上下文化表示的好处。我们的研究结果强调了静态词嵌入在自然语言处理（NLP）应用中的持续相关性，并且先进的提取方法可能有助于增强基于BERT模型的实用性。此研究为匈牙利语嵌入性能的理解提供了新的见解，并为该领域未来的发展提供了有价值的参考。本文的训练脚本、评估代码、受限词汇表和提取的嵌入将公开发布，以支持进一步的研究和可重复性。