LLM2D

摘要

arXiv:2502.02391v1 交叉类型公告：摘要：我们介绍了FewTopNER，这是一种新颖的框架，将少量样本命名实体识别（NER）与主题感知上下文建模相结合，以应对跨语言和低资源场景中的挑战。FewTopNER 利用基于 XLM-RoBERTa 的多语言共享编码器，并通过语言特定的校准机制进行增强，生成稳健的上下文嵌入。该架构包括一个基于原型的实体识别分支，采用双向 LSTM 和条件随机场进行序列标注，以及一个通过混合概率与神经方法提取文档级别语义特征的主题建模分支。跨任务桥梁在实体和主题表示之间促进动态双向注意和特征融合，从而通过引入全局语义上下文来增强实体消歧。在英语、法语、西班牙语、德语和意大利语的多语言基准数据集上的实证评估表明，FewTopNER 显著优于现有少数样本 NER 模型。特别是，在 F1 分数上，该框架取得了 2.5-4.0 个百分点的改进，并且在归一化点互信息衡量的主题连贯性方面表现出增强。消融研究进一步证实了共享编码器和跨任务集成机制对整体性能的关键贡献。这些结果强调了将主题感知上下文纳入少数样本 NER 的有效性，并突显了FewTopNER 在低资源环境中的稳健跨语言应用的潜力。