摘要
arXiv:2504.19675v1 交叉公告类型
摘要:本文介绍了在SemEval-2025任务5(LLMs4Subjects)中使用的Annif系统,该任务旨在使用大型语言模型(LLMs)进行主题索引。任务要求使用GND主题词汇对来自双语TIBKAT数据库的文献记录进行主题预测。我们的方法结合了在Annif工具包中实现的传统自然语言处理和机器学习技术,以及基于LLM的创新翻译和合成数据生成方法,并合并来自单语言模型的预测结果。该系统在定量评估中在所有主题类别中排名第一,在tib-core主题类别中排名第二,在定性评估中排名第四。这些发现表明,将传统的XMTC算法与现代LLM技术相结合,可以提高多语言环境下主题索引的准确性和效率。