LLM2D

摘要

arXiv:2504.19675v1 交叉公告类型摘要：本文介绍了在SemEval-2025任务5（LLMs4Subjects）中使用的Annif系统，该任务旨在使用大型语言模型（LLMs）进行主题索引。任务要求使用GND主题词汇对来自双语TIBKAT数据库的文献记录进行主题预测。我们的方法结合了在Annif工具包中实现的传统自然语言处理和机器学习技术，以及基于LLM的创新翻译和合成数据生成方法，并合并来自单语言模型的预测结果。该系统在定量评估中在所有主题类别中排名第一，在tib-core主题类别中排名第二，在定性评估中排名第四。这些发现表明，将传统的XMTC算法与现代LLM技术相结合，可以提高多语言环境下主题索引的准确性和效率。