LLM2D

摘要

arXiv:2502.20984v3 Announce Type: replace-cross 摘要：SemEval-2025 任务1旨在根据给定的可能蕴含英语和巴西葡萄牙语惯用意义的名词短语对图像进行排序。为了应对这一挑战，本工作使用生成性的大规模语言模型（LLMs）和多语言CLIP模型，以增强惯用意义表示。LLMs生成可能含有的惯用意义，丰富了这些短语的语义解释。这些意义随后通过多语言CLIP模型进行编码，用作图像排序的表示。对比学习和数据增强技术被应用以微调这些嵌入，以提高性能。实验结果表明，通过这种方法提取的多模态表示优于仅基于原始名词短语的表示。微调方法显示出有希望的结果，但没有微调的嵌入效果更好。本文使用的源代码可在 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 获取。