LLM2D
UoR-NCL 在 SemEval-2025 任务 1 中:使用生成型大语言模型和 CLIP 模型进行多语言多模态习语表现表示
UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation
作者: Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2502.20984v3

摘要

arXiv:2502.20984v3 Announce Type: replace-cross 摘要:SemEval-2025 任务1旨在根据给定的可能蕴含英语和巴西葡萄牙语惯用意义的名词短语对图像进行排序。为了应对这一挑战,本工作使用生成性的大规模语言模型(LLMs)和多语言CLIP模型,以增强惯用意义表示。LLMs生成可能含有的惯用意义,丰富了这些短语的语义解释。这些意义随后通过多语言CLIP模型进行编码,用作图像排序的表示。对比学习和数据增强技术被应用以微调这些嵌入,以提高性能。实验结果表明,通过这种方法提取的多模态表示优于仅基于原始名词短语的表示。微调方法显示出有希望的结果,但没有微调的嵌入效果更好。本文使用的源代码可在 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 获取。