LLM2D

摘要

本文描述了我们以团队名称Brotherhood参加的英语到低资源多模态翻译任务的系统。我们参与了英语-印地语、英语-豪萨语、英语-孟加拉语和英语-马拉雅拉姆语等多模态翻译任务。我们提出了一种利用多模态大型语言模型（LLMs），特别是GPT-4o和Claude 3.5 Sonnet，来增强跨语言图像描述的方法，无需传统的训练或微调。我们的方法利用指令调整的提示生成关于裁剪图像的丰富、上下文相关的对话，使用其英语描述作为额外上下文。这些合成对话随后被翻译成目标语言。最后，我们采用了一种加权提示策略，平衡原始英语描述与翻译后的对话，以生成目标语言的描述。该方法取得了有竞争力的结果，在英语-印地语挑战集上获得了37.90的BLEU分数，并在挑战和评估排行榜上分别在英语-豪萨语上排名第一和第二。我们对250张图像的子集进行了额外实验，探索了不同加权方案下BLEU分数与语义相似性之间的权衡。