LLM2D

摘要

arXiv:2504.02293v1 交叉公告类型摘要：尽管有170万聋哑人，但孟加拉手语（BdSL）仍然是一个研究不足的领域。具体来说，尚无关于孟加拉语文本到手语词典翻译任务的相关研究。为了解决这一缺口，我们首先解决了数据集问题。我们从德国和美国手语（ASL）的基于语法规则的手语词典生成方法中汲取灵感，并将其适配于BdSL。我们还利用大模型（LLM）生成合成数据，并使用反向翻译和文本生成进行数据增强。准备好数据集后，我们开始了实验。我们对预训练的mBART-50和mBERT-multiclass-uncased模型进行了微调。我们还训练了GRU、RNN以及一种具有多头注意力机制的新颖序列到序列模型。我们观察到，使用来自脸书的预训练mBART-50多语言模型进行微调时，获得了显著的高性能（ScareBLEU=79.53）。然后，我们探讨了为什么mBART能表现出如此高的性能。很快，我们注意到mBART的一个有趣特性——它是在被打乱和掩码的文本数据上进行训练的。我们知道，手语形式具有信息打乱的特性。因此，我们假设mBART本质上擅长文本到手语词典的任务。为了验证这一假设，我们在PHOENIX-14T基准上对mBART-50进行了训练，并用现有文献进行了评估。我们的mBART-50微调在PHOENIX-14T基准上展示了最先进的性能，在所有六个指标上远超现有模型（ScareBLEU = 63.89，BLEU-1 = 55.14，BLEU-2 = 38.07，BLEU-3 = 27.13，BLEU-4 = 20.68，COMET = 0.624）。基于这些结果，本研究提出了使用mBART模型的新范式来解决文本到手语词典任务。此外，我们的结果显示，基于规则的合成数据集对BdSL的文本到手语词典任务有显著的改进作用。