LLM2D

摘要

arXiv:2409.00358v2 公告类型: 替换-交叉摘要：针对某些社会方言/方言/国家变体（为了简洁起见称为“方言”）的NLU任务改进LLM性能的方言适配器已经在编码器模型中有所报道。在本文中，我们将方言适配器的想法扩展到了我们的架构LoRDD中的解码器模型。使用MD-3，这是一个公开的数据集，包含不同方言说话者之间的词汇游戏对话，我们的任务是从蒙特 Carlo 会话中预测目标词（TWP）。LoRDD结合了任务适配器和方言适配器，后者在MD-3的伪平行会话中使用对比学习。我们使用两种模型（Mistral 和 Gemma）对印度英语和尼日利亚英语对话的实验表明，LoRDD在TWP方面优于四个基线。此外，它显著缩小了与美国英语之间的性能差距，分别将词相似度和准确度之间的差距缩小到12%和5.8%，以及25%和4.5%。LoRDD 的主要贡献在于其使用TWP（一个常用下一个词预测任务的简化版本）实现解码器模型方言适应的潜力。