LLM2D
ElChat:仅使用目标未标注语言数据适应聊天语言模型
ElChat: Adapting Chat Language Models Using Only Target Unlabeled Language Data
作者: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2412.11704v3

摘要

arXiv:2412.11704v3 宣布类型: replace-cross 摘要:词汇扩展(VE)是通过添加新词元并继续在目标数据上进行预训练,来实现大规模语言模型(LLMs)语言适应的常规方法。虽然这种方法对基于未标记数据训练的基础模型有效,但它为通过标记对话数据训练的聊天模型带来了挑战。直接使用VE对后者的目标未标记数据进行适应可能导致忘记聊天能力。虽然理想情况下,目标聊天数据通常是不可用或创建成本高昂的低资源语言,而机器翻译的替代品也并非总是有效的。为了解决这一问题,先前的研究提出使用同一家庭的基础模型和聊天模型。该方法首先使用VE对基础LLM进行目标未标记数据的适应,然后通过添加源自源基础模型和聊天模型权重差异的聊天向量(CV)将其转换为聊天模型。我们提出了ElChat,一种新的聊天LLM的语言适应方法,该方法可以直接在目标未标记数据上适应聊天模型,而无需基础模型。ElChat通过注入源聊天模型的信息来引发聊天能力。与CV相比,ElChat提供了更强大和竞争力的目标语言和安全性性能,同时在英语、聊天和指令跟随能力方面表现出优越性。