LLM2D

摘要

arXiv:2409.12737v1 公告类型: 交叉摘要: 当前的跨语言句子编码器预训练方法仅使用句子级目标。这可能导致信息的丢失，尤其是对于词元，从而降低句子表示的质量。我们提出了一种名为MEXMA的新方法，该方法结合了句子级和词元级目标。使用一种语言的句子表示来预测另一种语言中的掩码词元，同时句子表示和所有词元直接更新编码器。我们的研究表明，添加词元级目标显著提高了多个任务中的句子表示质量。我们的方法在双文本挖掘以及多个下游任务中优于当前的跨语言句子编码器预训练方法。我们还分析了我们的词元中编码的信息，以及句子表示如何从这些词元中构建。