LLM2D

摘要

在跨语言句子嵌入中准确对齐上下文表示对于有效地挖掘平行数据至关重要。一种常见的策略是将来自多语言预训练模型的句子嵌入中的语义和语言解耦。然而，我们发现当前的解耦表示学习方法存在语义泄漏问题，我们引入该术语来描述当大量特定语言信息意外泄漏到语义表示中时的情况。这阻碍了语义和语言表示的有效解耦，难以检索出能够独特地代表句子含义的嵌入。为了解决这一挑战，我们提出了一种新颖的训练目标：正交约束学习（ORACLE），专门用于在语义和语言嵌入之间强制正交性。ORACLE 构建于两个组件之上：类内聚类和类间分离。通过在跨语言检索和语义文本相似性任务上的实验，我们证明了使用 ORACLE 目标进行训练可以有效地减少语义泄漏，并增强嵌入空间内的语义对齐。