LLM2D

摘要

提升多语言理解能力的方法通常在高资源语言和低资源语言之间存在显著的性能差距。虽然有一些努力将语言对齐到一个单一的潜在空间来减轻这种差距，但尚未研究不同输入级表示如何影响这种差距，特别是对于音素输入。我们假设这些语言之间的表示差异会影响性能差距，并重新审视使用音素表示来缓解这些差异。为了证明音素表示的有效性，我们对总共 12 种语言的三个代表性跨语言任务进行了实验。结果表明，与正字法表示相比，音素表示在语言之间表现出更高的相似性，并且在资源相对较少的语言上始终优于基于字母的基线模型。我们从三个跨语言任务中提供了定量证据来证明音素表示的有效性，并通过对跨语言性能差距的理论分析进一步证明了这一点。