LLM2D

摘要

arXiv:2501.08648v2 文本类型: replace-cross 摘要: 尽管最初是为了单向生成建模而设计的，但解码器仅大型语言模型（LLMs）越来越多地被调整为双向建模。然而，单向和双向模型通常是在不同的目标（生成和表示学习）下分别进行训练的。这种分离忽略了发展更具多功能的语言模型以及这些目标相互补充的机会。在本文中，我们提出了一种名为MAGNET的方法，用于调整解码器仅大型语言模型以生成稳健的表示并填补缺失的文本片段。MAGNET采用了三种自监督训练目标，并引入了一种结合双向和因果注意力的注意力机制，使得所有目标统一训练成为可能。我们的结果显示，使用MAGNET调整后的LLMs：（1）在词级和句级表示学习任务中优于强大的文本编码器；（2）通过利用过去和未来的上下文，生成上下文相关的文本填补；（3）在开放式文本生成中避免过度重复单词或短语；（4）保留了LLMs在预训练期间获得的知识和推理能力。