LLM2D

摘要

本文对之前名为 DefSent 的会议论文进行了重大改进。先前研究试图通过将定义句子投影到词典条目向量空间来改进语言模型的句子嵌入。我们发现，由于使用语言模型的词嵌入来表示词典条目这一方法的局限性，这种方法并没有得到充分的探索。这导致了两个障碍。首先，词典条目受到单字词表的限制，因此无法得到充分利用。其次，语言模型的语义表示已知是各向异性的，但 DefSent 的预处理词嵌入不允许，因为它的权重在训练期间被冻结并与预测层绑定。在本文中，我们提出了一种新方法来逐步构建不受这些限制影响的条目嵌入。因此，定义句子可以被投影到一个无限词典条目的准各向同性或各向同性向量空间中，从而获得质量明显更高的句子嵌入。我们将我们的方法简称为 DefSent+（DefSent 的增强版），它具有以下优势：1) 与 DefSent 相比，在衡量句子相似性的任务性能方面得到了显著提升；2) 当 DefSent+ 用于进一步训练数据增强模型，如 SIMCSE、SNCSE 和 SynCSE 时，可以在不使用手动标注数据集的情况下，在衡量句子相似性的方法中获得最先进的性能；3) DefSent+ 在 NLP 下游任务的基于特征的迁移中也具有竞争力。