LLM2D

摘要

arXiv:2410.14635v2 宣布类型: replace-cross 摘要：无需训练的嵌入方法直接利用预训练的大语言模型（LLMs）将文本转换为嵌入，从而绕过了成本高昂且复杂的对比学习过程。之前的无需训练的嵌入方法主要集中在优化嵌入提示上，并且忽视了利用LLMs的生成能力带来的好处。我们提出了一种名为GenEOL的新方法，该方法使用LLMs生成保留句子意义的多样变换，并将这些变换的结果嵌入聚合起来以增强整体句子嵌入。GenEOL在几个LLMs上的句子语义文本相似性（STS）基准测试上平均比现有无需训练的嵌入方法高出2.85分。此外，GenEOL在MTEB基准测试的聚类、再排序和配对分类任务中也取得了显著的改进。另外，GenEOL在LLM层面上稳定了表示质量，并且对嵌入提示的扰动具有鲁棒性。