LLM2D

摘要

大型语义知识库以事实知识为基础。然而，最近的密集文本表示（即嵌入）方法并没有有效地利用这些资源。对文档进行密集且鲁棒的表示对于有效解决下游分类和检索任务至关重要。这项工作表明，从知识库中注入嵌入信息可以增强当代基于大型语言模型（LLM）的表示在文本分类任务中的性能。此外，通过考虑融合表示空间的自动机器学习（AutoML），我们证明即使使用通过有效矩阵分解获得的原始表示空间的低维投影，也可以提高分类精度。该结果表明，可以使用五个强大的 LLM 基线在六个不同的真实数据集上进行验证，可以实现速度明显更快的分类器，而预测性能几乎没有损失。代码可在 \url{https://github.com/bkolosk1/bablfusion.git} 免费获取。