摘要
arXiv:2411.14708v3 宣告类型: replace-cross
摘要:随着大规模语言模型(LLMs)在灵活处理字符串信息方面的发展,一个自然的应用是回归,具体而言是通过预处理字符串表示为LLM嵌入,将其作为下游特征进行度量预测。在本文中,我们提供了关于嵌入式回归的首个全面研究,并展示了在高维回归任务中,使用LLM嵌入作为特征可能比使用传统特征工程更好。这种回归性能的部分解释在于,LLM对数值数据的嵌入在特征空间上自然保持Lipschitz连续性。此外,我们量化了不同模型效应的贡献,最引人注目的是模型大小和语言理解,我们发现令人惊讶的是,这些因素并不总是能够提高回归性能。