摘要
arXiv:2410.05629v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在文本数据上展示了令人印象深刻的上下文内学习(ICL)能力。我们探讨了这些能力是否可以扩展到来自多种领域的连续向量,这些向量通过黑盒预训练编码器获得。通过使用轻量级投影器将输入数据与LLM的嵌入空间对齐,我们观察到LLMs能够有效地处理和学习这些投影向量,我们将其称为Vector-ICL。特别是,我们发现使用通用语言建模目标预训练投影器能够实现Vector-ICL,而任务特定的微调进一步提高了性能。在包括文本重构、数值函数回归、文本分类、摘要、分子图注释、时间序列分类、图分类和fMRI解码等各项任务和模态的实验中,Vector-ICL往往优于少样本ICL和特定领域模型或调整。我们还进行了分析和案例研究,表明LLMs有可能处理超越传统基于标记的范式的向量表示。