LLM2D

摘要

我们展示了语言和视觉模型 CLIP 与两个纯文本模型 FastText 和 SBERT 在编码个体化信息方面的差异。我们研究了 CLIP 为基底、颗粒聚集体和不同数量的对象提供的潜在表示。我们证明，与仅在文本数据上训练的模型相比，CLIP 嵌入更好地捕捉了个体化的量化差异。此外，我们从 CLIP 嵌入中推断出的个体化层次结构与语言学和认知科学中提出的层次结构一致。