LLM2D
Home
Arxiv
返回列表
具有和不具有视觉接地的神经模型中的个体识别
Individuation in Neural Models with and without Visual Grounding
作者:
Alexey Tikhonov, Lisa Bylinina, Ivan P. Yamshchikov
发布日期:
9/30/2024
arXiv ID:
oai:arXiv.org:2409.18868v1
摘要
我们展示了语言和视觉模型 CLIP 与两个纯文本模型 FastText 和 SBERT 在编码个体化信息方面的差异。我们研究了 CLIP 为基底、颗粒聚集体和不同数量的对象提供的潜在表示。我们证明,与仅在文本数据上训练的模型相比,CLIP 嵌入更好地捕捉了个体化的量化差异。此外,我们从 CLIP 嵌入中推断出的个体化层次结构与语言学和认知科学中提出的层次结构一致。
查看原文
下载 PDF