LLM2D

摘要

arXiv:2502.05704v1 类别: cross 摘要：词语相似性在社会科学研究和文化分析任务（如衡量意义随时间的变化以及理解争议性术语）中有很多应用。然而，基于词嵌入余弦相似性的传统相似性方法难以捕捉语义相似性的上下文依赖性、不对称性以及多义性。我们提出了一种新的相似性度量——词语混淆（Word Confusion），重新定义语义相似性为基于特征的分类混淆。词语混淆受到Tversky关于相似性特征应动态选择的建议启发。在此，我们训练了一个分类器以将上下文嵌入映射到词语身份，并使用分类器混淆（即选择混淆词语c而不是正确目标词语t的概率）作为c和t相似性的度量。潜在的混淆词语集合充当了选择的特征集。我们的方法在多个数据集（MEN、WSDiag353和SimLex）上与余弦相似性在匹配人类相似性判断方面具有可比性，并能够使用感兴趣的预定义特征来测量相似性。我们通过将其应用于测试一个关于“革命”（revolution）一词在法国大革命期间从大众行为到国家行动意义变化的假设，展示了模型能够利用动态特征的能力。我们希望这种对语义相似性的重新构想将激发开发能够更好地捕捉语言的多面性和动态性的新工具，促进计算社会科学和文化分析等领域的进步。