LLM2D
一种处理文本文档图特征聚类中负相似性的方法——扩展版
A Method for Handling Negative Similarities in Explainable Graph Spectral Clustering of Text Documents -- Extended Version
作者: Mieczys{\l}aw A. K{\l}opotek, S{\l}awomir T. Wierzcho\'n, Bart{\l}omiej Starosta, Dariusz Czerski, Piotr Borkowski
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12360v1

摘要

arXiv:2504.12360v1 类型: cross 摘要:本文探讨了由不同于传统词向量空间(如doc2vec、GloVe等)的文档嵌入产生的负相似性导致的图谱聚类问题。讨论了组合Laplacian和规范化Laplacian的解决方案。实验研究表明,文献中提出以及在本研究中提出的不同解决方案各有优势和不足。研究展示了GloVe嵌入经常导致基于规范化Laplacian的图谱聚类出现问题,尤其是由于负相似性。此外,应用治愈相似性负性的方法可以提高基于组合Laplacian和规范化Laplacian的图谱聚类的准确性,并且可以使得原本为词向量空间嵌入开发的解释方法适用于GloVe嵌入。