摘要
arXiv:2504.04314v1 Announce Type: cross
摘要:聚类短文本数据的挑战在于平衡信息量与可解释性之间的关系。传统的评估指标往往忽视这种权衡。受沟通效率语言原则的启发,本文通过量化信息量与认知简单性之间的权衡来研究最优聚类数量。我们使用大型语言模型(LLMs)生成聚类名称,并通过语义密度、信息论和聚类准确性来评估其有效性。结果表明,使用LLM生成的嵌入进行Gaussian Mixture Model(GMM)聚类相较于随机分配增加了语义密度,有效地对相似的个人简介进行了分组。然而,随着聚类数量的增加,可解释性下降,这是通过生成性LLM根据聚类名称正确归类个人简介的能力来衡量的。逻辑回归分析证实,分类准确性取决于个人简介与其分配的聚类名称之间的语义相似性,以及它们与其他选项的区别。
这些发现揭示了一个“金发姑娘区”,即聚类既具有区分性又具有可解释性。我们确定了一个最优范围,即16-22个聚类,这与语言效率在词汇分类中的应用相parallel。这些见解既适用于理论模型,也适用于实际应用,指导未来研究朝着优化聚类可解释性和实用性方向发展。