LLM2D

摘要

arXiv:2504.04314v1 Announce Type: cross 摘要：聚类短文本数据的挑战在于平衡信息量与可解释性之间的关系。传统的评估指标往往忽视这种权衡。受沟通效率语言原则的启发，本文通过量化信息量与认知简单性之间的权衡来研究最优聚类数量。我们使用大型语言模型（LLMs）生成聚类名称，并通过语义密度、信息论和聚类准确性来评估其有效性。结果表明，使用LLM生成的嵌入进行Gaussian Mixture Model（GMM）聚类相较于随机分配增加了语义密度，有效地对相似的个人简介进行了分组。然而，随着聚类数量的增加，可解释性下降，这是通过生成性LLM根据聚类名称正确归类个人简介的能力来衡量的。逻辑回归分析证实，分类准确性取决于个人简介与其分配的聚类名称之间的语义相似性，以及它们与其他选项的区别。这些发现揭示了一个“金发姑娘区”，即聚类既具有区分性又具有可解释性。我们确定了一个最优范围，即16-22个聚类，这与语言效率在词汇分类中的应用相parallel。这些见解既适用于理论模型，也适用于实际应用，指导未来研究朝着优化聚类可解释性和实用性方向发展。