LLM2D
大规模语言模型下的低成本文本聚类
Cost-Effective Text Clustering with Large Language Models
作者: Hongtao Wang, Taiyan Zhang, Renchi Yang, Jianliang Xu
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15640v1

摘要

arXiv:2504.15640v1 交叉类型: cross 摘要: 文本聚类的目标是根据语言特征自动将文本文档集合划分为不同的聚类。在文献中,这项任务通常被构架为基于预训练编码器的文本嵌入的度量聚类问题,或者基于一对文档间相似性的图聚类问题,例如一个大型机器学习模型。近年来,大规模语言模型(LLMs)在这一领域带来了显著的进步,通过提供上下文化的文本嵌入和高度准确的相似性评分,但同时也带来了巨大的挑战,因为这些模型需要大量的API调用或推理调用来处理计算和/或成本上的巨大开销。 为此,本文提出了一种名为TECL的有效框架,该框架在有限的LLMs查询预算内利用LLMs的反馈进行准确的文本聚类。在内部,TECL采用我们的EdgeLLM或TriangleLLM来构建文本对的必须链接/无法链接约束,并进一步利用这些约束作为监督信号输入到我们的加权约束聚类方法中以生成聚类。特别是,EdgeLLM(分别)通过精心设计的贪婪算法识别需要查询LLMs的有信息量的文本对(分别)通过巧妙构思的提示技术准确提取了文本对的约束。我们在多个基准数据集上的实验表明,在相同的LLMs查询成本下,TECL在无监督文本聚类中始终并且显著地优于现有解决方案。