LLM2D

摘要

arXiv:2403.17706v2 宣告类型: 替换-交叉摘要：在推文和新闻片段等短文本中有效地建模主题对于捕捉快速演变的社会趋势至关重要。现有主题模型通常难以准确捕捉短文本下的语义模式，主要是由于此类数据的稀疏性。这种文本的性质导致不可避免地缺乏共现信息，这阻碍了挖掘主题的一致性和细粒度。本文介绍了一种新的模型无关机制，称为主题细化，该机制利用大型语言模型（LLMs）的高级文本理解能力来进行短文本主题建模。与传统方法不同，这种后处理机制通过提示工程技术来提高各种主题建模方法提取的主题质量。我们指导LLMs识别提取主题中的语义异类词，并建议一致的替代词来替换这些词。这一过程模仿了人类识别、评估和细化提取主题的方式。对四个不同数据集的广泛实验表明，主题细化提高了主题质量，并提高了与主题相关文本分类任务的表现。