LLM2D
基于Transformer嵌入和聚类算法的语义驱动主题建模
Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms
作者: Melkamu Abay Mersha, Mesay Gemeda yigezu, Jugal Kalita
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.00134v1

摘要

主题建模是一种强大的技术,可以无需先验知识地发现文档集合中隐藏的主题和模式。传统的主题建模和基于聚类的技术在捕获上下文语义信息方面面临挑战。本研究介绍了一种创新的端到端语义驱动主题建模技术,用于主题提取过程,利用先进的词语和文档嵌入,并结合强大的聚类算法。这种语义驱动方法代表了主题建模方法的重大进步。它利用上下文语义信息来提取连贯且有意义的主题。具体来说,我们的模型使用预训练的基于 Transformer 的语言模型生成文档嵌入,降低嵌入的维度,根据语义相似性对嵌入进行聚类,并为每个聚类生成连贯的主题。与 ChatGPT 和传统的主题建模算法相比,我们的模型提供了更连贯和更有意义的主题。