摘要
arXiv:2504.07711v1 类型: cross
摘要: 主题建模是无监督学习中的关键组成部分,用于在文本数据集中识别主题。随着社交媒体的迅速发展,每天生成的文本数据量持续增长,因此在线主题建模方法对于管理和处理不断涌入的数据流至关重要。本文介绍了一种新型在线主题建模方法,名为StreamETM。该方法基于嵌入主题模型(ETM)来处理数据流,通过不平衡最优传输合并连续的部分文档批次所学习的模型。此外,还采用了在线变化点检测算法来识别主题随时间的变化,从而能够识别文本流动态中的重要变化。对模拟和真实世界数据进行的数值实验表明,StreamETM在竞争对手中表现出色。