LLM2D
基于最优传输将嵌入主题与在线数据流主题建模相结合
Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams
作者: Federica Granese, Benjamin Navet, Serena Villata, Charles Bouveyron
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07711v1

摘要

arXiv:2504.07711v1 类型: cross 摘要: 主题建模是无监督学习中的关键组成部分,用于在文本数据集中识别主题。随着社交媒体的迅速发展,每天生成的文本数据量持续增长,因此在线主题建模方法对于管理和处理不断涌入的数据流至关重要。本文介绍了一种新型在线主题建模方法,名为StreamETM。该方法基于嵌入主题模型(ETM)来处理数据流,通过不平衡最优传输合并连续的部分文档批次所学习的模型。此外,还采用了在线变化点检测算法来识别主题随时间的变化,从而能够识别文本流动态中的重要变化。对模拟和真实世界数据进行的数值实验表明,StreamETM在竞争对手中表现出色。