LLM2D
将碎片整合成整体:通过子模选择有趣的网页挖掘更完整的集群用于网络主题检测
Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12380v1

摘要

arXiv:2409.12380v1 公告类型: 交叉 摘要: 将有趣的网页组织成热门话题是理解多模态网络数据趋势的关键步骤之一。一种最先进的解决方案是首先将网页组织成大量多粒度的话题候选;然后通过估计其趣味性来进一步识别热门话题。然而,由于特征表示效率低下和无监督话题生成,这些话题候选中包含了大量热门话题的片段。本文提出了一种捆绑-精炼方法,从片段中挖掘更完整的热门话题。具体来说,捆绑步骤将片段话题组织成粗略话题;接下来,精炼步骤提出了一种基于子模型的方法,以可扩展的方式精炼粗略话题。所提出的非常规方法简单而强大,通过利用子模型优化,我们的方法优于传统排序方法,后者涉及精心设计和复杂步骤。大量实验表明,所提出的方法在两个公共数据集上分别比最先进的方法(即潜在泊松反卷积Pang等人(2016))提高了20%的准确率和10%的准确率。