LLM2D

摘要

arXiv:2409.14552v1 公告类型: 交叉摘要: 表情符号在社交平台上获得了极大的流行，成为补充或替代文本的常见手段。然而，现有的数据挖掘方法通常要么完全忽略表情符号，要么简单地将其视为普通的Unicode字符，这可能限制了模型捕捉表情符号中丰富的语义信息以及表情符号与文本之间互动的能力。因此，有必要在社交媒体数据挖掘中释放表情符号的力量。为此，我们首先构建了一个包含三种类型节点（即帖子、单词和表情符号节点）的异构图，以改进帖子中不同元素的表示。边也被明确定义，以模拟这三种元素之间的相互作用。为了促进帖子、单词和表情符号节点之间的信息共享，我们提出了一个用于文本和表情符号协同建模的图预训练框架，该框架包含两个图预训练任务：节点级图对比学习和边级链接重构学习。在包含两种类型下游任务的小红书和Twitter数据集上的广泛实验表明，我们的方法相较于之前的强基线方法取得了显著的改进。