LLM2D

摘要

表情符号在社交平台上已获得极大普及，成为补充或替代文本的常见手段。然而，现有的数据挖掘方法通常要么完全忽略表情符号，要么将它们简单地视为普通 Unicode 字符，这可能限制了模型理解表情符号中丰富语义信息以及表情符号与文本之间交互的能力。因此，有必要在社交媒体数据挖掘中释放表情符号的力量。为此，我们首先构建了一个由三种类型的节点组成的异构图，即帖子节点、单词节点和表情符号节点，以改进帖子中不同元素的表示。边也经过精心定义，以模拟这三种元素如何相互作用。为了促进帖子、单词和表情符号节点之间信息的共享，我们提出了一种文本和表情符号联合建模的图预训练框架，该框架包含两个图预训练任务：节点级图对比学习和边级链接重建学习。在小红书和 Twitter 数据集上进行的广泛实验，以及两种类型的下游任务，证明了我们的方法比以前强大的基线方法有了显著的改进。