LLM2D

摘要

文本属性图 (TAG) 通过自然语言描述增强图结构，从而促进对各种现实世界环境中数据及其互连的详细描述。然而，现有的 TAG 数据集主要只在节点上具有文本信息，而边通常仅由简单的二元或分类属性表示。这种缺乏丰富的文本边注释严重限制了对实体之间上下文关系的探索，阻碍了对图结构数据的更深入理解。为了解决这一差距，我们引入了文本边图数据集和基准 (TEG-DB)，这是一个全面且多样化的基准文本边数据集集合，其节点和边上都具有丰富的文本描述。TEG-DB 数据集大规模且涵盖广泛的领域，从引用网络到社交网络。此外，我们对 TEG-DB 进行了广泛的基准测试，以评估包括预训练语言模型、图神经网络及其组合在内的当前技术能够在多大程度上利用文本节点和边信息。我们的目标是促进文本边图研究的进步，特别是在开发利用丰富的文本节点和边描述来增强图分析并提供对复杂现实世界网络更深入见解的方法方面。整个 TEG-DB 项目作为一个开源存储库公开访问，可在 Github 上访问，网址为 https://github.com/Zhuofeng-Li/TEG-Benchmark。