LLM2D

摘要

arXiv:2406.16321v2 公告类型: replace-cross 摘要：图形机器学习在近年来取得了显著进展，但在视觉信息与图形结构的整合及其在下游任务中提高性能的潜力方面仍然存在未开发的领域。为解决这一关键缺口，我们介绍了Multimodal Graph Benchmark (MM-GRAPH)，这是一个开创性的基准，它将视觉和文本信息纳入图学习任务中。MM-GRAPH超越了现有的文本标注图形基准，提供了一个更全面的多模态图学习评估框架。我们的基准包括七个不同规模的多样数据集（从数千到数百万条边不等），旨在评估各种任务在现实场景中的算法表现。这些数据集包含丰富的多模态节点属性，包括视觉数据，这使得在复杂多模态环境中对各种图学习框架进行全面评估成为可能。为支持这一新兴领域的进步，我们对在多种模态特征下展示的各种图学习框架进行了详尽的实证研究，特别强调了视觉信息的影响。这项研究提供了将视觉数据整合到图学习中的挑战和机遇的有价值的见解。