LLM2D

摘要

arXiv:2502.10522v1 宣告类型: 新摘要: 将大型语言模型 (LLMs) 应用于图形数据最近引起了广泛关注。LLMs 允许我们在文本标注的图中使用预训练模型的深层次上下文嵌入，而在节点的文本属性中通常使用浅层次嵌入。然而，仍然具有挑战性的是将图形结构和特征高效地编码为 LLM 可用的序列形式。此外，单独的 LLM 的性能高度依赖于输入提示的结构，这限制了它们作为可靠方法的有效性，并且通常需要反复的手动调整，这可能会变得缓慢、繁琐且难以程序化地复现。在这篇论文中，我们提出了一种称为 GraphiT（图形在文本中）的框架，用于将图形编码为文本格式，并优化 LLM 提示以用于图形预测任务。在这里我们关注的是文本标注的图形中的节点分类。我们将每个节点及其邻域的图形数据编码为简洁的文本，以使 LLM 更好地利用图中的信息。然后，我们使用 DSPy 框架进一步程序化地优化 LLM 提示，以自动化这一步骤，使其更具效率和可重现性。GraphiT 在三个数据集上超过了我们的基于 LLM 的基线，并展示了 GraphiT 中的优化步骤如何在无需手动提示调整的情况下实现可测量的改进。我们还展示了我们的图形编码方法在与其它图形编码方法竞争的同时，由于使用显著较少的令牌而更具成本效益。