LLM2D

摘要

**背景：**在过去的几十年中，许多生命科学资源使用相同的框架构建数据，并使用相同的查询语言使这些数据可访问，以促进互操作性。知识图谱因其以通用图形格式表示数据的优势，在生物信息学中得到了越来越多的应用。例如，yummydata.org 目录了超过 60 个可通过 SPARQL（一种技术查询语言）访问的知识图谱。虽然 SPARQL 允许跨物理分布的知识图谱进行强大的、表达能力强的查询，但对于大多数用户来说，制定这样的查询仍然是一个挑战。因此，为了指导用户检索相关数据，许多这些资源提供了代表性的示例。如果提供了足够多的示例，并在不同资源之间以通用、机器可读且标准化的格式发布，这些示例也可以成为机器学习的重要信息来源。 **发现：**我们介绍了一个大型的、由人工编写的自然语言问题及其对应 SPARQL 查询的集合，这些查询是在瑞士生物信息学研究所 (SIB) 的多个研究小组中，历经数年收集的，涵盖了多个联合生物信息学知识图谱 (KG)。该集合包含 1000 多个示例问题和查询，其中包括 65 个联合查询。我们提出了一种方法，以基于现有标准，使用最少的元数据来统一表示示例。此外，我们还介绍了一组广泛的开源应用程序，包括查询图可视化和智能查询编辑器，KG维护者可以轻松地重复使用这些应用程序，他们采用了我们提出的方法。 **结论：**我们鼓励社区采用和扩展我们提出的方法，以实现更丰富的 KG 元数据和改进的语义网服务。