摘要
**背景:**在过去的几十年中,许多生命科学资源使用相同的框架构建数据,并使用相同的查询语言使这些数据可访问,以促进互操作性。知识图谱因其以通用图形格式表示数据的优势,在生物信息学中得到了越来越多的应用。例如,yummydata.org 目录了超过 60 个可通过 SPARQL(一种技术查询语言)访问的知识图谱。虽然 SPARQL 允许跨物理分布的知识图谱进行强大的、表达能力强的查询,但对于大多数用户来说,制定这样的查询仍然是一个挑战。因此,为了指导用户检索相关数据,许多这些资源提供了代表性的示例。如果提供了足够多的示例,并在不同资源之间以通用、机器可读且标准化的格式发布,这些示例也可以成为机器学习的重要信息来源。
**发现:**我们介绍了一个大型的、由人工编写的自然语言问题及其对应 SPARQL 查询的集合,这些查询是在瑞士生物信息学研究所 (SIB) 的多个研究小组中,历经数年收集的,涵盖了多个联合生物信息学知识图谱 (KG)。该集合包含 1000 多个示例问题和查询,其中包括 65 个联合查询。我们提出了一种方法,以基于现有标准,使用最少的元数据来统一表示示例。此外,我们还介绍了一组广泛的开源应用程序,包括查询图可视化和智能查询编辑器,KG维护者可以轻松地重复使用这些应用程序,他们采用了我们提出的方法。
**结论:**我们鼓励社区采用和扩展我们提出的方法,以实现更丰富的 KG 元数据和改进的语义网服务。