摘要
arXiv:2504.09877v1 宣告类型:交叉
摘要: IBM Technotes 等简短的技术支持页面在技术支持领域非常常见。这些页面可以作为聊天机器人、搜索引擎和问答系统等技术支持应用的知识来源非常有用。从文档中提取用于驱动技术支持应用的信息通常以知识图谱(KG)的形式存储。从大量文档语料库构建知识图谱面临粒度上的挑战,因为每个页面上存在大量的实体和动作。如果将这些页面上的所有实体和动作都存储到知识图谱中,知识图谱将变得实际上无法使用。因此,仅从每个页面中提取关键的实体和动作并存储到知识图谱中。然而,这种方法导致了未包含在知识图谱中的实体和动作所表示的知识的损失,因为这些信息不再可供图搜索和推理功能使用。我们提出了一套技术来为这些网页创建微型知识图谱(微图)。微图存储了页面上的所有实体和动作,并利用页面的结构来表示这些实体和动作出现在页面的哪个部分,以及它们之间的关系。这些微图可以作为技术支持应用的额外知识来源。我们定义了表示技术支持网页中半结构化和纯文本知识的模式。技术支持领域中的解决方案包括由步骤组成的程序。我们还提出了一种从这些网页中提取程序并在微图中表示它们的技术。我们还讨论了技术支持应用如何利用微图。