摘要
arXiv:2504.00752v1 声明类型: cross
摘要:从非结构化文本中提取结构化信息对于建模现实世界过程至关重要,但传统的模式挖掘依赖于半结构化数据,限制了其可扩展性。本文介绍了一种名为 schema-miner 的新型工具,该工具结合了大语言模型和人类反馈,以自动化和细化模式提取。通过迭代的工作流程,它组织文本中的属性,整合专家输入,并结合领域特定的本体论以增加语义深度。在材料科学(具体而言是原子层沉积)中应用 schema-miner 表明,专家指导的大语言模型能够生成语义丰富的模式,适用于多种现实世界的应用。