LLM2D

摘要

arXiv:2502.10768v1 类别: cross 摘要: 当前的研究突显了大型语言模型（LLMs）在构建学术知识图谱（SKGs）方面的巨大潜力。这个过程中的一个特别复杂的步骤是关系提取，旨在识别适合描述研究内容的属性。这项研究直接建立在之前关于三位开放研究知识图谱（ORKG）团队成员的研究基础上，他们评估了GPT-3.5、Llama 2和Mistral等LLM在科学文献中属性提取方面的准备情况。鉴于观察到的中等性能，之前的研究所得出的结论是需要进行微调以提高这些模型与科学任务的契合度以及模仿人类专业知识的能力。基于先前的实验，这项研究评估了高级提示工程技术的影响，并证明这些技术可以显著提高提取结果。此外，这项研究将属性提取过程扩展到包括与通过API检索到的ORKG属性进行匹配，从而进一步增强了所达到的匹配度。此外，这项研究为解决ORKG属性的一致性问题奠定了基础，这是之前研究中指出的一个问题。通过分配唯一的URI并使用标准化术语，这项工作提高了属性的一致性，满足了链接数据和FAIR原则的核心承诺——ORKG的核心承诺之一。这反过来显著增强了ORKG内容在后续任务如研究论文比较方面的适用性。最后，研究提出了对未来整体属性提取过程改进的建议。