摘要
arXiv:2502.14714v2 宣布类型:替换
摘要:LLM模型的生成能力为加速任务提供了机会,但同时也引发了对其生成知识真实性的问题。为了解决这些问题,我们提出了一种计算方法,用于评估LLM生成的生物医学知识的精确性。该方法包括两个过程:生成以疾病为中心的关联,并利用生物医学本体的语义框架验证这些关联。使用ChatGPT作为选定的LLM,我们设计了提示工程过程,以建立疾病与其相关药物、症状和基因之间的联系,并评估了多个ChatGPT模型(例如,GPT-turbo、GPT-4等)之间的一致性。实验结果表明,在识别疾病术语(88%-97%)、药物名称(90%-91%)和遗传信息(88%-98%)方面具有高精度。然而,症状术语的识别率较低(49%-61%),这是因为症状描述的非正式和冗长性质,这妨碍了与专门本体的正式语言的有效语义匹配。验证关联结果显示,疾病-药物和疾病-基因配对的文献覆盖率范围为89%-91%,而与症状相关的关联的覆盖率较低(49%-62%)。