LLM2D
基于大规模语言模型的生物医药文献中癌症疫苗辅佐剂命名识别
Cancer Vaccine Adjuvant Name Recognition from Biomedical Literature using Large Language Models
作者: Hasin Rehana, Jie Zheng, Leo Yeh, Benu Bansal, Nur Bengisu \c{C}am, Christianah Jemiyo, Brett McGregor, Arzucan \"Ozg\"ur, Yongqun He, Junguk Hur
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09659v1

摘要

arXiv:2502.09659v1 增强类型: cross 摘要:动机:佐剂是添加到疫苗中的化学物质,通过改善免疫反应来增强疫苗的效果。从癌症疫苗研究中识别佐剂名称对于进一步的研究和提高免疫治疗具有重要意义。然而,从不断扩大的生物医学文献中进行手动整理带来了重大挑战。本研究探讨了使用大型语言模型(LLMs),特别是生成预训练变压器(GPT)和大型语言模型Meta AI(Llama)自动识别疫苗佐剂名称的方法。方法:我们使用了两个数据集:来自AdjuvareDB的97份临床试验记录和来自Vaccine Adjuvant Compendium (VAC)的290份带有标注的摘要。我们在零样本和少样本学习范式中使用了GPT-4o和Llama 3.2,每个提示最多使用了四个示例。提示明确针对佐剂名称,测试了上下文信息(如物质或干预措施)的影响。输出经过自动和手动验证以确保准确性和一致性。结果:GPT-4o在所有情况下达到了100%的精确度,并且在召回率和F1分数方面表现出明显的改进,尤其是在包含干预措施的情况下。在VAC数据集中,GPT-4o在包含干预措施的情况下达到了77.32%的最大F1分数,超过了Llama-3.2-3B约2%。在AdjuvareDB数据集中,GPT-4o在包含干预措施的三样本提示下达到了81.67%的F1分数,超过了Llama-3.2-3 B的最大F1分数65.62%。结论:我们的研究结果表明,LLMs在识别佐剂名称方面表现出色,包括识别稀有的命名变体。本研究强调了LLMs能够通过高效提取洞察力来增强癌症疫苗开发的潜力。未来的工作旨在扩大框架以涵盖各种生物医学文献,并增强模型在各种疫苗和佐剂方面的泛化能力。