LLM2D
BMRetriever:微调大型语言模型以成为更优秀的生物医学文本检索器
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers
作者: Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu, May D. Wang, Joyce C. Ho, Chao Zhang, Carl Yang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2404.18443v2

摘要

开发有效的生物医学检索模型对于在知识密集型生物医学任务中取得优异成绩至关重要,但由于缺乏足够的公开注释的生物医学数据和计算资源,这一任务仍然具有挑战性。我们提出了BMRetriever,这是一系列密集检索器,通过在大型生物医学语料库上进行无监督预训练,然后在标记数据集和合成对的组合上进行指令微调,以增强生物医学检索。在11个数据集上的5个生物医学任务上的实验验证了BMRetriever在各种生物医学应用中的有效性。BMRetriever还表现出强大的参数效率,4.1亿参数的变体性能超过了大至11.7倍的基线,而20亿参数的变体则与超过50亿参数的模型性能相当。为了确保透明度、可重复性和对新领域的应用,我们发布了训练数据和模型检查点,网址为\url{https://huggingface.co/BMRetriever}。