LLM2D

摘要

开发有效的生物医学检索模型对于在知识密集型生物医学任务中取得优异成绩至关重要，但由于缺乏足够的公开注释的生物医学数据和计算资源，这一任务仍然具有挑战性。我们提出了BMRetriever，这是一系列密集检索器，通过在大型生物医学语料库上进行无监督预训练，然后在标记数据集和合成对的组合上进行指令微调，以增强生物医学检索。在11个数据集上的5个生物医学任务上的实验验证了BMRetriever在各种生物医学应用中的有效性。BMRetriever还表现出强大的参数效率，4.1亿参数的变体性能超过了大至11.7倍的基线，而20亿参数的变体则与超过50亿参数的模型性能相当。为了确保透明度、可重复性和对新领域的应用，我们发布了训练数据和模型检查点，网址为\url{https://huggingface.co/BMRetriever}。