LLM2D
小的还是大的?零样本还是微调?指导面向医疗健康领域专业化应用的语言模型选择
Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare
作者: Lovedeep Gondara, Jonathan Simkin, Graham Sayle, Shebnum Devji, Gregory Arbour, Raymond Ng
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21191v1

摘要

arXiv:2504.21191v1 宣告类型: 横跨领域 摘要:本研究旨在通过调查以下方面来指导语言模型的选择:1)微调与零样本使用的必要性,2)领域相邻预训练模型与通用预训练模型的益处,3)进一步领域特定预训练的价值,以及4)小型语言模型(SLMs)与大型语言模型(LLMs)在特定任务中持续的相关性。使用不列颠哥伦比亚癌症登记处(BCCR)的电子病理报告,本研究评估了三种不同难度和数据量的分类场景。模型包括各种SLMs和一个LLM。SLMs在零样本和微调两种情况下进行评估;LLM仅在零样本情况下进行评估。与零样本结果相比,微调显著提升了所有场景中SLMs的性能。零样本的LLM在所有场景中均优于零样本的SLMs,但始终被微调的SLMs所超越。经过微调的领域相邻SLMs在所有场景中普遍优于通用预训练的SLMs,特别是在更难的任务中表现更加突出。进一步的领域特定预训练在较简单任务中提供了适度的性能提升,但在复杂的、数据稀缺的任务中则取得了显著改善。结果突显了在专门领域中对SLMs进行微调对于改进其性能的关键作用,使其能够在针对特定分类任务时超越零样本LLMs的表现。在领域相邻或特定领域数据上的预训练提供了进一步的优势,特别是在复杂问题或有限的微调数据情况下。尽管LLMs提供了强大的零样本能力,但它们在这项特定任务中的表现并未达到适当微调的SLMs的水平。在LLMs的时代,SLMs仍然具有相关性和有效性,提供了一种相较于LLMs更具性能-资源优势的替代方案。