LLM2D

小的还是大的？零样本还是微调？指导面向医疗健康领域专业化应用的语言模型选择

Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

作者: Lovedeep Gondara, Jonathan Simkin, Graham Sayle, Shebnum Devji, Gregory Arbour, Raymond Ng

发布日期: 5/1/2025

arXiv ID: oai:arXiv.org:2504.21191v1

摘要

arXiv:2504.21191v1 宣告类型: 横跨领域摘要：本研究旨在通过调查以下方面来指导语言模型的选择：1）微调与零样本使用的必要性，2）领域相邻预训练模型与通用预训练模型的益处，3）进一步领域特定预训练的价值，以及4）小型语言模型（SLMs）与大型语言模型（LLMs）在特定任务中持续的相关性。使用不列颠哥伦比亚癌症登记处（BCCR）的电子病理报告，本研究评估了三种不同难度和数据量的分类场景。模型包括各种SLMs和一个LLM。SLMs在零样本和微调两种情况下进行评估；LLM仅在零样本情况下进行评估。与零样本结果相比，微调显著提升了所有场景中SLMs的性能。零样本的LLM在所有场景中均优于零样本的SLMs，但始终被微调的SLMs所超越。经过微调的领域相邻SLMs在所有场景中普遍优于通用预训练的SLMs，特别是在更难的任务中表现更加突出。进一步的领域特定预训练在较简单任务中提供了适度的性能提升，但在复杂的、数据稀缺的任务中则取得了显著改善。结果突显了在专门领域中对SLMs进行微调对于改进其性能的关键作用，使其能够在针对特定分类任务时超越零样本LLMs的表现。在领域相邻或特定领域数据上的预训练提供了进一步的优势，特别是在复杂问题或有限的微调数据情况下。尽管LLMs提供了强大的零样本能力，但它们在这项特定任务中的表现并未达到适当微调的SLMs的水平。在LLMs的时代，SLMs仍然具有相关性和有效性，提供了一种相较于LLMs更具性能-资源优势的替代方案。

查看原文下载 PDF