LLM2D
面向葡萄牙语医疗领域的 LLM 适配:微调与模型评估研究
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation
作者: Pedro Henrique Paiola, Gabriel Lino Garcia, Jo\~ao Renato Ribeiro Manesco, Mateus Roder, Douglas Rodrigues, Jo\~ao Paulo Papa
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00163v1

摘要

本研究评估了大型语言模型 (LLM) 作为葡萄牙语医疗代理的性能,旨在开发可靠且相关的医疗保健专业人员虚拟助手。使用 GPT-3.5 将 HealthCareMagic-100k-en 和 MedQuAD 数据集从英语翻译成葡萄牙语,并使用 PEFT-QLoRA 方法对 ChatBode-7B 模型进行微调。最初在医疗数据上进行训练的 InternLM2 模型表现出最佳整体性能,在准确率、完整性和安全性等指标上具有高精度和适当性。然而,源自 ChatBode 的 DrBode 模型表现出灾难性遗忘已获得的医疗知识的现象。尽管如此,这些模型在语法性和连贯性等方面经常表现出色甚至更好。一个重大挑战是评审者间一致性低,突出了对更稳健评估协议的需求。这项工作为未来的研究铺平了道路,例如评估针对医疗领域的特定多语言模型,提高训练数据的质量,以及为医疗领域开发更一致的评估方法。