摘要
本研究评估了大型语言模型 (LLM) 作为葡萄牙语医疗代理的性能,旨在开发可靠且相关的医疗保健专业人员虚拟助手。使用 GPT-3.5 将 HealthCareMagic-100k-en 和 MedQuAD 数据集从英语翻译成葡萄牙语,并使用 PEFT-QLoRA 方法对 ChatBode-7B 模型进行微调。最初在医疗数据上进行训练的 InternLM2 模型表现出最佳整体性能,在准确率、完整性和安全性等指标上具有高精度和适当性。然而,源自 ChatBode 的 DrBode 模型表现出灾难性遗忘已获得的医疗知识的现象。尽管如此,这些模型在语法性和连贯性等方面经常表现出色甚至更好。一个重大挑战是评审者间一致性低,突出了对更稳健评估协议的需求。这项工作为未来的研究铺平了道路,例如评估针对医疗领域的特定多语言模型,提高训练数据的质量,以及为医疗领域开发更一致的评估方法。