LLM2D

摘要

arXiv:2502.02249v1 类型: cross 摘要：大规模语言模型（LLMs）在自然语言处理任务中展示了令人印象深刻的能力，包括对话生成。本研究旨在通过多种混合医疗领域的医生-患者聊天对话数据集，对两种主要技术进行新的对比分析：带有 LoRA（低秩适应）的微调和 Retrieval-Augmented Generation（RAG）框架。分析涉及三种最先进的模型：Llama-2、GPT 和 LSTM 模型。利用真实世界的医生-患者对话，我们全面评估了这些模型的性能，评估了诸如语言质量（困惑度、BLEU 分数）、事实准确性（与医学知识库的核对准确度）、对医疗指南的遵守情况以及整体的人类评判（连贯性、同理心、安全性）等关键指标。研究结果提供了每种方法的优势和局限性的见解，揭示了它们在医疗保健应用中的适用性。此外，研究还探讨了模型在处理从一般健康咨询到具体医学状况等多种患者查询方面的鲁棒性。还探讨了特定领域知识集成的影响，突显了通过有针对性的数据增强和检索策略增强 LLM 性能的潜力。