LLM2D

摘要

arXiv:2502.02249v1 宣告类型: cross 摘要：大型语言模型（LLMs）在自然语言处理任务中展现了令人印象深刻的性能，包括对话生成。这项研究旨在在多种医学领域的混杂数据集中，对医生-患者对话对话进行新型比较分析，具体分析两种主要技术：带有LoRA（低秩适应）的微调和检索增强生成（RAG）框架。分析涉及三款最先进的模型：Llama-2、GPT和LSTM模型。利用真实世界的医生-患者对话，我们全面评估了模型的性能，评估关键指标如语言质量（困惑度、BLEU分数）、事实准确性（与医学知识库的事实核查）、对医学指导原则的遵守情况以及总体的人类判断（连贯性、同情心、安全性）。研究结果提供了每种方法的优势和不足的见解，为医疗应用中的适用性提供了方向。此外，研究还探讨了模型在处理从一般健康咨询到特定医学状况的各种患者查询时的稳健性。还探讨了领域特定知识集成的影响，强调了通过目标数据增强和检索策略提升LLM性能的潜力。