摘要
arXiv:2503.08292v2 宣告类型:替换交叉
摘要:大型语言模型(LLMs)在医疗保健系统中越来越多地应用于门诊转诊任务。然而,缺乏标准化的评价标准来评估它们的有效性,尤其是在动态、交互的场景中。在本研究中,我们系统地探讨了LLMs在智能门诊转诊(IOR)系统中管理任务的能力和限制,并提出了一种专门为此类系统设计的全面评价框架。该框架包含两个核心任务:静态评估,专注于评估预定义门诊转诊的能力;动态评估,通过迭代对话评估优化门诊转诊建议的能力。我们的研究发现,LLMs在与Bert-like模型相比时,并未显示出明显的优势,但在互动对话中提出有效问题方面表现出潜力。