摘要
基础模型正成为医学领域中宝贵的工具。尽管它们前景广阔,但如何最好地利用大型语言模型(LLMs)来完成复杂的医疗任务仍然是一个开放性问题。我们引入了一个名为医疗决策代理(MDAgents)的新型多代理框架,通过自动分配协作结构给 LLM 团队,帮助弥合这一差距。分配的单人或团队协作结构是针对手头的医疗任务量身定制的,模拟了现实世界中适应不同复杂程度任务的医疗决策过程。我们使用最先进的 LLM 在一系列现实世界的医疗知识和医疗诊断基准上评估了我们的框架和基线方法。MDAgents 在需要理解医疗知识和多模态推理的十个基准测试中的七个中取得了最佳性能,与之前方法的最佳性能相比,显示出高达 6.5%(p < 0.05)的显著改进。消融研究表明,MDAgents 有效地确定了医疗复杂性,以优化各种医疗任务的效率和准确性。值得注意的是,在团队协作中结合主持人审查和外部医疗知识,平均准确率提高了 11.8%。我们的代码可以在 https://github.com/mitmedialab/MDAgents 找到。