LLM2D
MMedAgent:学习使用多模态智能体进行医疗工具操作
MMedAgent: Learning to Use Medical Tools with Multi-modal Agent
作者: Binxu Li, Tiankai Yan, Yuanting Pan, Jie Luo, Ruiyang Ji, Jiayuan Ding, Zhe Xu, Shilong Liu, Haoyu Dong, Zihao Lin, Yixin Wang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.02483v2

摘要

尽管多模态大型语言模型 (MLLMs) 取得了成功,但它们在通用性方面有限,与专门模型相比往往逊色。最近,人们开发了基于 LLMs 的代理来解决这些挑战,这些代理根据用户输入选择合适的专门模型作为工具。然而,这种进步在医疗领域尚未得到广泛探索。为了弥合这一差距,本文介绍了第一个专门为医疗领域设计的代理,名为**多模态医疗代理** (MMedAgent)。我们整理了一个指令微调数据集,其中包含六种解决七项任务的医疗工具,涵盖五种模态,使代理能够为给定任务选择最合适的工具。全面的实验表明,与最先进的开源方法甚至闭源模型 GPT-4o 相比,MMedAgent 在各种医疗任务中取得了优异的性能。此外,MMedAgent 在更新和集成新的医疗工具方面表现出效率。代码和模型均可获取。