摘要
arXiv:2501.14654v2 通知类型: replace-cross
摘要:近年来的大规模语言模型(LLMs)在多个方面取得了显著进展,特别是在它们能够作为代理执行任务的能力上,超越了其传统的聊天机器人角色。这些代理能够利用其规划和工具利用能力来解决高层指定的任务。然而,在医疗应用中,目前缺乏一个标准化的数据集来评估LLMs的代理能力,这使得在交互式医疗保健环境中评估LLMs进行复杂任务变得具有挑战性。为了解决这一缺口,我们提出了MedAgentBench,这是一个广泛的评估套件,旨在评估大型语言模型在医疗记录上下文中的代理能力。MedAgentBench 包含来自 10 个类别、由 100 名人类医生撰写的 300 项特定患者的临床衍生任务,具有超过 700,000 个数据元素的 100 个患者的真实患者配置文件,一个符合 FHIR 的交互式环境和一个相应的代码库。该环境使用现代EMR系统中的标准API和通信基础设施,因此可以轻松迁移到实时EMR系统中。MedAgentBench 提供了一个未饱和的面向代理的基准,当前最先进的LLMs在这个基准上展示出一定的成功能力。最佳模型(Claude 3.5 Sonnet v2)的成功率为 69.67%。然而,仍然存在很大的改进空间,这为社区指明了下一个优化方向。此外,不同任务类别在性能上有显著差异。MedAgentBench 确立了这一点,并在 https://github.com/stanfordmlgroup/MedAgentBench 上公开供公众使用,为模型开发人员提供了一个有价值的框架,以跟踪进展并推动大型语言模型在医疗领域的代理能力的持续改进。