LLM2D

摘要

arXiv:2501.14654v2 通知类型: replace-cross 摘要：近年来的大规模语言模型（LLMs）在多个方面取得了显著进展，特别是在它们能够作为代理执行任务的能力上，超越了其传统的聊天机器人角色。这些代理能够利用其规划和工具利用能力来解决高层指定的任务。然而，在医疗应用中，目前缺乏一个标准化的数据集来评估LLMs的代理能力，这使得在交互式医疗保健环境中评估LLMs进行复杂任务变得具有挑战性。为了解决这一缺口，我们提出了MedAgentBench，这是一个广泛的评估套件，旨在评估大型语言模型在医疗记录上下文中的代理能力。MedAgentBench 包含来自 10 个类别、由 100 名人类医生撰写的 300 项特定患者的临床衍生任务，具有超过 700,000 个数据元素的 100 个患者的真实患者配置文件，一个符合 FHIR 的交互式环境和一个相应的代码库。该环境使用现代EMR系统中的标准API和通信基础设施，因此可以轻松迁移到实时EMR系统中。MedAgentBench 提供了一个未饱和的面向代理的基准，当前最先进的LLMs在这个基准上展示出一定的成功能力。最佳模型（Claude 3.5 Sonnet v2）的成功率为 69.67%。然而，仍然存在很大的改进空间，这为社区指明了下一个优化方向。此外，不同任务类别在性能上有显著差异。MedAgentBench 确立了这一点，并在 https://github.com/stanfordmlgroup/MedAgentBench 上公开供公众使用，为模型开发人员提供了一个有价值的框架，以跟踪进展并推动大型语言模型在医疗领域的代理能力的持续改进。