摘要
大型语言模型(LLMs)在各个领域和任务中展现了卓越的能力,推动了我们在学习和认知方面的知识边界。最新的模型,OpenAI的o1,作为首个采用强化学习策略的内化思维链技术的LLM,脱颖而出。尽管它在各种通用语言任务中展示了令人惊讶的强大能力,但在医学等专业领域的性能仍未可知。为此,本报告对o1在不同医疗场景中的表现进行了全面探索,考察了理解、推理和多语言能力三个关键方面。具体而言,我们的评估涵盖了6项任务,使用了来自37个医疗数据集的数据,其中包括基于《新英格兰医学杂志》(NEJM)和《柳叶刀》专业医学测验构建的两个新的更具挑战性的问答(QA)任务。与标准医疗QA基准(如MedQA)相比,这些数据集具有更高的临床相关性,更能有效地转化为实际临床应用。我们对o1的分析表明,LLMs增强的推理能力可能(显著)有助于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是,o1在19个数据集和两个新创建的复杂QA场景中的准确率分别比之前的GPT-4高出6.2%和6.6%。但与此同时,我们也发现了模型能力和现有评估协议中的几个弱点,包括幻觉、多语言能力不一致以及评估指标不一致。我们已在https://ucsc-vlaa.github.io/o1_medicine/发布了原始数据和模型输出,供未来研究使用。