LLM2D

摘要

大型语言模型（LLMs）在各个领域和任务中展现了卓越的能力，推动了我们在学习和认知方面的知识边界。最新的模型，OpenAI的o1，作为首个采用强化学习策略的内化思维链技术的LLM，脱颖而出。尽管它在各种通用语言任务中展示了令人惊讶的强大能力，但在医学等专业领域的性能仍未可知。为此，本报告对o1在不同医疗场景中的表现进行了全面探索，考察了理解、推理和多语言能力三个关键方面。具体而言，我们的评估涵盖了6项任务，使用了来自37个医疗数据集的数据，其中包括基于《新英格兰医学杂志》（NEJM）和《柳叶刀》专业医学测验构建的两个新的更具挑战性的问答（QA）任务。与标准医疗QA基准（如MedQA）相比，这些数据集具有更高的临床相关性，更能有效地转化为实际临床应用。我们对o1的分析表明，LLMs增强的推理能力可能（显著）有助于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是，o1在19个数据集和两个新创建的复杂QA场景中的准确率分别比之前的GPT-4高出6.2%和6.6%。但与此同时，我们也发现了模型能力和现有评估协议中的几个弱点，包括幻觉、多语言能力不一致以及评估指标不一致。我们已在https://ucsc-vlaa.github.io/o1_medicine/发布了原始数据和模型输出，供未来研究使用。