摘要
arXiv:2504.00869v1 Announce Type: cross
摘要:测试时缩放已成为提升大型语言模型推理能力的一种强大技术。然而,它在医学推理中的有效性仍不清楚,因为医学领域在知识表示和决策过程方面与数学任务存在本质上的差异。在本文中,我们提供了首个关于医学推理中的测试时缩放的全面调查,并提出了一种简单而有效的方法m1,该方法在推理时增强了模型的医学推理能力。我们在多种医学任务上的评估表明,测试时缩放能够持续提升医学推理能力,使轻量级的微调模型(参数少于10B)能够达到新的先进性能,而我们的32B模型能够与之前的70B规模的医学大型语言模型相媲美。然而,我们确定了一个大约4K的最优推理令牌预算,在此预算之外,性能可能会因过度思考而下降。预算约束,即通过迭代提示扩展测试时计算,有助于模型双重检查答案,但不一定能够提高整体医学问答性能,在某些情况下甚至会引入原本正确答案中的错误。我们逐案分析识别出缺乏医学知识是阻碍通过测试时缩放进一步提升性能的关键瓶颈。我们发现,增加数据规模、提高数据质量以及扩展模型容量能够一致地增强医学知识接地,从而实现持续的性能改进,尤其是在小型模型达到饱和的挑战性医学基准测试中。这些发现突显了LLMs中医学与数学推理之间的根本差异,强调了除了单纯的推理深度增加之外,丰富的医学知识对于实现测试时缩放的好处是必不可少的。