LLM2D

摘要

arXiv:2504.02799v1 类型: cross 摘要：大型视觉-语言模型为基于AI的图像理解提供了新的范式，使模型能够在没有任务特定训练的情况下执行任务。这种灵活性在医学领域尤为有前景，因为医学领域的专家标注数据稀缺。然而，在以干预为中心的领域——尤其是在手术中，决策主观性强且临床场景变化多端——VLMs的实际实用价值仍然存疑。在本文中，我们对11种最先进的VLMs在17项关键的外科AI视觉理解任务上的表现进行了全面分析，涵盖了从解剖结构识别到技能评估的各个方面，使用了跨越腹腔镜、机器人和开放手术的13个数据集。在我们的实验中，VLMs展示了有前景的泛化能力，有时在部署到训练环境外时甚至超过了监督模型。上下文学习，即在测试期间结合示例，将性能提高了三倍左右，表明适应性是其关键优势之一。尽管如此，需要空间或时间推理解析的任务仍然具有挑战性。除了手术，我们的研究结果还为VLMs在临床及更广泛的实际应用中应对复杂和动态场景的潜力提供了见解。