LLM2D

摘要

我们提出了 VoxelPrompt，一个基于代理的视觉-语言框架，通过联合建模自然语言、图像体积和分析指标来解决各种放射学任务。VoxelPrompt 是多模态且通用的，利用语言交互的灵活性，同时提供定量化的图像分析。给定可变数量的 3D 医学体积，如 MRI 和 CT 扫描，VoxelPrompt 采用语言代理，该代理迭代地预测可执行指令以解决由输入提示指定的任务。这些指令与视觉网络通信以编码图像特征并生成体积输出（例如，分割）。VoxelPrompt 解释中间指令的结果并计划进一步的操作以计算离散度量（例如，一系列扫描中的肿瘤生长）并将相关输出呈现给用户。我们在各种神经影像任务的沙盒中评估了该框架，结果表明，单个 VoxelPrompt 模型可以描绘数百种解剖学和病理学特征，测量许多复杂的形态学特性，并执行病灶特征的开放式语言分析。VoxelPrompt 以与针对分割和视觉问答的微调单任务模型类似的精度执行这些目标，同时促进更广泛的任务范围。因此，通过支持语言交互的准确图像处理，VoxelPrompt 为众多成像任务提供了全面的实用性，这些任务传统上需要专门的模型来解决。