LLM2D

摘要

arXiv:2503.01019v3 宣告类型: replace-cross 摘要：尽管在视觉语言预训练（VLP）方面取得了显著进展，当前的方法主要侧重于特征提取和跨模态理解，对生成或转换视觉内容的关注相对不足。这一差距阻碍了模型从文本提示中合成连贯且新颖的视觉表示的能力，从而降低了多模态学习的有效性。在本工作中，我们提出了MedUnifier，这是一种专门针对医学数据的统一VLP框架。MedUnifier将基于文本的图像生成能力与多模态学习策略（包括图像-文本对比对齐、图像-文本匹配和基于图像的文本生成）无缝集成。不同于依赖连续视觉表示的传统方法，我们的方法采用了视觉向量量化，不仅促进了更连贯的跨模态理解学习策略，还能通过有效利用离散表示提升多模态生成质量。通过在已确立的标准基准上的实验，包括单模态任务（监督微调）、跨模态任务（图像-文本检索和零样本图像分类）以及多模态任务（医学报告生成、图像合成），展示了MedUnifier的有效性，其在各种任务上的性能达到当前最好水平。MedUnifier也为医疗保健领域广泛的语言和视觉任务提供了一个高度可适应的工具，标志着向开发适用于医学应用的一般化AI模型迈进。