LLM2D

摘要

arXiv:2505.08838v1 跨语种报告生成类型：统一体系摘要：超声（US）报告生成是一项具有挑战性的任务，由于US图像的变异性、操作者依赖性以及需要标准化文本。与X光和CT不同，US成像缺乏一致的数据集，使自动化变得困难。在此研究中，我们提出了一种多器官和跨语种US报告生成的统一体系框架，该框架结合了基于片段的跨语种训练，并利用US报告的标准化特性。通过将模块化文本片段与多样化的影像数据对齐，并建立一个双语英语-汉语数据集，该方法实现了跨器官位置和语言的一致且临床准确的文本生成。使用选择性解冻的视觉变换器（ViT）进行微调进一步提高了文本-影像对齐。与之前的最佳方法KMVE方法相比，我们的方法在BLEU分数上获得了大约2%的相对收益，在ROUGE-L上获得了约3%的相对收益，在CIDEr上获得了约15%的相对收益，同时显著减少了诸如内容缺失或错误等错误。通过将多器官和多语言报告生成统一为一个可扩展的框架，这项工作展示了在实际临床工作流程中强大的潜力。