摘要
arXiv:2505.08838v1 跨语种报告生成类型:统一体系
摘要:超声(US)报告生成是一项具有挑战性的任务,由于US图像的变异性、操作者依赖性以及需要标准化文本。与X光和CT不同,US成像缺乏一致的数据集,使自动化变得困难。在此研究中,我们提出了一种多器官和跨语种US报告生成的统一体系框架,该框架结合了基于片段的跨语种训练,并利用US报告的标准化特性。通过将模块化文本片段与多样化的影像数据对齐,并建立一个双语英语-汉语数据集,该方法实现了跨器官位置和语言的一致且临床准确的文本生成。使用选择性解冻的视觉变换器(ViT)进行微调进一步提高了文本-影像对齐。与之前的最佳方法KMVE方法相比,我们的方法在BLEU分数上获得了大约2%的相对收益,在ROUGE-L上获得了约3%的相对收益,在CIDEr上获得了约15%的相对收益,同时显著减少了诸如内容缺失或错误等错误。通过将多器官和多语言报告生成统一为一个可扩展的框架,这项工作展示了在实际临床工作流程中强大的潜力。