LLM2D

摘要

声呐图像合成对于推进水下探测、海洋生物学和国防等领域的应用至关重要。传统方法通常依赖于使用声呐传感器进行大量且昂贵的數據收集，从而危及数据质量和多样性。为了克服这些局限性，本研究提出了一种新的声呐图像合成框架Synth-SONAR，该框架利用扩散模型和GPT提示。Synth-SONAR的主要创新之处有三方面：首先，通过整合基于生成式AI的风格注入技术以及公开可用的真实/模拟数据，从而产生用于声呐研究的最大声呐数据集之一。其次，双文本条件声呐扩散模型层次结构合成具有增强质量和多样性的粗粒度和细粒度声呐图像。第三，高级（粗略）和低级（详细）基于文本的声呐生成方法利用视觉语言模型（VLM）和GPT提示中可用的高级语义信息。在推断过程中，该方法从文本提示生成多样化且逼真的声呐图像，弥合了文本描述和声呐图像生成之间的差距。据我们所知，这标志着GPT提示首次应用于声呐图像。Synth-SONAR在生成高质量合成声呐数据集方面取得了最先进的结果，显著提高了其多样性和真实性。