LLM2D

摘要

arXiv:2502.08438v1 类型: cross 摘要：非母语使用者尽管能够想象特定物体，但因词汇量有限常常难以命名这些物体，例如澳大利亚之外的人们寻找针甲袋。进一步而言，用户可能希望使用难以勾画的互动方式搜索这些难以命名的物体，例如搜索针甲袋在地面上挖掘的场景。在这些常见但复杂的场景中，用户期望一个接受由难以命名但易于勾画的物体的手绘草图和描述难以勾画但易于描述的物体属性或与场景交互的文本组成的复合多模态查询的搜索界面。这一新颖的问题陈述在很大程度上不同于之前广泛研究的TBIR（基于文本的图像检索）和SBIR（基于草图的图像检索）问题。为了研究这一尚未充分探索的任务，我们收集了一个包含约200万查询和10.8万自然场景图像的数据集，名为CSTBIR（复合草图+文本基于图像检索）。此外，为了解决这个问题，我们提出了一种预训练的多模态变压器基线模型STNET（草图+文本网络），该模型利用手绘草图在自然场景图像中标记相关物体，并结合文本和图像进行图像检索。除了对比学习之外，我们还提出了一系列训练目标，以提高模型的性能。广泛的实验表明，我们提出的方法在文本、草图和复合查询模态的图像检索方面均优于多种现有的先进方法。我们将在项目网站上提供该数据集和代码。