LLM2D

摘要

arXiv:2409.13576v1 公告类型: 交叉摘要: 近期在提示调优方面的进展成功地将大规模模型如对比语言-图像预训练（CLIP）适应于场景文本检测等下游任务。通常，文本提示补充了文本编码器的输入，专注于全局特征而忽略了细粒度细节，导致在场景文本检测任务中细粒度文本被忽视。本文提出了一种细粒度场景文本检测的区域提示调优（RPT）方法，其中提出的区域文本提示有助于聚焦于细粒度特征。区域提示调优方法将区域文本提示分解为单个字符，并将视觉特征图分割为区域视觉标记，创建字符与标记之间的一一对应关系。这使得字符能够匹配标记的局部特征，从而避免细节特征和细粒度文本的遗漏。为此，我们引入了一个共享位置嵌入来连接每个字符与其对应的标记，并采用双向距离损失来对齐每个区域文本提示字符与目标“文本”。为了在细粒度级别上细化信息，我们在编码前后实现了字符-标记级别的交互。我们提出的方法结合了图像-文本过程中的一般得分图与字符-标记匹配得出的区域得分图，生成一个最终得分图，该图能够平衡全局和局部特征，并输入到DBNet中进行文本检测。在ICDAR2015、TotalText和CTW1500等基准上的实验证明了RPT的出色性能，突显了其在场景文本检测中的有效性。