LLM2D
区域提示微调:利用区域文本提示实现细粒度场景文本检测
Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.13576v1

摘要

arXiv:2409.13576v1 公告类型: 交叉 摘要: 近期在提示调优方面的进展成功地将大规模模型如对比语言-图像预训练(CLIP)适应于场景文本检测等下游任务。通常,文本提示补充了文本编码器的输入,专注于全局特征而忽略了细粒度细节,导致在场景文本检测任务中细粒度文本被忽视。本文提出了一种细粒度场景文本检测的区域提示调优(RPT)方法,其中提出的区域文本提示有助于聚焦于细粒度特征。区域提示调优方法将区域文本提示分解为单个字符,并将视觉特征图分割为区域视觉标记,创建字符与标记之间的一一对应关系。这使得字符能够匹配标记的局部特征,从而避免细节特征和细粒度文本的遗漏。为此,我们引入了一个共享位置嵌入来连接每个字符与其对应的标记,并采用双向距离损失来对齐每个区域文本提示字符与目标“文本”。为了在细粒度级别上细化信息,我们在编码前后实现了字符-标记级别的交互。我们提出的方法结合了图像-文本过程中的一般得分图与字符-标记匹配得出的区域得分图,生成一个最终得分图,该图能够平衡全局和局部特征,并输入到DBNet中进行文本检测。在ICDAR2015、TotalText和CTW1500等基准上的实验证明了RPT的出色性能,突显了其在场景文本检测中的有效性。