LLM2D
边缘逼近文本检测器
Edge Approximation Text Detector
作者: Chuang Yang, Xu Han, Tao Han, Han Han, Bingxuan Zhao, Qi Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04001v1

摘要

arXiv:2504.04001v1 种类:交叉 摘要:追求高效的文本形状表示有助于使场景文本检测模型专注于紧凑的前景区域,并优化轮廓重建步骤,以简化整个检测管道。当前的方法要么通过盒状边界到多边形的策略表示不规则形状,要么逐渐将轮廓分解成片段进行拟合,这些模型中粗略轮廓或复杂管道的问题始终存在。鉴于上述问题,我们引入了EdgeText来紧凑地拟合文本轮廓,从而减轻过多的轮廓重建过程。具体而言,观察到文本的两个长边可以视为平滑曲线。这使得我们能够通过连续和平滑的边缘来构建紧密覆盖文本区域的轮廓,而不是分段拟合,从而避免了当前模型中的两个局限性。受此观察的启发,EdgeText通过参数化曲线拟合函数将文本表示形式表述为边缘近似问题。在推理阶段,我们的模型首先定位文本中心,然后基于点创建曲线函数以逼近文本边缘。同时,根据位置特征确定截断点。最后,通过使用截断点带来的像素坐标信息从曲线函数中提取曲线段,以重建文本轮廓。此外,考虑到EdgeText对文本边缘的深层依赖性,我们设计了一个双边增强感知(BEP)模块。它鼓励模型关注边缘特征的识别。此外,为了加速曲线函数参数的学习,我们引入了比例积分损失(PI-loss),以促使所提出模型专注于曲线分布,避免受文本尺度的干扰。