Pixel-Anchor原文:添加链接描述
引用:添加链接描述
数据集:添加链接描述
对于数据增强,统一从图片中裁剪640*640的样本来形成大小为32的mini-batch。在ImageNet数据集训练的模型作为预训练模型。SynthText数据集包括800k合成的文本图像,用来预训练模型,然后在每个基准数据集继续训练对应的图像。对于每个数据集,在第一阶段训练时,初始lr设置为0.0001,然后在第二阶段训练减到0.00001。
首先用公共数据集SynthText和自己的数据集来得到模型的特征,然后在两个具有挑战性的公共基准来评估:ICDAR 2015 和ICDAR 2017 MLT。
Pixel-based:
1、FPN: 特征金字塔网络
2、ASPP: 空洞空间金字塔pooling
Anchor-based:
1、SSD: 添加链接描述
2、APL: 自适应预测层
该层分别为不同的卷积核搭配不同的宽高比锚,以适应不同尺度、不同角度的文本。主要分为以下5类:
a)、正方形anchors:宽高比=1:1,卷积滤波器大小为3x3,主要为了检测方正规整的文字;
b)、中等水平anchors:宽高比={1:2,1:3,1:5,1:7},卷积滤波器大小为3x5,主要为了检测水平倾斜的文字;
c)、中等垂直anchors:宽高比={2:1,3:1,5:1,7:1},卷积滤波器大小为5x3,主要为了检测垂直倾斜的文字;
d)、长的水平anchors:宽高比={1:15,1:25,1:35},卷积滤波器大小为1xn,主要为了检测水平长行的文字;
e)、长的垂直anchors:宽高比={15:1,25:1,35:1},卷积滤波器大小为nx1,主要为了检测竖排长行的文字。
3、Textboxes++ :添加链接描述
4、The Anchor Matching Dilemma:
Pixel-Anchor 框架:
从ResNet-50主干网络中提取1/4、1/8、和1/16的特征图,在pixel-based模块和anchor-based模块共享。在pixel-based模块的分割热力图,根据anchor级别的注意力机制提供给anchor-based模块。在inference阶段,没有复杂的后处理,除了包括一个有效的融合NMS。
pixel-based模块:
FPN和ASPP操作组合在一起作为编码-解码结构,同时修改了ASPP的膨胀率,用{3, 6, 9, 12, 15, 18}替换了DeepLabv3+中的{6, 12, 18}来获得更好的感受野。在解码阶段,编码特征首先用因子为2倍双线性插值进行上采样,然后和来自网络主干的相应低一级的特征拼接concat。解码特征图同时保留了高的空间分辨率以及语义信息。
分类Loss:
设负正样本的比例为3:1, Ωa表示用于分类训练的anchor集合(负样本和正样本):
这里| • |是在这个集合中正样本的数量,H(pi, pi*)表示第i个anchor标签预测值pi和它的gt标签值pi之间的交叉熵。
anchors的预测文本四边形坐标偏移量的回归loss如公式:
这里pos(Ωa) 是Ωa的正样本部分, SL(li, li)表示对于第i个anchor,预测偏移坐标li和ground truth li*之间的smooth L1 loss。
对于anchor-based模块,loss可以表示为:
αa是平衡分类loss和定位loss的权值,在实验中为了快速收敛设为了0.2。
训练阶段:
整个网络是用adam优化器来端对端训练的,模型的loss可以表示为:
αall是平衡pixel-based loss和anchor-based loss的权值,在实验中设为3。
推理阶段:
提出融合NMS来获得最终的检测结果,用anchor-based模块检测小文本和长文本,用pixel-based模块检测中等大小的文本。
在anchor-based模块的APL中,对anchors进行修剪。1/4特征图上的所有anchors和在其他特征图上的所有长anchors都被保留下来。因为在1/4特征图上的anchors(一般都是小尺寸的)通常没有足够的空间来包含两个大角度的文本实例,同时长的anchors仅仅可以匹配小角度的文本实例,这样“Anchor Matching Dilemma”就会更少发生。
检测小场景文本的能力:
在SynthText 数据集上进行实验,图片的分辨率都被resize到384384,保留高宽比,pad短边,随机选择4k张图作为验证集。
检测密集大角度文本的能力:
对比了Pixel-Anchor和anchor-based方法在检测密集大角度文本上的性能。
检测长文本行的能力:
为了说明提出的APL可以有效的检测长文本行,用海报数据集测试了Pixel-Anchor,该数据集包括大量长的横跨图片的中文文本行。收集标定了5000张图,选择4000张作为训练集,1000张作为验证集。在海报数据集中,对于768768分辨率的图片,获得0.88的F-measure。
来源:CSDN
作者:乔憨憨
链接:https://blog.csdn.net/csdnqq970820/article/details/104634105