Introduction:
- 传统文本检测方法步骤:
1) character/word candidate generation:候选词的产生
2) Candidate filtering:候选词过滤
3) grouping:分组 - 弊端:需要保证每一个模型都正常工作,从而需要耗费大量精力调参和设计启发式规则,这同样也会减慢检测速度
- 本文:通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本
Contributions:
高速准确的文本检测器:TextBoxes。通过整合预测文本出现位置(text presence)和相对于default boxes(SSD)的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合,再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词,我们设计了几个novel,inception-style的输出层,可以利用不规律(irregular)的卷积核和default boxes
单词识别(word recognition)有助于从背景中区分文本,尤其是当单词被限定再一个给定的集合中时,比如一个词典(lexicon)。故本文采用成功的文本识别算法,CRNN与TextBoxes结合。识别器不仅提供额外的识别输出,还使文本检测具有了语义水平的意思,从而大大提高了单词识别(word spotting)的准确度
TextBoxes与CRNN结合,在单词识别和端对端文本识别方面表现出色,可视作一种简单而有效的自然场景下的鲁棒性文本阅读解决方案。
Detecting text with TextBoxes:
-
architecture:
○ 多个输出层,即text-box layers,插入到最后的一些中间卷积层之后。他们的输出汇总后进行一次非极大值抑制(NMS)。输出层也是卷积的。
○ TextBoxes仅仅由卷积层和池化层(pooling layers)组成,从而是完全卷积的(fully-convolutional),他在训练和测试中能够调整以适应人工大小的图像 -
Text-box layers:
○ 同时预测文本存在(text presence)和边界框(bounding boxes),根据输入feature map的情况。在每一个map location,他都输出分类分数(classification)和相对于其关联的default boxes的偏移量,以一种卷积的方式。
○ 每一个map location与多个不同大小的default boxes相联系,他们按单词的尺寸和宽高比有效地divide单词,从而使得TextBoxes能够学习特定的回归曲线和分类权重从而处理具有相似大小的单词。
○ 设计了拥有大宽高比的“长”default boxes来应对words(相较于一般目标),【1,2,3,5,7,10】
○ boxes在水平方向稠密,垂直方向稀疏:导致匹配效果很差。
○ 解决方案↑:为每个default box设置垂直偏移量。
○ 采用非常规的 15的卷积核,而不是标准的33。这种inception-style的filters会生成矩形的感受野,能更好的匹配具有大宽高比的单词,也能避免方形感受野会带来的噪点信号(noisy signals)。 -
Learning:
○ 损失函数与SSD中一致:L(x,c,l,g)=1/N*(Lconf(x,c)+α*Lloc(x,l,g)),x为match indication matrix,c为置信度,l为预测位置(predicted location),g为ground-truth location。N为default boxes的总数。 -
Multi-scale inputs:
○ 使用多种比例的图片作为输入(multiple rescaled versions of the image) -
Word spotting and end-to-end recognition:
○ Word spotting的目标是从定位给定的lexicon中的特定单词。
○ 利用recognition提升detection。recognition有助于减少不太可能是有意义单词的负正例(false-positive),如repetitive patterns。当lexicon给定时,recognizer可以有效地移除非匹配词汇的bounding boxes。
○ 采用CRNN模型作为text recognizer,CRNN使用CTC作为输出层,根据输入图像估计序列(sequence)的可能性(probability)。
○ 先使用TextBoxes以较低的分数阈值和高NMS重叠阈值检测来产生一个冗余的候选词集合,每幅图大约35个bounding boxes,召回率为0.93,multi-scale inputs for ICDAR 2013。然后对所有的候选词应用公式重新评估分数:
s=max p(w | I) w∈W
I为image,w为一个字符序列,W为字典
接着是第二个score thresholding 和一个 NMS。
○ 处理multi-scale inputs时,对每一个scale分别生成candidates,再按上述步骤处理所有scales的candidates。
来源:CSDN
作者:surfman777
链接:https://blog.csdn.net/Ocelot777/article/details/104731099