【Paper Reading】【TextBoxess: A Fast Text Detector with a Single Deep Neural Network】

╄→尐↘猪︶ㄣ 提交于 2020-03-08 14:51:27
Introduction:
  • 传统文本检测方法步骤:
    1) character/word candidate generation:候选词的产生
    2) Candidate filtering:候选词过滤
    3) grouping:分组
  • 弊端:需要保证每一个模型都正常工作,从而需要耗费大量精力调参和设计启发式规则,这同样也会减慢检测速度
  • 本文:通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本
Contributions:

高速准确的文本检测器:TextBoxes。通过整合预测文本出现位置(text presence)和相对于default boxes(SSD)的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合,再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词,我们设计了几个novel,inception-style的输出层,可以利用不规律(irregular)的卷积核和default boxes

单词识别(word recognition)有助于从背景中区分文本,尤其是当单词被限定再一个给定的集合中时,比如一个词典(lexicon)。故本文采用成功的文本识别算法,CRNN与TextBoxes结合。识别器不仅提供额外的识别输出,还使文本检测具有了语义水平的意思,从而大大提高了单词识别(word spotting)的准确度

TextBoxes与CRNN结合,在单词识别和端对端文本识别方面表现出色,可视作一种简单而有效的自然场景下的鲁棒性文本阅读解决方案。

Detecting text with TextBoxes:
网络结构

  • architecture:
    ○ 多个输出层,即text-box layers,插入到最后的一些中间卷积层之后。他们的输出汇总后进行一次非极大值抑制(NMS)。输出层也是卷积的。
    ○ TextBoxes仅仅由卷积层和池化层(pooling layers)组成,从而是完全卷积的(fully-convolutional),他在训练和测试中能够调整以适应人工大小的图像

  • Text-box layers:
    default box
    ○ 同时预测文本存在(text presence)和边界框(bounding boxes),根据输入feature map的情况。在每一个map location,他都输出分类分数(classification)和相对于其关联的default boxes的偏移量,以一种卷积的方式。
    ○ 每一个map location与多个不同大小的default boxes相联系,他们按单词的尺寸和宽高比有效地divide单词,从而使得TextBoxes能够学习特定的回归曲线和分类权重从而处理具有相似大小的单词。
    ○ 设计了拥有大宽高比的“长”default boxes来应对words(相较于一般目标),【1,2,3,5,7,10】
    ○ boxes在水平方向稠密,垂直方向稀疏:导致匹配效果很差。
    ○ 解决方案↑:为每个default box设置垂直偏移量。
    ○ 采用非常规的 15的卷积核,而不是标准的33。这种inception-style的filters会生成矩形的感受野,能更好的匹配具有大宽高比的单词,也能避免方形感受野会带来的噪点信号(noisy signals)。

  • Learning:
    ○ 损失函数与SSD中一致:L(x,c,l,g)=1/N*(Lconf(x,c)+α*Lloc(x,l,g)),x为match indication matrix,c为置信度,l为预测位置(predicted location),g为ground-truth location。N为default boxes的总数。

  • Multi-scale inputs:
    ○ 使用多种比例的图片作为输入(multiple rescaled versions of the image)

  • Word spotting and end-to-end recognition:
    ○ Word spotting的目标是从定位给定的lexicon中的特定单词。
    ○ 利用recognition提升detection。recognition有助于减少不太可能是有意义单词的负正例(false-positive),如repetitive patterns。当lexicon给定时,recognizer可以有效地移除非匹配词汇的bounding boxes。
    ○ 采用CRNN模型作为text recognizer,CRNN使用CTC作为输出层,根据输入图像估计序列(sequence)的可能性(probability)。
    ○ 先使用TextBoxes以较低的分数阈值和高NMS重叠阈值检测来产生一个冗余的候选词集合,每幅图大约35个bounding boxes,召回率为0.93,multi-scale inputs for ICDAR 2013。然后对所有的候选词应用公式重新评估分数:
    s=max p(w | I) w∈W
    I为image,w为一个字符序列,W为字典
    接着是第二个score thresholding 和一个 NMS。
    ○ 处理multi-scale inputs时,对每一个scale分别生成candidates,再按上述步骤处理所有scales的candidates。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!