【Paper Reading】【TextBoxess: A Fast Text Detector with a Single Deep Neural Network】

Introduction：

传统文本检测方法步骤：
1) character/word candidate generation：候选词的产生
2) Candidate filtering：候选词过滤
3) grouping：分组
弊端：需要保证每一个模型都正常工作，从而需要耗费大量精力调参和设计启发式规则，这同样也会减慢检测速度
本文：通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本

Contributions：

高速准确的文本检测器：TextBoxes。通过整合预测文本出现位置（text presence）和相对于default boxes（SSD）的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合，再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词，我们设计了几个novel，inception-style的输出层，可以利用不规律（irregular）的卷积核和default boxes

单词识别（word recognition）有助于从背景中区分文本，尤其是当单词被限定再一个给定的集合中时，比如一个词典（lexicon）。故本文采用成功的文本识别算法，CRNN与TextBoxes结合。识别器不仅提供额外的识别输出，还使文本检测具有了语义水平的意思，从而大大提高了单词识别（word spotting）的准确度

TextBoxes与CRNN结合，在单词识别和端对端文本识别方面表现出色，可视作一种简单而有效的自然场景下的鲁棒性文本阅读解决方案。

Detecting text with TextBoxes：
网络结构

architecture：
○ 多个输出层，即text-box layers，插入到最后的一些中间卷积层之后。他们的输出汇总后进行一次非极大值抑制（NMS）。输出层也是卷积的。
○ TextBoxes仅仅由卷积层和池化层（pooling layers）组成，从而是完全卷积的（fully-convolutional），他在训练和测试中能够调整以适应人工大小的图像
Text-box layers：

○ 同时预测文本存在（text presence）和边界框（bounding boxes），根据输入feature map的情况。在每一个map location，他都输出分类分数（classification）和相对于其关联的default boxes的偏移量，以一种卷积的方式。
○ 每一个map location与多个不同大小的default boxes相联系，他们按单词的尺寸和宽高比有效地divide单词，从而使得TextBoxes能够学习特定的回归曲线和分类权重从而处理具有相似大小的单词。
○ 设计了拥有大宽高比的“长”default boxes来应对words（相较于一般目标），【1，2，3，5，7，10】
○ boxes在水平方向稠密，垂直方向稀疏：导致匹配效果很差。
○ 解决方案↑：为每个default box设置垂直偏移量。
○ 采用非常规的 15的卷积核，而不是标准的33。这种inception-style的filters会生成矩形的感受野，能更好的匹配具有大宽高比的单词，也能避免方形感受野会带来的噪点信号（noisy signals）。
Learning：
○ 损失函数与SSD中一致：L(x,c,l,g)=1/N*(Lconf(x,c)+α*Lloc(x,l,g))，x为match indication matrix，c为置信度，l为预测位置（predicted location），g为ground-truth location。N为default boxes的总数。
Multi-scale inputs：
○ 使用多种比例的图片作为输入（multiple rescaled versions of the image）
Word spotting and end-to-end recognition：
○ Word spotting的目标是从定位给定的lexicon中的特定单词。
○ 利用recognition提升detection。recognition有助于减少不太可能是有意义单词的负正例（false-positive），如repetitive patterns。当lexicon给定时，recognizer可以有效地移除非匹配词汇的bounding boxes。
○ 采用CRNN模型作为text recognizer，CRNN使用CTC作为输出层，根据输入图像估计序列（sequence）的可能性（probability）。
○ 先使用TextBoxes以较低的分数阈值和高NMS重叠阈值检测来产生一个冗余的候选词集合，每幅图大约35个bounding boxes，召回率为0.93，multi-scale inputs for ICDAR 2013。然后对所有的候选词应用公式重新评估分数：
s=max p（w | I） w∈W
I为image，w为一个字符序列，W为字典
接着是第二个score thresholding 和一个 NMS。
○ 处理multi-scale inputs时，对每一个scale分别生成candidates，再按上述步骤处理所有scales的candidates。

来源：CSDN

作者：surfman777

链接：https://blog.csdn.net/Ocelot777/article/details/104731099

标签

文本分类

卷积

自然语言处理