URL: https://arxiv.org/abs/1906.02371

TL;DR

IJCAI 2019 short paper 全方向场景文本检测

Dataset

  • ICDAR 2017 MLT: 超大多语言场景文本数据集,包含九种语言18k张图,用四边形的四个顶点标注。
  • MSRA-TD500: 室内外文本检测小数据集,300+200
  • ICDAR 2015 Incidental Scene Text: 有向场景文本检测数据集,图像多是街景,水平文本。
  • HRSC2016: 船只检测数据集。

Algorithm

作者引入了Key-Edge的概念,就是文本标记四边形框的四个顶点的八个坐标,x和y分别按大小排列。 image 回归边界的时候学习这八个KE,然后在学习匹配模式,从而得到最匹配的四边形边界,并避免标签混淆问题。 文中表示对KE匹配模式的学习很容易收敛。

Model

image 模型基于Mask R-CNN,修改了边界框预测部分。

Experiment Detail

在三个场景文本数据集上的实验显示本文的方法显著提升了召回率,并提升了综合效果,部分准确率有下降。 image 在多方向船只检测上也有明显提升。

Thoughts

本文提供了一个很新颖的一般四边形框的生成思路。