Read Paper 《Omnidirectional Scene Text Detection with Sequential-free Box Discretization 》

2019-06-08

Paper Note CV

Contents

URL: https://arxiv.org/abs/1906.02371

TL;DR

IJCAI 2019 short paper 全方向场景文本检测

Dataset

ICDAR 2017 MLT: 超大多语言场景文本数据集，包含九种语言18k张图，用四边形的四个顶点标注。
MSRA-TD500: 室内外文本检测小数据集，300+200
ICDAR 2015 Incidental Scene Text: 有向场景文本检测数据集，图像多是街景，水平文本。
HRSC2016：船只检测数据集。

Algorithm

作者引入了Key-Edge的概念，就是文本标记四边形框的四个顶点的八个坐标，x和y分别按大小排列。回归边界的时候学习这八个KE，然后在学习匹配模式，从而得到最匹配的四边形边界，并避免标签混淆问题。文中表示对KE匹配模式的学习很容易收敛。

Model

模型基于Mask R-CNN,修改了边界框预测部分。

Experiment Detail

在三个场景文本数据集上的实验显示本文的方法显著提升了召回率，并提升了综合效果，部分准确率有下降。在多方向船只检测上也有明显提升。

Thoughts

本文提供了一个很新颖的一般四边形框的生成思路。

Author lvcudar

LastMod 2019-06-08