MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱,专注于文本检测,文本识别以及相应的下游任务,如关键信息提取。 它是 OpenMMLab 项目的一部分。
主分支目前支持 PyTorch 1.6 以上的版本。
文档:https://mmocr.readthedocs.io/en/latest/。
主要特性
-全流程
该工具箱不仅支持文本检测和文本识别,还支持其下游任务,例如关键信息提取。
-多种模型
该工具箱支持用于文本检测,文本识别和关键信息提取的各种最新模型。
-模块化设计
MMOCR 的模块化设计使用户可以定义自己的优化器,数据预处理器,模型组件如主干模块,颈部模块和头部模块,以及损失函数。有关如何构建自定义模型的信 息,请参考快速入门。
-众多实用工具
该工具箱提供了一套全面的实用程序,可以帮助用户评估模型的性能。它包括可对图像,标注的真值以及预测结果进行可视化的可视化工具,以及用于在训练过程中评估模型的验证工具。它还包括数据转换器,演示了如何将用户自建的标注数据转换为 MMOCR 支持的标注文件。
模型库
支持的算法:
文字检测
- DBNet (AAAI'2020)
- Mask R-CNN (ICCV'2017)
- PANet (ICCV'2019)
- PSENet (CVPR'2019)
- TextSnake (ECCV'2018)
- DRRG (CVPR'2020)
- FCENet (CVPR'2021)
文字识别
- CRNN (TPAMI'2016)
- NRTR (ICDAR'2019)
- RobustScanner (ECCV'2020)
- SAR (AAAI'2019)
- SATRN (CVPR'2020 Workshop on Text and Documents in the Deep Learning Era)
- SegOCR (Manuscript'2021)
关键信息提取
- SDMG-R (ArXiv'2021)
命名实体识别
- Bert-Softmax (NAACL'2019)