Аннотация.
Современные методы детекции текста на изображениях основаны на вычислительно затратных моделях глубокого обучения и требуют большое количество данных для обучения, в том числе реальных. В случае поиска текста в произвольных сценариях, процесс сбора и аннотирования настоящих данных для обучения крайне трудозатратен и дорог из-за высокой вариативности возможных сцен. В данной работе представлен новый метод детекции текста на произвольных изображениях, который не требует для обучения фотографий текста в реальных сценах и может быть обучен на простых синтетических данных в виде строк. Предложенная нейросетевая модель в 42 раза меньше, чем детектор текста в одной из лучших в плане качества и скорости работы системе распознавания текста PaddleOCR (84 КБ против 3.6 МБ), что делает ее отличным выбором для мобильных устройств. Модель была протестирована в составе системы распознавания номеров телефонов, где с ее помощью удалось достичь 80.35% правильно распознанных номеров.
Ключевые слова:
глубокое обучение, детекция объектов, сегментация изображений, детекция текста.
DOI: 10.14357/20790279240305
EDN: HREWAU
Стр. 39-47
Литература
1. Arlazarov, V.L., Slavin, O.A.: Issues of recognition and verification of text documents. ITiVS 3, 55–61 (2023), dOI: 10.14357/20718632230306.
2. Bulatov, K.B., Emelyanova, E.V., Tropin, D.V., Skoryukina, N.S., Chernyshova, Y.S., Sheshkus, A.V., Usilin, S.A., Ming, Z., Burie, J.C., Luqman, M.M., Arlazarov, V.V.: Midv-2020: A comprehensive benchmark dataset for identity document analysis. Computer Optics 46(2), 252–270 (2022), dOI: 10.18287/2412-6179-CO-1006.
3. Okun, O., Yan, Y., Pietikainen, M.: Robust text detection from binarized document images. In: 2002 International Conference on Pattern Recognition. vol. 3, pp. 61–64 vol.3 (2002). https://doi.org/10.1109/ICPR.2002.1047795.
4. Diem, M., Kleber, F., Sablatnig, R.: Text line detection for heterogeneous documents. In: 2013 12th International Conference on Document Analysis and Recognition. pp. 743–747 (2013). https://doi.org/10.1109/ICDAR.2013.152.
5. dos Santos, R.P., Clemente, G.S., Ren, T.I., Cavalcanti, G.D.: Text line segmentation based on morphology and histogram projection. In: 2009 10th International Conference on Document Analysis and Recognition. pp. 651–655 (2009). https://doi.org/10.1109/ICDAR.2009.183.
6. Gatos, B., Papamarkos, N., Chamzas, C.: Skew detection and text line position de- termination in digitized documents. Pattern Recognition 30(9), 1505–1519 (1997). https://doi.org/https://doi.org/10.1016/S0031-3203(96)00157-4.
7. T. Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan and S. Belongie, "Feature Pyramid Networks for Object Detection," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017, pp. 936-944, doi: 10.1109/CVPR.2017.106.
8. Baek, Y., Lee, B., Han, D., Yun, S., Lee, H.: Character region awareness for text detection. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 9357–9366 (06 2019), dOI: 10.1109/CVPR.2019.00959.
9. Chen, Z., Wang, J., Wang, W., Chen, G., Xie, E., Luo, P., Lu, T.: Fast: Faster arbitrarily-shaped text detector with minimalist kernel representation. In: arXiv (2021), 2111.02394.
10. Liao, M., Wan, Z., Yao, C., Chen, K., Bai, X.: Real-time scene text detection with differentiable binarization. Proceedings of the AAAI Conference on Artificial Intelligence 34(07), 11474–11481 (Apr 2020). https://doi.org/10.1609/aaai.v34i07.6812.
11. Liao, M., Zou, Z., Wan, Z., Yao, C., Bai, X.: Real-time scene text detection with differentiable binarization and adaptive scale fusion. arXiv (2022), 2202.10304.
12. Zhang, S.X., Zhu, X., Yang, C., Yin, X.C.: Arbitrary shape text detection via boundary transformer. IEEE Transactions on Multimedia 26, 1747–1760 (2022), https://api.semanticscholar.org/CorpusID:248693243.
13. Bu, Q., Park, S., Khang, M., & Cheng, Y. (2024). SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression. Proceedings of the AAAI Conference on Artificial Intelligence, 38(2), 855-863. https://doi.org/10.1609/aaai.v38i2.27844.
14. Ye, M., Zhang, J., Zhao, S., Liu, J., Du, B., Tao, D.: Dptext-detr: towards better scene text detection with dynamic points in transformer. In: Proceedings of the AAAI Conference on Artificial Intelligence. AAAI’23/IAAI’23/EAAI’23, AAAI Press (2023). https://doi.org/10.1609/aaai.v37i3.25430, https://doi.org/10.1609/aaai.v37i3.25430.
15. Li, C., Liu, W., Guo, R., Yin, X., Jiang, K., Du, Y., Du, Y., Zhu, L., Lai, B., Hu, X., Yu, D., Ma, Y.: Pp-ocrv3: More attempts for the improvement of ultra lightweight ocr system. ArXiv abs/2206.03001 (2022), https://api.semanticscholar.org/CorpusID:249431435.
16. Layek, A.K., Mandal, S., Ghosh, S. (2020). A Fast Approach for Text Region Detection from Images on Online Social Media. In: Das, A., Nayak, J., Naik, B., Pati, S., Pelusi, D. (eds) Computational Intelligence in Pattern Recognition. Advances in Intelligent Systems and Computing, vol 999. Springer, Singapore. https://doi.org/10.1007/978-981-13-9042-5_31.
17. A. V. Gayer, A. V. Sheshkus and Y. S. Chernyshova, “Augmentation on the fly for the neural networks learning,” Trudy ISA RAN (Proceedings of ISA RAS), vol. 68, Спецвыпуск № S1, pp. 150-157, 2018, DOI: 10.14357/20790279180517.
18. A. V. Trusov, E. E. Limonova, D. P. Nikolaev and V. V. Arlazarov, “p-im2col: Simple Yet Efficient Convolution Algorithm with Flexibly Controlled Memory Overhead,” IEEE Access, vol. 9, pp. 168162-168184, 2021, DOI: 10.1109/ACCESS.2021.3135690.