Журнал «Труды Института системного анализа Российской академии наук» - Т.Р. Максимова, П.В. Безматерных "Определение типа сканированного документа методом динамической трансформации временных осей"

В работе решается задача выбора типа сканированного документа из предопределенного набора, возникающая в области автоматического распознавания изображений документов. Предлагаемый метод сопоставляет параллельные проекции входного изображения с эталонными проекциями образцов из предопределенного набора, для создания которых достаточно всего нескольких примеров. Сопоставление производится алгоритмом динамического выравнивания временных осей. Метод не требует бинаризации, распознавания ключевых слов или поиска геометрических примитивов, но необходима предварительная компенсации наклона документа. Проведенные эксперименты на изображениях деловых документов (8 типов документов) нормализованных вручную и автоматически показали точность типизации 99,79% и 99,76% соответственно. Среднее время обработки на ПК (AMD Ryzen 5 5600X, 64Гб) для изображений с наибольшим средним размером 2479×3589 пикселей составило 12,31±1,53 мс.

Полная версия статьи в формате pdf.

Стр. 37-48.

Литература

1. Arlazarov V.V., Andreeva E.I., Bulatov K.B., Nikolaev D.P., Petrova O.O., Savelev B.I., Slavin O.A. Document image analysis and recognition: A survey. // Computer Optics. 2022. 46(4) p. 567–589. DOI: 10.18287/2412-6179-CO-1020.

2. Skoryukina N.S., Arlazarov V.V., Nikolaev D.P., Faradjev I.A. Efficient Location and Identification of Documents in Images. Патент № US11574492В2, 02.09.2020 // United States Patent. С. 1-25.

3. Awal A.M., Ghanmi N., Sicre R., Furon T. Complex document classification and localization application on identity document images. // In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017. 426–431. IEEE. DOI:10.1109/ICDAR.2017.77.

4. Gayer A.V., Arlazarov V.V. Muldt: Multilingual ultralightweight document text detection for embedded devices. // IEEE Access. 2024. 12. p. 170530–170540. DOI: 10.1109/ACCESS.2024.3474616.

5. Bahi H.E., Zatni A. Text recognition in document images obtained by a smartphone based on deep convolutional and recurrent neural network. // Multimedia Tools and Applications. 2019. 78(18) p. 26453–26481. DOI:10.1007/s11042-019-07855-z

6. Славин О.А., Федоров Г.О. Об использовании штрих-кодирования и специализированных устройств в корпоративном электронном документообороте // Труды ИСА РАН. 2003. Т. 4. С. 185-1972.

7. Shengnan Z., Shanlei Y., Lianqiang N. Automatic recognition method for checkbox in data form image. // In 2014 Sixth International Conference on Measuring Technology and Mechatronics Automation. 2014. page 159–162. IEEE. DOI:10.1109/ICMTMA.2014.42.

8. Какие документы могут потребовать при устройстве на работу? [Электронный ресурс] // КонсультантПлюс. URL: https://www.consultant.ru/edu/student/consultation/dokumenty_ustroystvo_ na_rabotu/ (дата обращения: 01.05.2025)

9. Seifollahi S., Piccardi M., Jolfaei A. An embeddingbased topic model for document classification. // ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20(3). 1–13. DOI:10.1145/3431728.

10. Xiao Y., Cho K. Efficient character-level document classification by combining convolution and recurrent layers. // arXiv 2016. DOI:10.48550/arXiv.1602.00367.

11. Постников В.В. Автоматическая идентификация и распознавание структурированных документов: автореферат диссертации на соискание ученой степени кандидата технических наук. // ИСА РАН 2001.

12. Skoryukina N., Arlazarov V., Nikolaev D. Fast method of ID documents location and type identification for mobile and server application. // In 2019 International Conference on Document Analysis and Recognition (ICDAR) 2019. pages 850–857. IEEE. DOI:10.1109/ICDAR.2019.00141.

13. Feature detection and description. [Электронный ресурс] // Open Source Computer Vision. – URL https://docs.opencv.org/4.x/db/d27/tutorial_py_table_of_contents_ feature2d.html (дата обращения: 01.05.2025)

14. Skoryukina N.S., Tropin D.V., Shemiakina Y.A., Arlazarov V.V. Document localization and classification as stages of a document recognition system. // Pattern Recognit. Image Anal. 2023. 33(4). 699–716. DOI: 10.1134/S1054661823040430.

15. Hu J., Kashi R., Wilfong G. Document classification using layout analysis. // In Proceedings. Tenth International Workshop on Database and Expert Systems Applications. DEXA 99. pages 556–560. IEEE, 1999. DOI:10.1109/DEXA.1999.795245.

16. Постников В.В. Формальный подход к задаче идентификации графических образов структурированных документов. // ИТиВС. 1999.—(4):280–299.

17. Rusin˜ol M., Frinken V., Karatzas D., Bagdanov A. D., Llado´s J. Multimodal page classification in administrative document image streams. // International Journal on Document Analysis and Recognition (IJDAR). 2014. 17(4). 331–341. DOI:10.1007/s10032-014-0225-8.

18. Безматерных П., Николаев Д., Постников В. Метод идентификации типа документа по структуре проекций его изображения на координатные оси. // ИТиС. 2008. с. 498–501. ISBN 978-59-01158-08-0.

19. Поволоцкий М.А., Кузнецова Е.Г., Уткин Н.В., Николаев Д.П. Сегментация регистрационных номеров автомобилей с применением алгоритма динамической трансформации временной оси. // Сенсорные системы. 2018. 32(1). С. 50–59. DOI: 10.7868/S0235009218010080.

20. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition. // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1(26):43–49. DOI:10.1109/TASSP.1978.1163055.

21. Hull J.J. Document image skew detection: survey and annotated bibliography. // World Scientific. 1998. p. 40-64. DOI:10.1142/9789812797704_0003.

22. Безматерных П.В. Нормализация изображения текста с помощью быстрого преобразования Хафа. // ИТиВС. 2024. (4):3–16. DOI: 10.14357/20718632240401.

23. Bezmaternykh P.V., Nikolaev D.P., Arlazarov V.L. High-performance digital image processing. // Pattern Recognit. Image Anal. 2023. 33(4). 743–755. DOI: 10.1134/S1054661823040090.

24. Brady M.L., Yong W. Fast parallel discrete approximation algorithms for the radon transform. // In Proceedings of the fourth annual ACM symposium on Parallel algorithms and architectures. pages 91–99. ACM. DOI:10.1145/140901.140911.

25. Gonzalez R.C., Woods R. E., Masters B.R. Digital image processing, third edition. 14. 029901.

26. Алиев М.А., Кунина И.А., Николаев Д.П., Полевой Д.В. О практических аспектах вычисления Хаф-образа алгоритмом Брейди-Ёна. // Информационные процессы. 2023. 23(2). с. 250–273. DOI: 10.53921/18195822_2023_23_2_250.