 |
В.В. Арлазаров, К.Б. Булатов, А.В. Усков "Модель системы распознавания объектов в видеопотоке мобильного устройства" |
 |
Аннотация. В работе исследована задача автоматического распознавания объектов с использованием видеопотока в качестве цифрового образа. Рассматриваются варианты формализации системы распознавания в видеопотоке, обсуждаются свойства динамической модели системы распознавания. Описываются задача интеграции результатов распознавания объекта и задача останова, возникающие в системе распознавания со временем, в отсутствии естественного ограничения на количество входных изображений. Представлены формальные постановки задач интеграции и останова в рамках модели взаимодействия системы распознавания с пользователем. Ключевые слова: распознавание образов, видеопоток, мобильные устройства, системы распознавания, OCR. Стр. 73-82. DOI: 10.14357/20790279180508 Полная версия статьи в формате pdf. Литература 1. Bulatov K., Arlazarov V.V., Chernov T., Slavin O., Nikolaev D. “Smart IDReader: Document Recognition in Video Stream” // 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). – 2017. –V. 6, – P. 39-44. 2. Арлазаров В.В., Жуковский А., Кривцов В., Николаев Д., Полевой Д. Анализ особенностей использования стационарных и мобильных малоразмерных цифровых видео камер для распознавания документов // Информационные технологии и вычислительные системы. – 2014. – № 3. – С. 71-78. 3. Wemhoener D., Yalniz I.Z., Manmatha R. “Creating an Improved Version Using Noisy OCR from Multiple Editions” // 12th IAPR International Conference on Document Analysis and Recognition (ICDAR). – 2013. – P. 160-164. 4. Rokach L. “Ensemble-based classifiers” // Artificial Intelligence Review. – 2010. – Vol. 33, No. 1. – P. 1-39. 5. Kittler et al. “On Combining Classifiers” // IEEE Trans. Pattern Analysis and Machine Intelligence. – 1998. – Vol. 20, No. 3. – P. 226-239. 6. Ting K.M., Witten I.H. “Issues in Stacked Generalization” // Journal of Artificial Intelligence Research. – 1999. – Vol. 10, No. 1. – P. 271-289. 7. Kuncheva L.I., Bezdek J.C., Duin R.P. “Decision templates for multiple classifier fusion: an experimental comparison” // Pattern Recognition. – 2001. – Vol. 34, No. 2. – P. 299-314. 8. Nguyen T.T. et al. “A Novel Combining Classifier Method Based on Variational Inference” // Pattern Recognition. – 2016. – Vol. 49, No. C. – P. 198-212. 9. Петровский А.Б. Методы групповой классификации многопризнаковых объектов (часть 1) // Искусственный интеллект и принятие решений. – 2009. – № 3. – С. 3-14. 10. Петровский А.Б. Методы групповой классификации многопризнаковых объектов (часть 2) // Искусственный интеллект и принятие решений. – 2009. – № 4. – С. 3-14. 11. LeCun Y. et al. “Gradient-Based Learning Applied to Document Recognition” // Proceedings of the IEEE. – 1998. 12. Krizhevsky A., Sutskever I., Hinton G.E. “ImageNet Classification with Deep Convolutional Neural Networks” // Advances in Neural Information Processing Systems 25 / ed. by F. Pereira [et al.]. – Curran Associates, Inc., 2012. – P. 1097-1105. 13. Taigman Y. et al. “DeepFace: Closing the Gap to Human-Level Performance in Face Verification” // IEEE Conference on Computer Vision and Pattern Recognition. – 2014. – P. 1701-1708. 14. Moosavi-Dezfooli S., Fawzi A., Frossard P. “DeepFool: a simple and accurate method to fool deep neural networks” // CoRR. – 2015. – Vol abs/1511.04599. 15. Papernot N. et al. “The Limitations of Deep Learning in Adversarial Settings” // CoRR. – 2015. – Vol. abs/1511.07528. 16. Su J., Vargas D.V., Sakurai K. “One pixel attack for fooling deep neural networks” // CoRR. – 2017. – Vol. abs/1710.08864. 17. Sung Cheol Park, Min Kyu Park, Moon Gi Kang. “Super-resolution image reconstruction: a technical overview” // IEEE Signal Processing Magazine. – 2003. – V.20. – N. 3. – P. 21-36. 18. Semwal A., Chamoli A., Mukesh C.A., Salman A. “A Survey: The Methods & Techniques of Super-Resolution Image Reconstruction” // International Journal for Scientific Research & Development. – 2017. – V. 4. – I. 12. – P. 243-249. 19. International standard ISO/IEC 14496-12 “Information technology – Coding of audio-visual objects – Part 12: ISO base media file format”. ISO/IEC. – 2005. – 94 p. 20. Arlazarov V.L., Loginov A.S., Slavin O.A. “Characteristics of Optical Text Recognition Programs” // Programming and Computer Software. – 2002. – Vol. 28, No. 3. – P. 148-161. 21. Арлазаров В.В., Кляцкин В.М. Решение задачи определения достоверности результатов распознавания символа в системе Cognitive Forms // Документооборот. Концепции и инструментарий. Сборник трудов Института системного анализа РАН. – 2004. – 208 с. 22. Kimura S. et al. “A Man-Machine Cooperating System Based on the Generalized Reject Model” // 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). – 2017. – V. 1. – P. 1324-1329.
|