Интеллектуальный анализ данных и распознавание образов
Интеллектуальные системы и технологии
Обработка и анализ изображений и сигналов
Машинное обучение
Д.А. Ильин "Быстрая локализация текстовых полей на изображения документов низкого качества"
Д.А. Ильин "Быстрая локализация текстовых полей на изображения документов низкого качества"

Аннотация.

В данной статье рассматривается проблема точной локализации границ слов в текстовых зонах документа. Обработка документов на мобильном устройстве состоит из этапов локализации документа, коррекции перспективы, локализации отдельных полей, нахождения слов в отдельных зонах, сегментации и распознавания. При захвате изображения с помощью мобильной цифровой камеры в условиях неконтролируемой съемки может возникать цифровой шум, искажения перспективы или блики. Тем не менее, проблема локализации границ слов должна решаться на мобильном процессоре с ограниченными вычислительными возможностями за минимально возможное время. Метод, представленный в данной статье, решает более специализированную проблему, чем задача поиска текста на естественных изображениях. Он использует локальные функции, скользящее окно и легкую нейронную сеть для достижения оптимального соотношения скорости и точности алгоритма. Длительность алгоритма составляет 12 мс за поле, запущенное на ARM-процессоре мобильного устройства. Количество ошибок для локализации границ на тестовом образце из 8000 полей составляет 0,3%.

Ключевые слова:

локализация, изображение, обработка документов, компьютерное зрение.

Стр. 192-198.

DOI: 10.14357/20790279180522

Полная версия статьи в формате pdf. 

Литература

1. Хиромичи Фудзисава. Сорок лет исследований в области распознавания символов и документов – промышленная перспектива, распознавание паттернов.
2. Доерманн Дэвид, Томбр Карл. «Справочник по обработке и распознаванию документов». Springer-Verlag, Лондон, 2014.
3. Лян Цзянь, Дэвид Доерманн и Хупинг Ли. Анализ текста и документов на основе камер: обзор // Международный журнал анализа и распознавания документов (IJDAR), 2005.
4. Лу Тонг и Паляйнакоте, Шивакумара, Тан Чу Лим и Лю Вэньин. Обнаружение видеотекста, Springer-Verlag, Лондон, 2014.
5. Скорюкина Н., Николаев Д.П., Шешкус А., Полевой Д. Прямое обнаружение документов в реальном времени на мобильных устройствах, Proc. SPIE 9445, Седьмая международная конференция по машиностроению (ICMV 2014), 12 февраля 2015 г.
6. Лимонова Е., Ильин Д. и Николаев Д. Улучшение производительности нейронной сети на SIMD-архитектурах. Восьмая международная конференция по машинному зрению. Барселона, Испания. 2015.
7. Лимонова Е., Шешкус А. и Николаев Д. Вычислительная оптимизация сверточных нейронных сетей с использованием архитектуры разделенных фильтров // Международный журнал прикладных инженерных исследований. 2016.
8. Yi Lu. Сегментация печатных машин. Обзор, Распознавание образов, том. 28, вып. 1, с. 67 –80, 1995.
9. Ричард Г. Кейси и Эрик Леколинет. Обзор методов и стратегий сегментации символов, IEEE-транзакции по анализу шаблонов и машинной разведке, том. 18, с. 690–706, 1996.
10. Grafmller M., Beyerer J. Сегментация печатных серо-масштабных матричных символов //Материалы 14-й мировой многоконференции по системной, кибернетике и информатике WMSCI 2010 (т. II, с. 8791).
11. LeBourgeois F. Robust Multifont OCR System от изображений уровня серого, Международная конференция по анализу и распознаванию документов, vol. 0, p. 1, 1997.
12. Ye Q. и Doermann D. Обнаружение и распознавание текста в образах: обзор, IEEE-транзакции по анализу шаблонов и машинной разведке, том. 37, вып. 7, с. 1480-1500, 1 июля 2015 г.
13. Yin X.C., Zuo Z.Y., Tian S. и Liu C.L. Обнаружение текста, отслеживание и распознавание в видео: Всестороннее обследование, транзакции IEEE по обработке изображений, том. 25, вып. 6, стр. 2752-2773, июнь 2016 г.
 

2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".