Прикладные аспекты в информатике
Математические модели социально-экономических процессов
Динамические системы
Наукометрия и управление наукой
Распознавание образов
А.Е. Марченко, Е.И. Ершов, С.А. Гладилин "Система разбора документа, заданного атрибутами структурных элементов и отношениями между структурными элементами"
А.Е. Марченко, Е.И. Ершов, С.А. Гладилин "Система разбора документа, заданного атрибутами структурных элементов и отношениями между структурными элементами"

Аннотация.

В рамках задачи распознавания документов при помощи технологий компьютерного зрения рассматривается задача сопоставления структурных элементов документа с их физическими образами на бумаге, при условии, что элементы не имеют фиксированного расположения. Предлагается подход, основанный на описании документа через атрибуты его структурных элементов и отношения между структурными элементами. Предлагается алгоритм разбора документа, использующий данный подход. Описывается реализованная система разбора документа, основанная на данном подходе.

Ключевые слова:

разбор документа, структурный элемент, отношения между элементами, атрибуты элементов, алгоритм разбора.

Стр. 87-97.

Полная версия статьи в формате pdf. 

Литература

1. Усилин С.А., Николаев Д.П., Постников В.В., Быстрый алгоритм совмещения изображений документов в произвольной геометрической модели // Труды конференции «Информационные технологии и системы» (ИТиС), Геленджик, 2008. – С. 471 – 477.
2. Безматерных П.В., Николаев Д.П., Постников В.В., Метод идентификации типа документа по структуре проекций его изображения на координатные оси // Труды конференции «Информационные технологии и системы». (ИТиС), Геленджик, 2008. – С. 498 – 501.
3. Постников В.В., Марченко А.Е., Шоломов Д.Л., Разбор структурированного документа в модели с нечеткой логикой. // В сб. «Документооборот. Концепции и инструментарий», Москва, М.: URSS, 2004.
4. Постников В.В., Марченко А.Е., CFML: язык описания многостраничных структурированных документов для их идентификации и распознавания. // Математические методы распознавания образов (ММРО-12): Сборник докладов 12-й Всероссийской конференции. - М.: МАКС Пресс, 2005.
5. Постников В.В. Автоматическая идентификация и распознавание структурированных документов: диссертация ... кандидата технических наук : 05.13.01 Москва, 2001 126 c. : 61 02-5/365-8
6. Eugene Borovikov, “A survey of modern optical character recognition techniques” arXiv preprint arXiv:1412.4183, 2014.
7. Olivier Augereau, Nicholas Journet, Jean-Philippe Domenger, “Semi-structured document image matching and recognition”, Proc. SPIE 8658, Document Recognition and Retrieval XX, 865804 (4 February 2013).
8. Bertrand Coüasnon, Aurélie Lemaitre, “Recognition of Tables and Forms”, Handbook of Document Image Processing and Recognition, 2014.
9. Cattoni R., Coianiz T., Messelodi S., Modena C.M., “Geometric Layout Analysis Techniques for Document Image Understanding: a Review”, Technical Report, IRST, Trento, Italy, 1998.
10. Thomas M Breuel, “High performance document layout analysis”, Proceedings of the Symposium on Document Image Understanding Technology, 2003.
11. Xiao Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, C. Lee Giles. “Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017).
12. Tatsuhiko Kagehiro, Hiromichi Fujisawa, “Multiple Hypotheses Document Analysis”, Machine Learning in Document Analysis and Recognition, 2008.
13. Cartic Ramakrishnan, Abhishek Patnia, Eduard Hovy, Gully APC Burns, “Layout-aware text extraction from full-text PDF of scientific articles”, Source Code for Biology and Medicine 7(1), 2012.
14. Hui Chao, Jian Fan, “Layout and Content Extraction for PDF Documents. 2004. Layout and content extraction for pdf documents”, International Workshop on Document Analysis Systems. Springer, 2004.
15. Niyogi D. and Srihari S.N., “Knowledge-based derivation of document logical structure”, Proceedings of the 3rd International Conference on Document Analysis and Recognition – ICDAR, 1995.
16. Голубев С.В., Распознавание структурированных документов на основе машинного обучения. // Бизнес-информатика. – № 2 (16), 2011.
17. “Regular Expressions”. The Single UNIX ® Specification, Version 2. [electronic resource] // The Open Group [official website]. URL: http://pubs.opengroup.org/onlinepubs/007908799/xbd/re.html (accessed: 1.09.2017)
18. Perl-compatible Regular Expressions (revised API: PCRE2) [electronic resource] // PCRE - Perl Compatible Regular Expressions [official website]. URL: http://pcre.org/current/doc/html/(accessed: 1.09.2017)


 

2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".