Журнал «Труды Института системного анализа Российской академии наук» - В. В. Арлазаров, В. М. Кляцкин, О. А. Славин "Структурный анализ текстовых полей в системах потокового ввода оцифрованных документов"

Просматривается номер 2015-65-1

English (United Kingdom)

Russian (CIS)

Математические модели социально-экономических процессов

А. С. Алиев, Д. С. Мазурин, Д. А. Максимова, В. И. Швецов "Структура комплексной модели транспортной системы г. Москвы"

Д. С. Мазурин, В. И. Швецов "Структура данных для калибровки транспортной модели города"

М. Г. Дубинина "Моделирование динамики взаимосвязи макроэкономических показателей и показателей распространения ИТ в развитых и развивающихся странах"

И. Д. Котляров "Экономико-математическая модель отбора лицензиара"

Моделирование характеристик деятельности отраслевых и региональных подсистем

А. А. Зуенко, О. В. Фридман "Матрицеподобные вычисления при обработке недоопределенных знаний в продукционных системах (на примере задачи выбора технологии обогащения минерального сырья)"

Динамические системы

Н. А. Магницкий "Использование методов хаотической динамики для обнаружения атак на ресурсы распределенных информационных систем"

Математические проблемы динамики неоднородных систем

Ю. Э. Даник, М. Г. Дмитриев "Магистральные траектории в экономике и сингулярные возмущения"

Информационные технологии в системном анализе

М. А. Алиев, В. В. Арлазаров, Д. Г. Слугин "Контроль комплектности документов в системах массового ввода"

В. В. Арлазаров, В. М. Кляцкин, О. А. Славин "Структурный анализ текстовых полей в системах потокового ввода оцифрованных документов"

Распознавание образов

Б. М. Гавриков, М. Б. Гавриков, Н. В. Пестрякова "Статистический анализ характеристик метода распознавания при распознавании заданной модификации обучающего множества"

Методы принятия решений

Ю. И. Рогозов "Методологический подход к построению системных понятий"


	В. В. Арлазаров, В. М. Кляцкин, О. А. Славин "Структурный анализ текстовых полей в системах потокового ввода оцифрованных документов"
Аннотация. Статья посвящена проблематике структурного анализа текста при распознавании документов-форм на примере системы потокового ввода документов Cognitive Forms 2.0. Авторы предложили универсальный подход понимания структуры текстовых строк, одинаково пригодный для неструктурированных машинописных листов и полей документов-форм, робастный к искажениям, характерным для планшетных сканеров и камер мобильных устройств. Методология данной работы основана на различных подходах анализа данных, таких как авто-классификация и кластер анализ, методах гистограммного анализа и геометрических моделях искажения изображения при сканировании документов различными устройствами. В работе описаны алгоритмы компенсации ошибок положения строк, нахождения слов и знаков препинания в тексте. Ключевые слова: изображение документа, поле документа, строка символов, сложноструктурированный документ, сегмент строки. Стр. 75-81. V. V. Arlazarov, V. M. Klyatskin, O. A. Slavin "Providing a set of graphic images of characters for the character classiﬁer learning" *Abstract.* The article is about the structural analysis of the text in recognition of documents, forms an example of streaming input documents Cognitive Forms 2.0. The authors propose a universal approach understanding of the structure of text strings, equally suitable for unstructured typewritten sheets and ﬁelds of documents, forms, robust to distortions characteristic of ﬂatbed scanners and cameras mobile devices. The methodology of this work is based on the different approaches of data analysis such as auto-classiﬁcation and cluster analysis methods, histogram analysis, and geometric models of image distortion when scanning documents of various devices. This paper describes algorithms for error compensation position lines, ﬁnding words and punctuation marks in the text. *Keywords:* image of the document, the document ﬁeld, the string of characters, complex structured document, image of the segment of the string. Полная версия статьи в формате pdf. REFERENCES 1. Kliatskine V., Shchepin E., Thorvaldsen G, Zingerman K., Lazarev V. A Structural Method for the Recognition of Complex Historical Tables // History & Computing, Edinburg University Press 1997, vol. 9, No. 3. PP 58–77. 2. Klyahzkin V., Shchepin E., Zingerman K. Application of hierarchical methods of cluster analysis to the printed text structure recognition // Shape, Structure, and Pattern Recognition Nahariya, Israel, October 1994, Dov Dori and Alfred Bruckstein, Eds., World Scientiﬁc, 1995, Singapore, New Jersey, London, Hong Kong (SSPR’94), PP 333–342 3. Wang H., Landa Y., Fallon M., and Teller S. Computer Science and Artiﬁcial Intelligence Laboratory Massachusetts Institute of Technology USA - Spatially Prioritized and Persistent Text Detection and Decoding // ICDAR 2013 12th International Conference on document analysis and recognition, Washington, DC, August, 2013 pp. 7–12. 4. Neumann L., Matas J. Center for Machine Perception, Department of Cybernetics Czech Technical University, Prague, Czech Republic - On Combining Multiple Segmentations in Scene Text Recognition // ICDAR 2013 12th International Conference on document analysis and recognition, Washington, DC, August, 2013 pp. 523–527 5. Smith R.. An overview of the Tesseract OCR engine. In Proc. of the Intl. Conf. on Document Analysis and Recog- nition (ICDAR), pp. 629633, 2007 6. Otsu N. A threshold selection method from gray-level histograms. IEEE Trans. Sys., Man., Cyber. 1979. 9 (1): 62–66 7. Arlazarov V. V., Postnikov V. V., Sholomov D. L. Cognitive Forms - sistema massovogo vvoda strukturirovannykh dokumentov // Sbornik trudov Instituta sistemnogo analiza RAN «Upravlenie informatsionnymi potokami». M.: URSS, 2002. S. 35–46.

2025-75-1

2024-74-4

2024-74-3

2024-74-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".