System modeling
Scientometrics and management science
Recognition of images
К. Б. Булатов, Д. П. Николаев, В. В. Постников "Универсальный алгоритм пост-обработки результатов распознавания на основе проверяющих грамматик*"
К. Б. Булатов, Д. П. Николаев, В. В. Постников "Универсальный алгоритм пост-обработки результатов распознавания на основе проверяющих грамматик*"

Аннотация.

В данной работе рассматривается задача статистической коррекции (пост-обработки) результата распознавания текстовых полей. Обсуждается постановка задачи пост-обработки для текстовых полей с языковой моделью, представленной в виде проверяющей грамматики. Описывается универсальный алгоритм для поиска гипотез, удовлетворяющих языковой модели на основе проверяющей грамматики и описываются его свойства. Алгоритм основан на организации эффективного перебора цепочек альтернативных результатов распознавания в порядке убывания общей оценки и
последующей проверке допустимости цепочек с точки зрения проверяющей грамматики.

Ключевые слова:

автоматический ввод документов, распознавание документов, оптическое распознавание символов, статистическая коррекция.

Стр. 68-73.

K. B. Bulatov, D. P. Nikolaev, V. V. Postnikov

"General-purpose algorithm for text field OCR result post-processing based on validation grammars"

Abstract. This paper considers a problem of statistical correction (post-processing) for text fields recognition results. A formulation of the post-processing problem is discussed using the text field language model set as a validation grammar. A general-purpose algorithm is described for search of hypotheses consistent with the language model based on a validation grammar. The algorithm is based on an efficient generation of alternative OCR result sequences with descending confidence and validation of these sequences using the validation grammar.

Keywords: authomatic documents entry, document recognition, OCR, statistical correction. 

Полная версия статьи в формате pdf.

REFERENCES

1. Bouchaffra D., Govindaraju V., Srihari S. N. Postprocessing of Recognized Strings Using Nonstationary Markovian Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. V. 21. № 10, R. 990–999
2. Kukich K. Techniques for Automatically Correcting Words in Text // ACM computing survey, Computational Linguistics. 1992. V. 24. № 4, R. 377–439 .
3. Llobet R., Cerdan-Navarro J.-R., Perez.-Cortes J., Arlandis J. OCR Post-processing Using Weighted Finite-State Transducers // Pattern Recognition (ICPR), 2010. R. 2021–2024.
4. Hart P. E., Nilsson N. J., Raphael B. A formal Basis for the Heuristic Determination of Minimum Cost Paths // IEEE Transactions on Systems Science and Cybernetics SSC4. 1968 № 4 (2), R. 100–107
 

2020-70-2
2020-70-1
2019-69-4
2019-69-3

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".