|
К. Б. Булатов, Д. П. Николаев, В. В. Постников "Универсальный алгоритм пост-обработки результатов распознавания на основе проверяющих грамматик*" |
|
Аннотация. В данной работе рассматривается задача статистической коррекции (пост-обработки) результата распознавания текстовых полей. Обсуждается постановка задачи пост-обработки для текстовых полей с языковой моделью, представленной в виде проверяющей грамматики. Описывается универсальный алгоритм для поиска гипотез, удовлетворяющих языковой модели на основе проверяющей грамматики и описываются его свойства. Алгоритм основан на организации эффективного перебора цепочек альтернативных результатов распознавания в порядке убывания общей оценки и последующей проверке допустимости цепочек с точки зрения проверяющей грамматики. Ключевые слова: автоматический ввод документов, распознавание документов, оптическое распознавание символов, статистическая коррекция. Стр. 68-73. K. B. Bulatov, D. P. Nikolaev, V. V. Postnikov"General-purpose algorithm for text field OCR result post-processing based on validation grammars"Abstract. This paper considers a problem of statistical correction (post-processing) for text fields recognition results. A formulation of the post-processing problem is discussed using the text field language model set as a validation grammar. A general-purpose algorithm is described for search of hypotheses consistent with the language model based on a validation grammar. The algorithm is based on an efficient generation of alternative OCR result sequences with descending confidence and validation of these sequences using the validation grammar. Keywords: authomatic documents entry, document recognition, OCR, statistical correction. Полная версия статьи в формате pdf. REFERENCES 1. Bouchaffra D., Govindaraju V., Srihari S. N. Postprocessing of Recognized Strings Using Nonstationary Markovian Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. V. 21. № 10, R. 990–999 2. Kukich K. Techniques for Automatically Correcting Words in Text // ACM computing survey, Computational Linguistics. 1992. V. 24. № 4, R. 377–439 . 3. Llobet R., Cerdan-Navarro J.-R., Perez.-Cortes J., Arlandis J. OCR Post-processing Using Weighted Finite-State Transducers // Pattern Recognition (ICPR), 2010. R. 2021–2024. 4. Hart P. E., Nilsson N. J., Raphael B. A formal Basis for the Heuristic Determination of Minimum Cost Paths // IEEE Transactions on Systems Science and Cybernetics SSC4. 1968 № 4 (2), R. 100–107
|