Статьи
Д. Л. Шоломов, В. В. Постников, А. А. Марченко, А. В. Усков "Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис"
Д. Л. Шоломов, В. В. Постников, А. А. Марченко, А. В. Усков "Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис"

Аннотация

В работе рассматривается задача пост-обработки текстовых полей ввода на формах и структурированных документах. Часто формы содержат поля с довольно свободным синтаксисом. Тем не менее, на документах с которыми мы имеем дело, поля со свободным синтаксисом практически всегда содержат характерные синтаксические конструкции. В этом случае нашей задачей является интерпретация такого рода конструкций с целью улучшения качества распознавания. В статье описан так называемый PDS подход использующий Частично Определенный Синтаксис, который в частности был успешно применен при распознавании полей ввода на платежных документах Центрального Банка РФ, а также при вводе анкет Пенсионного Фонда РФ. В статье приводится процедура Автоматического Выделения Синтаксиса (ASE) и MCHSR алгоритм быстрого нечеткого отображения текстовой строки применяемый при отображении словарей. Также приводятся результаты пост-обработки поля «Назначение платежа» на Платежных Поручениях ЦБРФ и результаты сравнения PDS подхода с Синтаксическим подходом на примере распознавания поля «Почтовый адрес» на анкетах Пенсионного Фонда РФ.

Скачать статью в формате pdf

2024-74-3
2024-74-2
2024-74-1
2023-73-4

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".