|
Д. Л. Шоломов, В. В. Постников, А. А. Марченко, А. В. Усков "Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис" |
|
АннотацияВ работе рассматривается задача пост-обработки текстовых полей ввода на формах и структурированных документах. Часто формы содержат поля с довольно свободным синтаксисом. Тем не менее, на документах с которыми мы имеем дело, поля со свободным синтаксисом практически всегда содержат характерные синтаксические конструкции. В этом случае нашей задачей является интерпретация такого рода конструкций с целью улучшения качества распознавания. В статье описан так называемый PDS подход использующий Частично Определенный Синтаксис, который в частности был успешно применен при распознавании полей ввода на платежных документах Центрального Банка РФ, а также при вводе анкет Пенсионного Фонда РФ. В статье приводится процедура Автоматического Выделения Синтаксиса (ASE) и MCHSR алгоритм быстрого нечеткого отображения текстовой строки применяемый при отображении словарей. Также приводятся результаты пост-обработки поля «Назначение платежа» на Платежных Поручениях ЦБРФ и результаты сравнения PDS подхода с Синтаксическим подходом на примере распознавания поля «Почтовый адрес» на анкетах Пенсионного Фонда РФ.
|