I. ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ
PATTERN RECOGNITION
В. В. Постников, А. Е. Марченко "FrameStream: модель сегментации многостраничного структурированного документа"
III. МЕТОДЫ ПРОЕКТИРОВАНИЯ И АНАЛИЗА СЛОЖНЫХ СИСТЕМ
В. В. Постников, А. Е. Марченко "FrameStream: модель сегментации многостраничного структурированного документа"

Аннотация.

В работе рассматривается центральная часть задачи ICR (Intelligent character recognition) — этап сегментации, состоящий в идентификации на графических образах частей документа, указанных в шаблоне документа. Постановка задачи допускает нежесткое разделение документа на страницы и свободное перетекание текстовых блоков. Предлагается модель, отражающая состояние процесса сегментации как однородной структуры вложенных фреймовых потоков. Структура кодируется графом специального вида, который наращивается в процессе сегментации и распознавания. Верхний уровень модели соответствует потоку отсканированных страниц, нижний уровень — потоку символов в текстовой строке. Модель допускает альтернативные варианты декомпозиции и распознавания, а также присутствие разных типов документов в одном потоке и разных вариантов форматирования документов. В такой парадигме задача распознавания сводится к построению и поиску наилучшего (с точки зрения соответствия модели документа) пути в графе сегментации.

Скачать статью в формате pdf

 

2019-69-2
2019-69-1
2018-68-4
2018-S1

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".