Интеллектуальный анализ данных и распознавание образов
О.А. Славин, В.Л. Арлазаров "Метод классификации распознанных страниц деловых документов на основе текстовых ключевых точек"
Интеллектуальные системы и технологии
Обработка и анализ изображений и сигналов
Машинное обучение
О.А. Славин, В.Л. Арлазаров "Метод классификации распознанных страниц деловых документов на основе текстовых ключевых точек"

Аннотация.

В работе рассматривается задача классификации распознанных страниц деловых документов. Деловые документы, используемые в документообороте, в том числе в обмене документами между организациями, обладают определенной стандартизацией, они могут быть как неструктурированными, так и структурированными. В банках или страховых компаниях часто необходимы такие документы как доверенность, договор, карточка с образцами подписей и печатей, устав, контракт, счет, свидетельства о регистрации и т.п. При создании и ведении электронных архивов бумажные документы оцифровываются, а цифровые образы страниц (сканы страниц) могут быть распознаны и проанализированы. Одной из задач анализа является классификация образа страницы, состоящая в проверке его принадлежности определенному классу. Предложен простой метод классификации деловых документов, дающий приемлемые результаты.

Ключевые слова:

классификация текстов; распознавание документов; OCR; ошибка распознавания; template matching.

Стр. 32-42. 

DOI: 10.14357/20790279180504

Полная версия статьи в формате pdf. 

Литература

1. Awal A.M., Ghanmi N., Sicre R., Furon T. Complex Document Classification and Localization Application on Identity Document Images // Proc. 14th IAPR International Conference on Document Analysis and Recognition. – 2017. – P. 427-432. doi 10.1109/ICDAR.2017.77
2. Ondrej Chum, Jiri Matas and Josef Kittler. “Locally Optimized RANSAC”. In: DAGM-Symposium. Vol. 2781. Lecture Notes in Computer Science. 2003, P. 236–243
3. Шемякина Ю.А., Жуковский А.Е., Фараджев И.А. Исследование алгоритмов вычисления проективного преобразования в задаче наведения на планарный объект по особым точкам //Искусственный интеллект и принятие решений, № 1. 2017. С. 43-49.
4. Rusiñol M., Frinken V., Karatzas D., Bagdanov A.D., Lladós J. Multimodal page classification inadministrative document image streams // In: IJDAR 17.4 (2014), pp. 331–341.
5. Rubin T.N.,Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. – 2012. – Vol.88,no.1-2. – P.157208.
6. Zhou S., Li K., Liu Y. Text categorization based on topiс model//International Journal of Computational Intelligence Systems. – 2009. – Vol.2, no.4. – P.398409
7. Vorontsov K.V., Potapenko A.A. Tutorial on probabilistic topic modeling: Additive regularization for stochastic matrix factorization // AIST’2014, AnalysisofImages, Social networks and Texts.- Vol.436. – Springer International Publishing Switzerland, Communications in Computer and Information Science (CCIS), 2014. – P.29-46.
8. Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. Т. 456, № 3. С. 268-271.
9. El-Kishky A., Song Y., Wang C., Voss C. R., Han J. Scalable topical phrase mining from text corpora // Proc. VLDB Endowment. — 2014. — Vol. 8, no. 3. — Pp. 305-316.
10. Liu J., Shang J., Wang C., Ren X., Han J. Mining quality phrases from massive text corpora // Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. — SIGMOD 45. — New York, NY, USA: ACM, 2015. Pp. 1729-1744.
11. Yarn X., Guo J., Lan Y., Cheng X. A biterm topic model for short texts // Proceedings of the 22Nd International Conference on World Wide Web. — WWW ’13.- Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2013.- P. 1445-1456.
12. Смирнов С.В. Технология и система автоматической корректировки результатов при распознавании архивных документов. Диссертация на соискание ученой степени кандидата технических наук, СПт:, 2015. – 130 с.
13. Breiman L., Friedman J. H., Olshen R. A., & Stone C. J. Classification and regression trees. Monterey // CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984. – 368 p.
 

2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".