Интеллектуальный анализ данных и распознавание образов
Интеллектуальные системы и технологии
Обработка и анализ изображений и сигналов
Машинное обучение
A.Е. Лынченко, А.В. Шешкус, В.Л. Арлазаров "Алгоритм классификации документов, удостоверяющих личность, на проективно-искаженных изображениях на основе обучаемой метрики подобия"
A.Е. Лынченко, А.В. Шешкус, В.Л. Арлазаров "Алгоритм классификации документов, удостоверяющих личность, на проективно-искаженных изображениях на основе обучаемой метрики подобия"

Аннотация.

Статья посвящена алгоритму классификации документов, удостоверяющих личность, на проективно-искаженных изображениях на основе метрики подобия, обученной с помощью сиамской архитектуры. Идея обучения сиамских сетей заключается в построении преобразования входного изображения в пространство, где с помощью заданной метрики аппроксимируется расстояние «схожести» между объектами исходного пространства. Во время обучения функция потерь стремится минимизировать расстояние между парами объектов одного класса и максимизировать – между парами разных классов. В качестве преобразования из исходного пространства в конечное используется сверточная нейронная сеть, с помощью которой для каждого класса определяется вектор признаков в конечном пространстве. Посредством данного преобразования к входному изображению и поиском ближайшего вектора признаков производится классификация объектов. На открытом наборе изображений документов, удостоверяющих личность, предложенный алгоритм показал качество распознавания сравнимое с качеством классифицирующей сверточной нейронной сети. Проиллюстрирована возможность обучения на одном примере (one-shot learning) данного метода.

Ключевые слова:

распознавание образов, сиамские нейронные сети, сверточные нейронные сети, глубокое обучение.

Стр. 167-173.

DOI: 10.14357/20790279180519

Полная версия статьи в формате pdf. 

Литература

1. Arlazarov V.V., Bulatov K., Chernov T. and Arlazarov V.L. MIDV-500: A Dataset for Identity Documents.
2. Hinton G., Deng L. and Yu D. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups, IEEE Signal Processing Magazine, pp. 82 – 97. 18 10 2012.
3. Collobert R. and Weston J. A unified architecture for natural language processing: deep neural networks with multitask learning, in Proceedings of the 25th international conference on Machine learning, Helsinki, Finland, 2008, DOI: 10.1145/1390156.1390177.
4. Krizhevsky A., Sutskever I. and Hinton G. ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, pp. 1097-1105, 2012.
5. Bulatov K., Arlazarov V.V. and Chernov T. Smart IDReader: Document Recognition in Video Stream, International Conference on Document Analysis and Recognition (ICDAR), 9 11 2017.
6. Dubnov I., Merkov A., Arlazarov V.L. and Nikolaev I. Evidence Maximization Technique for Training of Elastic Nets, Journal of Optimization, 2016.
7. Goldberger J., Roweis S., Hinton G. and Salakhutdinov R. Neighbourhood Components Analysis, in Neural Information Processing Systems (NIPS), Montreal, Canada, 2014.
8. Chopra S., Hadsell R. and LeCun Y. Learning a Similarity Metric Discriminatively, with Application to Face Verification, in Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), 2005.
9. Bromley J., Guyon I., LeCun Y. and Shah R. Signature verification using a Siamese time delay neural network, in Advances in neural information processing systems (NIPS), 1993.
10. Vinyals O., Blundell C., Lillicrap T., Kavukcuoglu K. and Wierstra D. Matching Networks for One Shot Learning, Advances in Neural Information Processing Systems 29, pp. 3630-3638, 2016.
11. Полевой Д., Шешкус А., Булатов К., Скорюкина Н., Чернов Т. and Арлазаров В.В. Ключевые аспекты распознавания документов с использованием малоразмерных цифровых камер, Вестник РФФИ, С. 97-108, 2016.
12. Lawrence S., Giles L. and Back A. Face recognition: a convolutional neural-network approach, IEEE Transactions on Neural Networks, pp. 98 – 113, 1 1 1997.
 

2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".