МЕТОДЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ
РАСПОЗНАВАНИЕ ОБРАЗОВ
Ю. А. Котов "Методика и результаты сравнительного анализа четырех методов идентификации букв текстов"
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
Ю. А. Котов "Методика и результаты сравнительного анализа четырех методов идентификации букв текстов"

Аннотация.

В статье приведены результаты сравнения четырех известных частотных методов идентификации букв текстов, необходимые для прикладного решения задач криптоанализа, стеганографии и задач общего анализа текстов, известных в информатике под названием text mining. Для проведения сравнения и получения полной и унифицированной характеристики методов предложена методика оценки, которая включает измерение трех ошибок идентификации и формирование интегральной характеристики на их основе, названной добротностью метода. По данной методике проведено экспериментальное сравнение и качественный анализ одного униграммного и трех биграммных методов идентификации букв текстов. Сравнение выполнено на представительных выборках фрагментов русскоязычных текстов. Определены качественные и количественные особенности методов, границы их эффективного применения, взаимосвязь с типом и объемом обрабатываемого текста.

Ключевые слова:

текст, буква, униграмма, биграмма, идентификация, простая замена, шифр, анализ текста.

Стр. 41-56.

DOI 10.14357/20718632190304

 Полная версия статьи в формате pdf.

Литература

1. Shannon C. Communication theory of secrecy systems // Bell System Technical Journal. 1949. vol. 28. no. 4. pp. 656–715.
2. Jakobsen T. A fast Method for Cryptanalysis of Substitution Ciphers // Cryptologia. 1995. vol.19. no 3. pp. 265-274.
3. Corlett E. An Exact A* Method for Solving Letter Substition Ciphers //University of Toronto. 2011.- ftp://ftp.cs.toronto.edu/pub/gh/Corlett-MSc-2011.pdf.
4. Maya Mohan, M. K. Kavitha Devi, V. Jeevan Prakash Security Analysis and Modification of Classical Encryption Scheme // Indian Journal of Science and Technology. 2015. vol. 8 no. 8. pp. 542–548.
5. Bradly Haner, Ryan Hayward, Grzegorz Kondrak Solving Substitution Ciphers with Combined Language Models // Proceedings of COLING 2014, the 25th International Conference of Computational Linguistics: Technical Papers. Dublin, Ireland, August 23-29. 2014. pp. 2314-2325.
6. Rohit Vobbilisetty, Fabio Di Troia, Richard M. Low, Corrado Aaron Visaggio, Mark Stamp Classic cryptanalysis using hidden Markov models // Criptologia. 2017. vol. 41. no.1. pp.1–28.
7. Bidisha Goswami, Ravichandra G. Public cloud user authentication and data confidentiality using image steganography with hash function // American Journal of Applied Mathematics. 2015. vol.3. no. 1-2. pp. 1-8.
8. James Collins, Sos Agaian High Capacity Image Steganography Using Adjunctive Numerical Representations with Multiple Bit-Plane Decomposition Methods // International Journal on Cryptography and Information Security (IJCIS). 2016. Vol. 6, No. 1-2. pp. 1-21.
9. Воробьева А.А. Методика идентификации интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений // Информация и космос. 2017. № 1. С.127-130.
10. Razieh Nokhbeh Zaeem, Monisha Manoharan, Yongpeng Yang, K. Suzanne Barber Modeling and analysis of identity threat behaviors through text mining of identity theft stories // Computers & Security. 2017. no. 65. pp.50-63.
11. Weiming Liang , Haoran Xie, Yanghui Rao , Raymond Y.K. Lau, Fu Lee Wang Universal affective model for Readers’ emotion classification over short texts // Expert Systems with Applications. 2018. No. 114. pp. 322—333.
12. Attila Novak, Borbala Siklosi Grapheme-to-Phoneme Transcription in Hungarian // International Journal of Computational Linguistics and Applications. 2016. vol. 7. no. 1, pp. 161—173.
13. Haithem Afli, Loic Barrault, Holger Schwenk OCR Error Correction Using Statistical Machine Translation // International Journal of Computational Linguistics and Applications. 2016. vol. 7. no. 1, pp. 175—191.
14. Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction // International Journal of Computational Linguistics and Applications, Vol. 4, No. 2, pp. 169—188, 2013.
15. Alireza Yousefpour, Roliana Ibrahim, HazaNuzlyAbdel Hamed Ordinal-based and frequency-based integration of feature selection methods for sentiment analysis // Expert Systems with Applications. 2017. no. 75. pp. 80–93.
16. Sanja Štajner, Horacio Saggion, Simone Paolo Ponzetto Improving lexical coverage of text simplification systems for Spanish // Expert Systems with Applications. 2019. no. 118. pp. 80–91.
17. Silvia García-Méndez, Milagros Fernández-Gavilanes, Enrique Costa-Montenegro, Jonathan Juncal-Martínez, F. Javier González-Castaño A library for automatic natural language generation of spanish texts // Expert Systems with Applications. 2019. no. 120. pp. 372–386.
18. Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов // Доклады Белорусского государственного университета информатики и радиоэлектроники. 2014. № 3. С.40-44.
19. Фомин В.В., Флегонтов А.В., Осочкин А.А. Метод частотно-морфологической классификации текстов // Программные продукты и системы. 2017. №3. С.478-486.
20. Nadir Zanini, Vikas Dhawan Text Mining: An introduction to theory and some applications // A Cambridge Assessment publication. 2015. http://www.cambridgeassessment.org.uk/researchmatters/.
21. Абденов А. Ж., Котов Ю. А., Санина О. В. Значения некоторых униграммных характеристик русскоязычных текстов // Научный вестник Новосибирского государственного технического университета. 2017. № 2. С.146-162.
22. Котов Ю. А., Санина О. В. Значения некоторых биграммных характеристик русскояхычных текстов // Вестник СибГУТИ (Сибирский государственный университет телекоммуникации и информатики). 2017. № 4. С.24-34.
23. Котов Ю. А., Санина О. В. Идентификация пробела при неизвестной знаковой кодировке русскоязычных текстов // Вестник СибГУТИ (Сибирский государственный университет телекоммуникации и информатики). 2018. № 4. С.48-60.
24. Котов Ю.А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. №1. С.181-197.
25. Котов Ю.А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. №1. С.190-208.
 

2024 / 03
2024 / 02
2024 / 01
2023 / 04

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".