 |
Н.Л. Аванесян, О.В. Губина, А.М. Чеповский "Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений" |
 |
Аннотация.
Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов русских писателей. Для исследований создан корпус прозаических текстов художественной литературы России XIX века, состоящий из пяти подкорпусов. Каждый подкорпус содержит тексты одного из авторов. На примере созданного корпуса продемонстрированы возможности применения метода анализа соответствий, интегрированного в корпусную платформу TXM в качестве одного из средств статистического метода исследований. В качестве другого метода рассматривается анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты и позволяют констатировать возможность выделения дифференцирующих признаков. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта.
Ключевые слова:
корпусная лингвистика, платформа TXM, анализ соответствий, корреляционный анализ.
DOI: 10.14357/20790279240204
EDN: IKHGUO Стр. 25-32. Литература
1. Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы ки- бербезопасности. 2019. № 4(32). С.54-60. DOI: 10.21681/2311-3456-2019-4-54-60. 2. Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Создание специальных корпусов текстов на основе расширенной платформы TXM // Системы высокой доступности. 2018. Т.14. № 3. С.76-81. 3. Аванесян Н.Л., Соловьев Ф.Н., Тихомирова Е.А., Чеповский А.М. Выявление значимых признаков противоправных текстов // Вопросы кибер-безопасности. 2020. № 4 (38). С. 76–84. DOI: 10.21681/2311-3456-2020-04-76-84 4. Фокина А.И., Чеповский А.А., Чеповский А.М. Использование платформы TXM корпусного анализа для анализа текстов сообществ социальных сетей // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2023. Т. 21. № 2. С. 29-38. DOI: 10.25205/1818-7900-2023-21-2-29-38. 5. Аванесян Н.Л., Зенькова В.В., Чеповский А.А., Чеповский А.М. Анализ текстов сообществ социальных сетей // Успехи кибернетики. 2023. 4(2). С. 33–39. DOI: 10.51790/2712-9942-2023-4-2-05. 6. Heiden S. The TXM Platorm: Building Open-Source Textual Analysis Sofware Compatile with the TEI Encoding Scheme. In: 24th Pacific Asia Conference on Language, Information and Computation – PACLIC24 / Ed. by R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute for Digital Enhancement of Cognitive Development. Waseda University, Sendai, Japan.2010. P. 389−398. 7. TXM public website. [Online] Available from: http:// textometrie.org. (Дата обращения 23.01.2024) 8. Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings International Conference on New Methods in Language Processing, Manchester, UK, Sept. 1994. P. 44–49. 9. Лаврентьев А.М., Соловьев Ф.Н., Чеповский А.М. Внедрение в TXM дополнительных инструментов автоматической обработки текста. В кн.: Труды международной конференции «Корпусная лингвистика – 2019». СПб.: Издательство Санкт-Петербургского университета. 2019. С. 55-62. 10. Benzécri J.-P., Bellier L. L’analyse des données. V. 2:L’analyse des Correspondances. Paris: Dunod. 1976. 616 p. 11. Lê S., Josse J., Husson F. FactoMineR:an R package for multivariate analysis // Journal of statistical software.2008. № 25 (1). P. 1-18. 12. Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. Второе издание, переработанное. М.: Национальный открытый университет «ИН- ТУИТ». 2015. 228 c. 13. Lavrentiev A., Sherstinova T., Chepovskiy A., Pincemin B. Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts // Вестник Томского государственного университета. Филология. 2021. № 70. С. 69- 89. DOI: 10.17223/19986645/70/5. 14. Прикладная статистика: Классификации и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин / Под ред. С.А. Айвазяна. М.: Финансы и статистика. 1989. 607 с. 15. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир. 1989. 540 с. 16. Деза Е.И., Деза М.М. Энциклопедический словарь расстояний. М.: Наука. 2008. 444 с.
|