Динамика макросистем
Компьютерный анализ текстов
А. Р. Гатиатуллин, А.М. Баширов, Г.С. Осипов, И.В. Смирнов, А.О. Шелманов "Методы лингвистического анализа текстов на татарском языке и их применение в поисковой системе Exactus"
Методологические проблемы системного анализа
Прикладные аспекты в информатике
А. Р. Гатиатуллин, А.М. Баширов, Г.С. Осипов, И.В. Смирнов, А.О. Шелманов "Методы лингвистического анализа текстов на татарском языке и их применение в поисковой системе Exactus"

Аннотация.

В работе описываются методы и технологии, использованные при разработке модулей морфологического анализа тюркских словоформ. Технологии в основе этих модулей универсальны для всех тюркских языков, однако на данном этапе проекта реализованы программные модули, производящие обработку только татарских словоформ. Эти модули встроены в информационно-поисковую систему Exactus, которая ранее поддерживала работу с текстами только на русском и английском языках. Внедрение новых программных модулей позволит увеличить количество языков, анализируемых поисковой системой Exactus, а использованные в них технологии представляют интерес для работы с языками агглютинативного типа, в число которых входят все языки тюркского семейства.

Ключевые слова:

информационно-поисковая система, морфологический анализатор, татарский язык.

Стр. 18-25.

Полная версия статьи в формате pdf. 

A.R. Gatiatullin, A.M. Basheerov, G.S. Osipov, I.V. Smirnov, A.O. Shelmanov

"Methods for linguistic analysis of texts in Tatar language and their application in the Exactus search system"

Abstract. The paper describes the technology used in the development of the modules of Turkic word forms morphological analysis. The technology used is universal for all Turkic languages; however, at this stage of the project were implemented software modules that produce Tatar word forms processing. These modules are integrated into an informational retrieval system Exactus, which earlier supported Russian and English languages. The introduction of the new software modules will increase the number of languages analyzed by the retrieval system Exactus. The technologies used in these modules are of the interest for work with agglutinative-type languages that include all languages of the Turkic family.

Keywords: information retrieval system, morphological analyzer, tatar language.

REFERENCES

1. Tuzov V. A. Morfologicheskiy analizator russkogo yazyka //Vestnik SPbGU, ser. 1. 1996. Vyp. 1 (N15). S. 41–45.
2. Segalovich I., Maslov M. Russkiy morfologicheskiy analiz i sintez s generatsiey modeley slovoizmeneniya dlya ne opisannykh v slovare slov. // Kompyuternaya lingvistika i intellektualnye tekhnologii: Trudy mezhdunarodnoy konferentsii «Dialog’99». T. 2. S. 547–552. Kazan, 1998.
3. Antworth, E. L. PC-KIMMO: a two-level processor for morphological analysis. Occasional Publications in Academic Computing No. 16. Dallas: Summer Institute of Linguistics, 1990, 273 p.
4. Kemal Oflazer. Two-level Description of Turkish Morphology. Literary and Linguistic Computing,– Vol. 9, No 2, – 1994.
5. Dybo A. V., Sheymovich A.V. Avtomaticheskiy morfologicheskiy analiz dlya korpusovtyurkskikh yazykov // Filologiya i kultura – 2014. – №2.
6. Suleymanov D. Sh., Gilmullin A. A., Gilmullin R. A. Baza morfotakticheskikh pravil dlya tatarskogo glagola kak osnova dvukhurovnevogo morfologicheskogo analizatora // Sbornik trudov Mezhdunarodnogo seminara «Dialog», Kazan, 1998. – S. 597-609.
7. Sirazitdinov Z. A. Algoritmicheskaya grammatika slovoizmeneniya bashkirskogo yazyka
// [Elektronnyy resurs]. URL: http://mfbl.ru/bashdb/algram/algram.htm (data obrashcheniya: 19.09.2015).
8. Orekhov B. V., Slobodyan Ye. A. Problemy avtomaticheskoy morfologii agglyutinativnykh yazykov i parser bashkirskogo yazyka // Informatsionnye tekhnologii i pismennoe nasledie: materialy mezhdunarodnoy nauchnoy konferentsii (Ufa, 28–31 oktyabrya 2010 g.) / otv. red. V. A. Baranov. Ufa; Izhevsk: Vagant, 2010. S. 167–171.
9. Sharipbaev A. A., Bekmanova G. T., Yergesh B. Zh., Buribaeva A. K., Karabalaeva M. Kh. Intellektualnyy morfologicheskiy analizator, osnovannyy na semanticheskikh setyakh // Materialy mezhdunarodnoy nauchno-tekhnicheskoy konferentsii «Otkrytye semanticheskie tekhnologii proektirovaniya intellektualnykh sistem» (OSTIS-2012). Minsk, BGUIR, 16–18 fevralya 2012g. S. 397–400
10. Zheltov P. V. Morfologicheskiy analizator chuvashskogo yazyka. Materialy Mezhdunarodnoy konferentsii studentov i aspirantov po fundamentalnym naukam «Lomonosov 2002», M., 2002.
11. Osipov G. S., Tikhomirov I. A., Smirnov I. V. Semanticheskiy poisk v seti Internet sredstvami poiskovoy mashiny Exactus // Trudy odinnadtsatoy natsionalnoy konferentsii po iskusstvennomu intellektu s mezhdunarodnym uchastiem KII-2008. T3 - M.: LYeNAND, 2008. - S. 323-328..
12. Sochenkov I. V., Suvorov R. Ye. Servisy polnotekstovogo poiska v informatsionno-analiticheskoy sisteme (Chast 1) // Informatsionnye tekhnologii i vychislitelnye sistemy. – 2013. – №2. – C. 69-78.
13. Osipov G. S., Smirnov I. V., Tikhomirov I. A. Relyatsionno-situatsionnyy metod poiska i analiza tekstov i ego prilozheniya // Iskusstvennyy intellekt i prinyatie resheniy. – 2008. – № 2. – S. 3–10.
14. Relational–situational method for intelligent search and analysis of scientific publications /Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov, Artem Shelmanov // Proceedings of the Workshop on Integrating IR technologies for Professional Search, in conjunction with the 35th European Conference on Information Retrieval (ECIR’13). – Vol. 968. – CEUR Workshop Proceedings, 2013.
15. Sochenkov I. V., Suvorov R. Ye. Servisy polnotekstovogo poiska v informatsionno-analiticheskoy sisteme (Chast 2) // Informatsionnye tekhnologii i vychislitelnye sistemy. – 2013. – №3. – C. 71-87.

2024-74-2
2024-74-1
2023-73-4
2023-73-3

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".