Системное регулирование национальной и региональной экономики
Общая теория систем
Информационные технологии
Оптимизация, идентификация, теория игр
Системный анализ в медицине и биологии
В.В. Донитова, Д.А. Киреев, Е.В. Титова, А.А. Акимова "Методы обработки естественного языка для извлечения факторов риска инсульта из медицинских текстов"
В.В. Донитова, Д.А. Киреев, Е.В. Титова, А.А. Акимова "Методы обработки естественного языка для извлечения факторов риска инсульта из медицинских текстов"
Аннотация. 

Своевременное выявление факторов риска такого социально значимого заболевания, как инсульт, важно для организации профилактики этой патологии. Выбор наиболее эффективных современных методов обработки текстов для автоматического извлечения информации о наличии факторов риска у пациентов из электронных медицинских карт может повысить качество оказания превентивной медицинской помощи. Вопросы такого рода в области обработки естественного языка (Natural Language Processing, NLP) называются задачами извлечения именованных сущностей (Named Entity Recognition, NER). Для решения данной задачи были использованы методы извлечения информации (Information Extraction, IE) о заболеваниях и состоянии здоровья, основанные на вручную созданных правилах, машинном обучении (Machine Learning, ML) и глубоком обучении (Deep Learning, DL). На собранных и размеченных экспертами данных были проведены сравнительные экспериментальные исследования перечисленных методов. В экспериментах рассматривались 6 сущностей, однако описанные подходы и методы могут быть использованы для извлечения любых сущностей. По результатам экспериментов были сделаны выводы об эффективности разработанных методов и используемых текстовых характеристик для решения задачи.

Ключевые слова: 

факторы риска, обработка естественного языка, извлечение именованных сущностей, машинное обучение, глубокое обучение.

Стр. 93-101.

DOI: 10.14357/20790279210410
 
 
 Литература

1. Johnson W., Onuma O., Owolabi M. and Sachdev S. Sep. Stroke: a global response is needed. Bull. World Health Organ. 2016. Vol. 94. No. 9. P. 634-634A.
2. Thrift A.G. et al. Jan. Global stroke statistics. Int. J. stroke Off. J. Int. Stroke Soc. 2014. Vol. 9. No. 1. P. 6–18.
3. Boehme A.K., Esenwa C. and M.S. V Elkind. Feb. Stroke Risk Factors, Genetics, and Prevention. Circ. Res. 2017. Vol. 120. No. 3. P. 472–495.
4. Благосклонов Н.А. и др. Лингвистический анализ историй болезни для выявления факторов риска инсульта / Труды ИСА РАН. 2020. Т. 70. № 3. С. 75-85.
5. Devlin J., Chang M.-W., Lee K. and Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019.
6. Neamatullah I. et al. Automated de-identification of free-text medical records. BMC Med. Inform. Decis. Mak. 2008. Vol. 8. No. 1. P. 32.
7. Sondhi P., Gupta M., Zhai C. and Hockenmaier J. Shallow Information Extraction from Medical Forum Data. Coling 2010: Posters. 2010. P. 1158–1166. Available at: https://www.aclweb.org/anthology/C10-2133.
8. Nayel H. and Shashirekha H.L. “Improving {NER} for Clinical Texts by Ensemble Approach using Segment Representations,” in Proceedings of the 14th International Conference on Natural Language Processing ({ICON}-2017). 2017. P. 197–204. Available at: https://www.aclweb.org/anthology/W17-7525.
9. Arbabi A., Adams D.R., Fidler S. and Brudno M. May Identifying Clinical Terms in Medical Text Using Ontology-Guided Machine Learning. JMIR Med. informatics. 2019. Vol. 7. No. 2. P. e12596.
10. PubMed. Available at: https://pubmed.ncbi.nlm.nih.gov/ (дата обращения 15.04.2021).
11. Hahn U. and Oleynik M. Aug. Medical Information Extraction in the Age of Deep Learning. Yearb. Med. Inform. 2020. Vol. 29. No. 1. P. 208–220.
12. Shelmanov A. et al. Active Learning with Deep Pre-trained Models for Sequence Tagging of Clinical and Biomedical Texts. 2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 2019. P. 482–489.
13. Lee J. et al. Feb. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020. Vol. 36. No. 4. P. 1234–1240.
14. Gligic L., Kormilitzin A., Goldberg P. and Nevado-Holgado A. Jan. Named entity recognition in electronic health records using transfer learning bootstrapped Neural Networks. Neural Netw. 2020. Vol. 121. P. 132–139.
15. Stenetorp P. et al. BRAT: a web-based tool for NLP-assisted text annotation. Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics. 2012. P. 102-107.
16. Yargy: Rule-based facts extraction for Russian language. Available at: https://github.com/natasha/yargy (дата обращения 15.04.2021).
17. Lafferty J.D., McCallum A. and Pereira F.C.N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning. 2001. P. 282–289.
18. Pedregosa F. et al. Scikit-Learn: Machine Learning in Python. J. Mach. Learn. Res. 2011. Vol. 12. No. null. P. 2825–2830.
19. Sklearn-crfsuite: scikit-learn inspired API for CRFsuite. Available at: https://github.com/Team-HG-Memex/sklearn-crfsuite (дата обращения 15.04.2021).
20. Python-crfsuite: a python binding for crfsuite, Available at: https://github.com/scrapinghub/python-crfsuite (дата обращения 15.04.2021).
21. Okazaki N. 2007. CRFsuite: a fast implementation of conditional random fields (CRFs). Available at: http//www. chokkan. org/software/crfsuite.
22. Kuratov Y. and Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. 2019.
23. Wolf T. et al. HuggingFace’s Transformers: State-of-the-art Natural Language Processing. 2020. 
2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".