MORPHOLOGICAL TAGGING TOOLS COMPARISON
DOI:
https://doi.org/10.30888/2415-7538.2017-07-01-027Keywords:
natural language processing, automatic morphological analysis, taggers, corpora, disambiguationAbstract
The article presents a comparison of five morphological analyzers: TreeTagger, MyStem, TnT, pymorphy2 and FreeLing. To evaluate their quality, three text corpora were considered: SynTagRus, OpenCorpora and GICR. The selected corpus was processed, and theMetrics
References
Alexandra Blazhievskaya, Elizaveta Kuzmenko, Elmira Mustakimova, Timofey Arkhangelskiy et al. Morphological Analysis for Russian: Integration and Comparison of Taggers // Analysis of Images, Social Networks and Texts. – Cham: Springer, 2016. – V. 661. – P. 162-171.
Dereza O. V., Kayutenko D. A., Fenogenova A. S. Automatic Morphological Analysis for Russian: a Comparative Study // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue». – 2016.
Ilya Segalovich. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. – Las Vegas, 2003. – P. 273-280.
Helmut Schmid. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proceedings of International Conference on New Methods in Language Processing. – Manchester, UK, 1994. – P. 44-49.
Зализняк А.A. Грамматический словарь русского языка. — М., Русский язык, 1980. – 880 с.
Thorsten Brants. TnT: a statistical part-of-speech tagger // Proceedings of the sixth conference on Applied natural language processing. – Stroudsburg, PA, USA: Association for Computational Linguistics, 2000. – P. 224-231.
Tools for processing Russian [Электронный ресурс]. URL: http://corpus.leeds.ac.uk/mocky (дата обращения 02.11.2017).
Mikhail Korobov. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. – Cham: Springer, 2015. – V. 542. – P. 320-332.
Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». – СПб., 2010. – C. 94.
Lluis Padro, Evgeny Stanilovsky. FreeLing 3.0: Towards Wider Multilinguality // Proceedings of the Eight International Conference on Language Resources and Evaluation. – Istanbul, Turkey: European Language Resources Association, 2012. – P. 2473-2479.
Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003-2005. – Москва: Индрик, 2005. – C. 193-214.
Leonid Iomdin, Vadim Petrochenkov, Victor Sizov, Leonid Tsinman. ETAP parser: state of the art // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue». – Moscow: RSUH, 2012. – Issue 11(18). – V. 2. – P. 119-131.
Сокирко А.В. Морфологические модули на сайте www.aot.ru // Труды международной конференции «Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии». – Москва: Наука, 2004. – С. 559.
Беликов В. И., Копылов Н. Ю., Пиперски А. Ч., Селегей В. П. и др. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». – Москва: РГГУ, 2013. – Вып. 12 (19). – Т. 1. – С. 84-95.
Anisimovich K. V., Druzhkin K. Ju., Minlos F. R., Petrova M. A. et al. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue». – Moscow: RSUH, 2012. – Issue 11(18). – V. 2. – P. 91-103.