Extracting the collocation from corpus of Ukrainian texts Cover Image

Извлечение коллокаций из корпуса украинских текстов
Extracting the collocation from corpus of Ukrainian texts

Author(s): Tatyana Bobkova
Subject(s): Applied Linguistics, Computational linguistics
Published by: Kauno Technologijos Universitetas
Keywords: collocation; text; body; extraction; identification; linguistic approach; case-oriented approach

Summary/Abstract: В статье описывается методика извлечения двусловных коллокаций из корпуса украинских законодательных текстов. Существующие методики выделения коллокаций основываются на подходах, отличающихся критериями идентификации и последовательностью применяемых процедур. В работе обосновывается необходимость использования корпусно-ориентированного подхода, основанного на идентификации коллокации как статистически значимой единицы и применении корпусных методов обработки текстов. Коллокация определяется как неслучайное сочетание двух слов, регулярно встречающихся вместе, и характерное как для текстов определенного функционального стиля, так и для языка в целом. Разработанная методика идентификации двусловных коллокаций, позволяет на основе статистической обработки и использования программ лемматизации автоматически извлекать устойчивые двухсловные сочетания из подкорпуса украинских текстов. Результаты извлечения нуждаются в последующем редактировании с целью снятия омонимии и определения грамматически правильных коллокаций. Повышение эффективности результатов автоматического формирования списка обеспечит применение большего по объему корпуса текстов и лингвистических фильтров идентификации коллокаций.

  • Issue Year: 2015
  • Issue No: 27
  • Page Range: 93-105
  • Page Count: 13
  • Language: Russian