Извлечение коллокаций из корпуса украинских текстов

Tatyana Bobkova

Извлечение коллокаций из корпуса украинских текстов
Extracting the collocation from corpus of Ukrainian texts

Author(s): Tatyana Bobkova
Subject(s): Applied Linguistics, Computational linguistics
Published by: Kauno Technologijos Universitetas
Keywords: collocation; text; body; extraction; identification; linguistic approach; case-oriented approach

Summary/Abstract: В статье описывается методика извлечения двусловных коллокаций из корпуса украинских законодательных текстов. Существующие методики выделения коллокаций основываются на подходах, отличающихся критериями идентификации и последовательностью применяемых процедур. В работе обосновывается необходимость использования корпусно-ориентированного подхода, основанного на идентификации коллокации как статистически значимой единицы и применении корпусных методов обработки текстов. Коллокация определяется как неслучайное сочетание двух слов, регулярно встречающихся вместе, и характерное как для текстов определенного функционального стиля, так и для языка в целом. Разработанная методика идентификации двусловных коллокаций, позволяет на основе статистической обработки и использования программ лемматизации автоматически извлекать устойчивые двухсловные сочетания из подкорпуса украинских текстов. Результаты извлечения нуждаются в последующем редактировании с целью снятия омонимии и определения грамматически правильных коллокаций. Повышение эффективности результатов автоматического формирования списка обеспечит применение большего по объему корпуса текстов и лингвистических фильтров идентификации коллокаций.

Details
Contents

Journal: Kalbų Studijos

Issue Year: 2015
Issue No: 27
Page Range: 93-105
Page Count: 13
Language: Russian

Content File-PDF

Back to list

Извлечение коллокаций из корпуса украинских текстов Extracting the collocation from corpus of Ukrainian texts

Извлечение коллокаций из корпуса украинских текстов
Extracting the collocation from corpus of Ukrainian texts