Czego nie można się dowiedzieć o czasownikach z korpusów języka polskiego? Cover Image

What {can’t} Polish corpora tell us about verbs?
Czego nie można się dowiedzieć o czasownikach z korpusów języka polskiego?

Author(s): Paulina Łazarewicz
Subject(s): Language and Literature Studies
Published by: Wydział Polonistyki Uniwersytetu Warszawskiego
Keywords: verbs; grammatical properties; Polish corpora; automatic extraction; czasowniki; cechy gramatyczne; korpusy języka polskiego; automatyczne pozyskiwanie danych

Summary/Abstract: W artykule przedstawiono najważniejsze wnioski z rozważań dotyczących możliwości i ograniczeń badania cech gramatycznych polskich czasowników, opartych na danych korpusowych pozyskanych za pomocą narzędzi do komputerowego przetwarzania języka.Na przykładzie wybranej grupy czasowników ruchu pokazano, w jaki sposób specyfika języka polskiego oraz przyjęte w korpusach tekstów zasady segmentacji i anotacji materiału językowego skutkują w algorytmizacji procesu wykrywania i ujednoznaczniania morfosyntaktycznego jednostek wielowyrazowych, ekstrakcji pożądanych danych oraz wynikach wielkoskalowych analiz statystycznych. Zasygnalizowano, o jakich istotnych z punktu widzenia językoznawcy cechach formalnych czasowników nie można się dowiedzieć z korpusów języka polskiego oraz w jakich aspektach tego typu badań korpusowych dostępne narzędzia do analizy tekstu za pomocą komputera okazują się niewystarczające.

  • Issue Year: 2015
  • Issue No: 67
  • Page Range: 233-254
  • Page Count: 22
  • Language: English