LEARNER CORPUS ANNOTATION IN LATVIA AND LITHUANIA Cover Image

BESIMOKANČIOJO TEKSTYNO ANOTAVIMAS LATVIJOJE IR LIETUVOJE
LEARNER CORPUS ANNOTATION IN LATVIA AND LITHUANIA

Author(s): Inta Znotiņa
Subject(s): Language and Literature Studies, Applied Linguistics
Published by: Vytauto Didžiojo Universitetas
Keywords: Learner corpora; Learner language; Annotation; Latvia; Lithuania; Baltic States; Besimokančiųjų tekstynai; Besimokančiojo kalba; Anotavimas; Latvija; Lietuva, Baltijos šalys

Summary/Abstract: Learner corpora are gaining popularity in the Baltic States as well as elsewhere in the world. The aim of the article is to discuss what kinds of annotation have been used in learner corpus research in Latvia and Lithuania so far and to describe which ones of them would be most suitable for the newly created learner corpus of the second Baltic language – Esam. A lot of learner corpus research in Latvia and Lithuania is undertaken without any annotation. The most common types of annotation are the ones based on the theory of levels of language – morphological and syntactic annotation. There is little collaboration between researchers of neighbour countries, but linguists of each country collaborate closely with each other using similar annotation schemes and creating corpora that are comparable in some aspects. The learner corpus of the second Baltic language should try to fit in the picture to some extent. Part of speech annotation and simple syntactic annotation could help in that. However, things that have not yet become so popular in learner corpus research in this region could also be useful. Therefore, error annotation and lemmatization have been chosen to be included in the annotation plan of the corpus Esam as well. Besimokančiųjų tekstynai populiarėja tiek Baltijos šalyse, tiek ir visame pasaulyje. Šio straipsnio tikslas – išnagrinėti, kokios anotavimo rūšys, analizuojant besimokančiojo tekstyną, buvo iki šiol naudojamos Latvijoje ir Lietuvoje bei pateikti tas, kurios būtų tinkamiausios antrosios baltų kalbos naujai sukurtam besimokančiojo tekstynui Esam nagrinėti. Nemaža besimokančiųjų tekstyno tyrimų dalis atliekama be anotavimo. Dažniausiai naudojami anotavimo būdai grindžiami kalbos lygių teorija, t. y. morfologinis ir sintaksinis anotavimas. Kaimyninių šalių tyrėjai bendradarbiauja nedaug, bet kiekvienos šalies kalbininkai prisideda prie bendros veiklos, naudodami panašias anotavimo schemas ir kurdami tam tikrais aspektais palyginamus tekstynus. Antrosios baltiškos kalbos besimokančiojo tekstynas turėtų iš dalies derėti su bendra struktūra. Tam galėtų pasitarnauti kalbos dalių anotavimas ir paprastas sintaksinis anotavimas. Tačiau ir kiti aspektai, kurie dar nėra tokie populiarūs besimokančiojo tekstyno tyrimuose, šiame regione galėtų būti naudingi. Dėl šios priežasties klaidų anotavimas ir lematizavimas taip pat įtraukti į Esam tekstyno anotavimo planą.

  • Issue Year: 2015
  • Issue No: 7
  • Page Range: 145-159
  • Page Count: 15
  • Language: English