Korpusas – tai didelė ir sistemingai surinkta kalbos duomenų (tekstų ar kalbos įrašų) kolekcija, skirta lingvistiniam tyrimui arba kalbos technologijų (pvz., vertimo sistemų) mokymui.
Pagrindinės reikšmės:
1. Lingvistinis korpusas – tekstų rinkinys, anotuotas papildoma informacija (žodžių formos, sintaksė).
2. Specializuotas korpusas – tam tikros srities tekstai (pvz., moksliniai, teisės).
3. Lygiagretusis korpusas – tekstų rinkinys su vertimais (pvz., lietuvių-anglų).
Pavyzdžiai:
- Lietuvių kalbos tekstynas – didžiausias lietuvių kalbos korpusas.
- Europos Parlamento tekstų korpusas (Europarl) – lygiagrečių tekstų daugybei kalbų.
- Specializuotas: medicinos straipsnių arba teisės aktų korpusas.
Praktinis naudojimas: žodžių vartosenos analizė, žodynų kūrimas, kalbos modelių (kaip ChatGPT) mokymas.
Jūsų pataisymai bus išsiųsti moderatorių peržiūrai, jei informacija tikslesnė/taisyklingesnė
ji bus patalpinta vietoj esamos.