Daugiakorpusis – daugelio korpusų (pvz., tekstynų, kalbos įrašų rinkinių) apjungimas į vieną sistemą, dažnai skirtingomis kalbomis, temomis ar iš skirtingų šaltinių. Naudojamas lingvistiniuose tyrimuose, vertimo atminties kūrime, kalbos modelių mokyme.
Pavyzdžiai:
1. Europos kalbos tekstynai – paralelūs tekstai (pvz., ES teisės aktai) daugybei kalbų.
2. Lietuvių kalbos tekstynai – „Dabartinės lietuvių kalbos tekstynas“ su įvairių stilių tekstais.
3. Moksliniai tekstynai – mokslinių straipsnių rinkiniai iš skirtingų disciplinų.
4. Kalbos modelių mokymas – OpenAI GPT, BERT mokomi iš milžiniškų daugiakorpusių duomenų.
Jūsų pataisymai bus išsiųsti moderatorių peržiūrai, jei informacija tikslesnė/taisyklingesnė
ji bus patalpinta vietoj esamos.