Tokenizacija – tai teksto skaidymas į mažesnes dalis (tokenus), pvz., žodžius, frazes ar simbolius, tolesnei apdoroti.
Pavyzdžiai:
1. Žodžių tokenizacija:
Tekstas: "Labas, kaip sekasi?"
Tokenai: ["Labas", ",", "kaip", "sekasi", "?"]
2. Subžodžių tokenizacija (naudinga nepažįstamiems žodžiams):
Žodis: "nežinomas" → ["nežin", "omas"] (priklausomai nuo metodo).
3. Būtena programavime:
Kodas: `int x = 5;` → ["int", "x", "=", "5", ";"].
Pritaikymas: NLP užduotys (paieška, vertimas), kompiliatoriai, duomenų analizė.
Jūsų pataisymai bus išsiųsti moderatorių peržiūrai, jei informacija tikslesnė/taisyklingesnė
ji bus patalpinta vietoj esamos.