Tokenizácia

v2

V riešení sme zvolili lingvistickú tokenizáciu, pre dobré dosahované výsledky nástroja PTBTokenizer z knižnice CoreNLP v anglickom jazyku, ale tiež jednoduchosť úpravy pravidiel tejto tokenizácie a robustnosť riešenia. Pravidlá sú definované vo formáte jflex. Tieto pravidlá sú prekladané do jazyka Java. Pri preklade zároveň dochádza ku odvodzovaniu nových pravidiel a tvorbe uzáverov. Pravidlá pre anglický jazyk sme prispôsobili slovenskému jazyku.

Testovacia veta obsahujúca s.r.o. so sídlom Námestie sv. Alžbety 5, Trenčín a dátum 21. 01. 2016