Segmentácia viet

Knižnica CoreNLP poskytuje lingvistickú segmentáciu viet na základe informácií, získaných z kroku tokenizácie, kedy sa vyhodnocujú hranice vety. Pre možnosť zmeny tejto implementácie sme natrénovali štatistický model maximálnej entropie, ktorý poskytuje knižnica OpenNLP na korpuse v slovenskom jazyku s viac než 300 000 000 tokenov.

Ing. Filip Bednárik pracuje na veciach z 21. storočia. V niektorých prípadoch aj za bodkou ide veľké písmeno.