Úvod

Aj keď problematika strojového spracovania prirodzeného jazyka nie je vo svete technológií nová, vďaka pokrokom vo vývoji umelej inteligencie, výskumom v oblasti lingvistiky a zlepšovaniu verejne dostupných jazykových modelov sa úspešnosť nástrojov pre spracovnaie textu za posledné roky zlepšila tak, že vo veľkom množstve problémov efektívne približuje človeku a dokonca ho aj prekonáva.

Existuje množstvo nástrojov a natrénovaných štatistických modelov pre anglický jazyk, ktoré umožňujú riešiť komplikované úlohy ako rozpoznávanie entít, zhrnutie textu, analýza sentimentu, odpovedanie na otázky, anonymizácia textu a množstvo ďalších.

Avšak jazykové modely a nástroje v slovenčine ďaleko zaostávajú za tými anglickými. Keď sa programátori alebo výskumníci snažia riešiť komplikovanejšie úlohy z praxe, často narážajú na nedostupnosť nástrojov a riešení na tie najzákladnejšie úlohy spracovania prirodzeného textu.

Preto je dôležité, aby sme spoločne vybudovali základné nástroje s otvoreným zdrojom, ku ktorých zlepšeniu môže prispievať každý.

Neobmedzujme sa riešením problémov, ktoré už vyriešil niekto iný, skúmajme neprebádané oblasti a tvorme riešenia, ktoré sú použiteľné v praxi, kde je veľký priestor na zlepšenie kvality štruktúrovaných a neštruktúrovaných dát, aj pomocou spracovania prirodzeného jazyka a extrakcie informácií z textu.


Autori: Filip Bednárik, Pavol Berta, Ľudovít Malinovský s podporou firmy essential data, s.r.o.

Licencia: AGPLv3

Veľká vďaka patrí expertom na slovenčinu z jazykovedného ústavu, ktorí spravujú najväčší slovenský národný korpus.

Zdrojové kódy poslednej komunitnej verzie riešenia je možné nájsť na https://github.com/drndos/nlp-tools.