Úvod

Aj keď problematika strojového spracovania prirodzeného jazyka nie je vo svete technológií nová, vďaka pokrokom vo vývoji umelej inteligencie, výskumom v oblasti lingvistiky a zlepšovaniu verejne dostupných jazykových modelov sa úspešnosť nástrojov pre spracovnaie textu za posledné roky zlepšila tak, že vo veľkom množstve problémov efektívne približuje človeku a dokonca ho aj prekonáva.

Existuje množstvo nástrojov a natrénovaných štatistických modelov pre anglický jazyk, ktoré umožňujú riešiť komplikované úlohy ako rozpoznávanie entít, zhrnutie textu, analýza sentimentu, odpovedanie na otázky, anonymizácia textu a množstvo ďalších.

Avšak jazykové modely a nástroje v slovenčine ďaleko zaostávajú za tými anglickými. Keď sa programátori alebo výskumníci snažia riešiť komplikovanejšie úlohy z praxe, často narážajú na nedostupnosť nástrojov a riešení na tie najzákladnejšie úlohy spracovania prirodzeného textu.

Preto je dôležité, aby sme spoločne vybudovali základné nástroje s otvoreným zdrojom, ku ktorých zlepšeniu môže prispievať každý.

Neobmedzujme sa riešením problémov, ktoré už vyriešil niekto iný, skúmajme neprebádané oblasti a tvorme riešenia, ktoré sú použiteľné v praxi, kde je veľký priestor na zlepšenie kvality štruktúrovaných a neštruktúrovaných dát, aj pomocou spracovania prirodzeného jazyka a extrakcie informácií z textu.


Stránka poskytuje používateľské a REST rozhranie ku nástrojom, ktoré boli vytvorené v rámci Diplomovej práce na Fakulte Informatiky a Informačných Technológií STU v Bratislave.

Autorom je Filip Bednárik pod vedením Ing. Mariána Šimka, PhD. a spolupráci s firmou essential data, s.r.o.

Veľká vďaka patrí expertom z jazykovedného ústavu, ktorí spravujú najväčší slovenský národný korpus.

Zdrojové kódy niektorých súčastí je možné nájsť na https://github.com/essential-data.