UStemSK

Lematizátor slovenského jazyka

UStemSK obsahuje:

  • Stemmer
  • Stop List

Verzia modulu určená pre operačné systémy založené na systéme UNIX.

Hlavné vlastnosti

  • Bohatá slovná zásoba
  • Pravidelná aktualizácia
  • Vysoký výkon
  • Podpora najnovších verzií FreeBSD, Linux a SunOS

Funkcia

Je založený na lematizátore slovenského jazyka, ktorý umožňuje pri fulltextovom vyhľadávaní nájsť všetky tvary (ohyby) hľadaného slova.
Pracuje vo dvoch možných režimoch:
1. nájde základný tvar k akémukoľvek tvaru daného slova - využíva sa pri vytváraní fulltextového indexu, ktorý je potom výrazne menší a rýchlejší,
2. k zadanému slovu nájde všetky možné tvary, v ktorých sa može nachádzať – využíva sa pri vytváraní požiadavky na vyhľadávanie.
Jeho súčasťou je aj modul rozpoznávania neznámych slov, ktorý umožňuje s vysokou pravdepodobnosťou nachádzať aj rôzne tvary slov, ktoré sú v slovenčine (presnejšie v hlavnom slovníku lematizátora) neznáme – sú to hlavne mená a cudzie slová.

Súčasťou UStemSK  je aj súbor nevýznamových slov (Noise Words, Stop List, ...), ktorých vyhľadávanie nemá význam, a preto sú z indexu vylúčené. Sú to hlavne spojky, predložky alebo slová, ktoré sa príliš často vyskytujú. Tento zoznam je v samostatnom súbore a používateľ si ho môže upraviť podľa svojich potrieb.

Možnosti použitia

Hlavné ťažisko použitia je pri fulltextovom vyhľadávaní v internetových a webových aplikáciách pracujúcich pod systémami UNIX.

Súčasťou produktu je technická dokumentácia s popisom používateľského rozhrania a ukážkovým programom, demonštrujúcim volanie modulu.

Podporované platformy

  • FreeBSD (32-bit, x86)
  • LINUX (32-bit, x86)
  • SunOS (32-bit, x86, SPARC)