IStemSK

Lematizátor slovenského jazyka

IStemSK obsahuje:

  • WordBreaker
  • Stemmer
  • Stop List

Súčasťou operačných systémov Windows 2000 a vyššie, verzií workstation (professional) aj server je služba Indexing Service (MSSearch). Jej úlohou je zabezpečiť fulltextové (indexované) vyhľadávanie nad zvolenými radmi adresárov/súborov, ktoré sú združené do katalógov. Podrobné informácie o Indexing Service nájdete v dokumentácii (is.chm). Konfigurácia sa robí prostredníctvom ciadv.msc. Súčasťou MSSearch je aj jazyková podpora (len pre najrozšírenejšie jazyky), pričom slovenčina je podporovaná len ako neutrálny jazyk, t. j. bez podpory tvaroslovia. Túto medzeru vypĺňa IStemSK.

Hlavné vlastnosti

  • bohatá slovná zásoba
  • pravidelná aktualizácia
  • jednoduchá inštalácia
  • vysoký výkon
  • podpora najnovších verzií Microsoft Windows a Windows Server
  • podpora 32 aj 64-bitových systémov

WordBreaker

Umožňuje rozdelenie textu na slová. V súlade so slovenskými pravidlami rozlišuje význam znakov abecedy na oddeľovače a významové znaky a spracováva zložené slová (spojené pomlčkou). Okrem toho prevádza na normálový tvar dátumy a číslovky.

Stemmer

Je založený na lematizátore slovenského jazyka, ktorý umožňuje pri fulltextovom vyhľadávaní nájsť všetky tvary (ohyby) hľadaného slova.
Pracuje vo dvoch možných režimoch:
1. nájde základný tvar k akémukoľvek tvaru daného slova – využíva sa pri vytváraní fulltextového indexu, ktorý je potom výrazne menší a rýchlejší,
2. k zadanému slovu nájde všetky možné tvary, v ktorých sa môže nachádzať – využíva sa pri vytváraní požiadavky na vyhľadávanie.
Jeho súčasťou je aj modul rozpoznávania neznámych slov, ktorý umožňuje s vysokou pravdepodobnosťou nachádzať aj rôzne tvary slov, ktoré sú v slovenčine (presnejšie v hlavnom slovníku lematizátora) neznáme – sú to hlavne mená a cudzie slová.

Súčasťou IStemSK je aj súbor nevýznamových slov (Noise Words, Stop List, ...), ktorých vyhľadávanie nemá význam, a preto sú z indexu vylúčené. Sú to hlavne spojky, predložky alebo slová, ktoré sa príliš často vyskytujú. Tento zoznam je v samostatnom súbore a používateľ si ho môže upraviť podľa svojich potrieb.

Možnosti použitia

Keďže MSSearch je súčasťou základného operačného systému, využíva ho okrem základných systémových nástrojov, ako je napr. Explorer (Prieskumník), aj celý rad aplikačných serverov – IIS, SQL, Exchange, SPPS, ... 

Inštalácia

Súčasťou dodávky je inštalačný program umožňujúci bezproblémovú inštaláciu. Inštalačný program je v súlade so systémom MSI (Microsoft Installer), čo zjednodušuje správu hlavne v rozsiahlych podnikových systémoch.

Referencie

Modul IStemSK bol podrobený náročným kvalitatívnym a výkonnostným testom v laboratóriách spoločnosti Microsoft a na základe toho bola zakúpená neobmedzená multilicencia pre používateľov aplikačných serverov, ako MS SQL, MS Exchange, MS SPPS, ..., ktorí ho majú k dispozícii bezplatne.