Morfix Search

Fulltextový morfologický indexovaný vyhľadávací systém

Morfix – je založený na pokročilej technológii indexovaného vyhľadávania v plných textoch za pomoci lingvistických modulov.

Úlohou modulu Morfix Search je nájsť a usporiadať na základe fulltextových indexov vytvorených modulom Morfix Index Manager všetky výskyty hľadaného slova alebo slovného spojenia, príp. synoným k danému slovu v rozsiahlych súboroch textov.

Má jednoduché a dobre zdokumentované programové rozhranie (API) a vie pracovať nielen v prostredí pracovných staníc ale aj ako súčasť rozsiahlych klient/server a internetových projektov.

Hlavné vlastnosti sú:

  • vyhľadávanie všetkých gramatických tvarov slov
  • vyhľadávanie synoným
  • fuzzy vyhľadávanie
  • vyhľadávanie výrazov
  • multiindexové vyhľadávanie
  • podpora skupín
  • zástupné znaky
  • kódové stránky
  • multilingválnosť
  • vysoký výkon
  • usporiadanie výsledkov podľa relevancie
  • podpora 32 aj 64-bitových verzií Windows

Lingvistické vyhľadávanie

Významnou súčasťou systému Morfix je jeho schopnosť využívať lingvistické moduly na zlepšenie vyhľadávania.

Lematizátor – modul, ktorý umožňuje nájsť koreň slova ku akémukoľvek jeho ohybu, t.j. rozoznáva všetky prípony, predpony, stupňovanie, časovanie, ... Podrobnejší popis nájdete v časti Lematizátor. Využíva sa nielen pri vytváraní indexu, ale aj pri vyhľadávaní. S jeho pomocou možno:
 - zadať hľadané slovo v akomkoľvek tvare,
 - vyhľadávať tvary neznámych slov (ako cudzie mená, geografické názvy, ...).

Slovník synoným – pomáha nájsť synonymá k hľadanému slovu. Podrobnejší popis nájdete v časti Slovník synoným.

Fuzzy modul – pomáha nájsť aj nepresne napísané slová, obsahujúce chyby – preklepy, chýbajúcu diakritiku, vynechané znaky, ...

Uvedené lingvistické moduly zlepšujú relevanciu výsledkov vyhľadávania, a tým posúvajú jednoduché nájdenie presných tvarov slov na vyhľadávanie pojmov.

Ďalšie vlastnosti

Multiindexové vyhľadávanie – vyhľadávanie je možné aj nad viacerými indexami súčasne.

Skupiny – (grupy) indexované dokumenty je možné združovať do skupín a vyhľadávanie sa dá robiť v jednej alebo viacerých skupinách. Jeden index môže obsahovať až 32 takýchto skupín.

Wildcards – zástupné znaky – je možné vyhľadávať aj neúplne zadané slová použitím znaku ? alebo *, ktorý nahrádza ľubovoľný jeden alebo viac znakov.

Viacslovné výrazy – požiadavky na vyhľadávanie je možné formulovať pomocou viacslovných výrazov s použitím logických operátorov AND, OR, NOT a NEAR, ktoré je možné zlúčiť pomocou zátvoriek do zložených navzájom vnorených výrazov. Operátor NEAR umožňuje nájsť slová, ktoré nie sú vedľa seba, ale je medzi nimi niekoľko (až 15) ďalších slov.