Vyhledávaní

Technologie

Veřejná databáze soudních rozhodnutí Judikatury.cz je založena na těchto technologiích z Kamadu Atelieru:

Prohledávaní Internetu

V Kamadu Atelieru jsme vytvořili specializovaný software pro prohledávaní Internetu a stahování obsahu. Roboti neprohledávají a nestahují webové zdroje plošně, ale cíleně se rozhodují, který dokument uloží do interní kolekce. Rozhodování probíhá na základě pravidel, nebo jako výsledek automatické klasifikace pomocí statistikých modelů získaných algoritmami strojového učení.

Příkladem aplikace našich specializovaných robotů je úloha prohledávaní stránek měst a obcí. Proces na začátku dostane sadu deseti stránek samospráv, kterýma inicializuje statistický model. Následně uživateli navrhuje další stránky měst. Uživatel může stránku označit za správnou, nebo nesprávnou. Na základě klasifikací od uživatele se statistický model neustále přepočíta a navrhuje vždy relevantnější stránky.

Roboti pro stahování dokumentů mají také široké možnosti pro optimalizaci provozu. Servery nezatěžují nárazově, ale distribuují dotazy v čase.

Správa velkých kolekcí dokumentů

Pokud robot ve spolupráci s uživatelem uloží nový dokument do vytvářené kolekce, automatické procesy na serveru se postarají také o aktualizace dokumentu v případě, že se změnil jeho obsah. Aktualizace se kontrolují pravidelně a statistické modely vyhodnocují změny tak, aby se dokument aktualizoval, jen pokud je změna dokumentu obsahově významná. Příkladem můžou být stránky s kontaktními informacemi. Změna telefonního čísla bude považována za markantní změnu. Změna bočního sloupce naopak za nevýznamnou změnu.

Správce kolekce může sledovat a ovlivňovat všechny procesy v kolekci pomocí administračního rozhraní. Systém poskytuje podrobný přehled událostí v kolekci v podobě technických logů a grafické agregace informací v křivkách a grafech.

Vytvořená kolekce je zároveň technickým podkladem pro další nástroje a aplikace, které z dokumentů extrahují strukturovaná data.

Extrakce metadat

Datoví analytici v Kamadu Atelieru jsou vyškoleni a připraveni prozkoumat dokumenty v nové kolekci a navrhnout optimální sadu metadat, která bude charakterizovat novou kolekci. Využívají přitom netriviální analytické nástroje, které jsme implementovali.

Proces definice metadat je velmi výhodný také pro kontrolu kvality dat. Při práci na pilotní databáze soudních rozhodnutí jsme například zjistili, že více než 15% dokumentů v kolekci má ve spisové značce neexistující kód agendy (podle Kancelářského řádu Nejvyššího soudu). Podobné zjištění a následné automatické korekce dokumentů zvýší výrazným způsobem celkovou kvalitu dat.

Pokud již definice metadat existuje, umíme implementovat nástroje, které se postarají o automatickou extrakci těchto dat z textu. Nejde jen o detekci určitých řetězců, ale také o klasifikaci na základě netriviálních algoritmů a statistických modelů, normalizaci textu, využítí slovníků a ontologií.

Vyhledávaní

V ateliéru Kamadu se hodně zajímáme o optimální nastavení a vyladění vyhledávacích strojů, aby čekání na položený dotaz trvalo co nejméně. Máme zkušenosti s vyhledávaním ve skladové evidenci, která obsahuje přes milion položek (a řádově víc různých vztahů mezi nima).

Naším cílem je vytvořit aplikace, které umožní využití všech možností dotazovacího jazyka. Snažíme se, aby sestavení dotazu bylo intuitívní a snadno pochopitelné pro všechny typy uživatelů.