Projekty 2024

Aktuálně probíhající práce

Bakalářská práce – Detekce anonymizovaných oblastí ve smlouvách v registru smluv – Cílem je v zadaném pdf spočítat začerněnou plochu – může být buď začerněna, zaplněna zrněním, případně zabílena s komentářem. – Lukáš Salak

Realizované projekty

STK portál 2.0

Diplomová práce STK portál nabízí informace získané na základě dat Ministerstva dopravy ČR, která lze vytěžit pomocí statistických metod a strojového učení. Dva hlavní datové zdroje, tj. seznam kontrol na STK a registr vozidel, jsou propojitelná na základě VIN kódu, který známe pro každé vozidlo v registru i každou proběhlou kontrolu. Díky tomu je možné zobrazit historii vozů v ČR a predikovat jejich chování do budoucnosti.

Repozitář: https://github.com/opendatalabcz/STK-portal

Tender Maps

Bakalářská práce si kladla za cíl vytvořit webovou aplikaci, která získávala data o veřejných zakázkách v České republice a následně je vizualizovala pomocí sady interaktivních map. Výsledná aplikácia periodicky získava dáta z portálu Národní elektronický nástroj pomocou webového scrappingu. Aplikácia využíva proces geokódovania na obohatenie získaných dát o geografickú polohu jednotlivých subjektov. Získané a obohatené dáta sú vizualizované na mapách a aplikácia podporuje filtráciu zobrazených dát podľa miesta plnenia, zadávateľa a účastníka. Zobrazovanie dát o verejných zákazkách na mape slúži na identifikáciu českých, ale aj zahraničných miest, do ktorých idú verejné financie Českej republiky, čo môže byť nápomocné pre získanie väčšieho kontextu o súťažiacich stranách.

Repozitář: https://github.com/opendatalabcz/tender-maps

Robojudge

Autor: Miroslav Řehounek

Bakalářská práce se zabývá způsoby využití LLM modelů k analýze veřejně dostupných rozhodnutí českých soudů. Hlavním cílem práce bylo lépe zpřístupnit tato rozhodnutí, a to vytvořením webové aplikace Robojudge, která umožní v databázi zveřejněných rozhodnutí vyhledávat pomocí nového typu rozhraní využívaného ve svém základu LLM k sémantickému vyhledávání, shrnování a odpovídání na otázky týkající se jednotlivých rozhodnutí.

Repozitář: https://github.com/opendatalabcz/Robojudge

Odezírání

Autor: Justína Kušpálová

Tato diplomová práce se zabývala automatickým čtením ze rtů v českém jazyce. Rozpoznávanie reči prebieha v nekontrolovanom prostredí, pre ktoré sú charakteristické rôzne svetelné podmienky, rôznorodé pozadie a rôzni rečníci. Všetky spomínané faktory komplikujú vizuálne spracovanie pohybov pier. Na základe existujúcich riešení pre iné jazyky, táto práca implementuje a vyhodnocuje podobné princípy v českom jazyku. Z dôvodu limitovanch zdrojov dát pre iné jazyky ako je angličtina, táto práca taktiež obsahuje proces vytvárania trénovacieho, validačného a testovacieho datasetu v českom jazyku. Vyhodnotenie následne prebieha na novovytvorenom datasete, ktorý vznikol v spolupráci s Českou Televíziou.

Analýza výherců veřejných zakázek

Cílem této bakalářské práce byla podrobná analýza a následná vizualizace existujících dat, respektive vizualizace aktuálního stavu trhu s veřejnými zakázkami v České republice. Je zde provedena explorační analýza, při které jsou vizualizovány základní popisné statistiky. Dále je v této práci využit přístup strojového učení, při kterém byla nejprve data předzpracována, včetně použití metod ”Feature Engineering“. Následně bylo na těchto datech natrénováno několik modelů pro predikci výherní nabídky a pomocí ladění hyperparametrů byl vytvořen finální model. Poté se využije tento model k prozkoumání vlivu jednotlivých příznaků a hledání anomálií, a to v kombinaci se shlukovacím algoritmem DBSCAN. Nakonec jsou všechny tyto poznatky zpracovány a vizualizovány formou webových reportů, a tím pádem jsou k dispozici široké veřejnosti.

Repozitář: https://github.com/opendatalabcz/analysis-public-procurement