Blog

OpenDataLab a jeho první semestr

2. 10. 2019Na začátku minulého semestru, konkrétně 20. 2. 2019, jsme za přítomnosti děkana ČVUT FIT a mnoha dalších vzácných hostů, slavnostně otevírali naši Laboratoř otevřených dat. Proto je na čase trochu bilancovat a shrnout, co se nám za uplynulý semestr povedlo a co už méně.

Jedním z nosných témat, která byla představena při otevření, byla data z pražské příměstské dopravy. Tomuto tématu se věnoval Adam Nimrichter a následně Milan Vancl z Profinitu, na straně ČVUT se pak podařilo vypsat diplomovou práci, kterou řeší Jan Spolek. Pokud půjde vše dobře, již brzy bude dostupná opensourcová aplikace, kterou by mohlo využívat každé město v České republice a nabídnout tak občanům více informací o dopravě v regionu.

Druhým velikým tématem byly faktury z ministerstev. Na toto téma jsme nezanevřeli, i když se nám stále nepodařilo získat faktury z ministerstva práce a sociálních věcí, ministerstva zahraničí, ani policejního prezidia. Jsme nezisková laboratoř a nemůžeme si dovolit platit desetitisíce až miliony korun za data, která by dle našeho názoru měla být veřejnosti dostupná kvůli možnosti kontroly.

Povedlo se ale upravit náš stahovací nástroj pro všechny ostatní ministerstva a stáhnout více než 600 000 faktur. Dostupné jsou momentálně na serveru hlidacstatu.cz a hlavní dík patří Lucii Svitákové.

Další projekt, který se podařilo realizovat, byl trénink neuronové sítě na projevech poslanců. Bohužel spolehlivost výsledků byla díky malému vzorku relativně nízká, okolo 36 %. Nicméně téma se Richardu Wernerovi zalíbilo natolik, že si ho vybral jako diplomovou práci a bude v něm pokračovat. Jedním z cílů by mělo být vytvoření většího trénovacího datasetu, z kterého by měli zpětně užitek další následovníci v tomto tématu. Realizovány byly také dvě práce na téma predikce vítěze veřejných zakázek, šlo o semestrální práce do předmětu algoritmy data miningu. Na nic významného se sice přijít nepodařilo, ale zápočty samozřejmě uděleny byly.

Jestli chodí poslanci do práce, jen když je ošklivo, se snažil vyvrátit Šimon Schierreich. Sehnat pořádná historická data o počasí ale není úplně jednoduché, o jejich otevření se roky snaží Jan Cibulka z Českého rozhlasu. Velká senzace se nekonala, jen u několika poslanců, které raději nebudeme jmenovat, existuje malé podezření, že jejich přítomnost s počasím souvisí. Zbytek do sněmovny chodí, ať je zima, nebo léto, déšť, nebo slunečno.

Ondřej Podsztavek si vybral chytré lampy, které Praha provozuje v Karlíně. Dokáží nejen svítit, ale i měřit lokální znečištění či počítat pohyb chytrých mobilních telefonů. Výsledkem jeho výzkumu anomalit je následující článek, který byl přijat na konferenci Data a znalosti. https://podondra.github.io/lampy/

Nakonec nám zbyla práce, na které se stále ještě pracuje. Jde o crawler úředních desek, který by měl nabídnout možnost indexace a sledování většiny elektronických vývěsních desek v České republice.

Do nového semestru vstupujeme mimo jiné s diplomovou prací na systém pro doporučování podobných veřejných zakázek. Prvotní kroky k této práci, konkrétně detekce produktů v registru smluv, byly implementovány v rámci hackatonu Hackuj stát, kterého se zúčastnily i dva týmy z Profinitu.

Byli jsme mile překvapeni množstvím studentů, které témata Laboratoře otevřených dat zaujala, a proto budeme rádi pokračovat ve vypisování možná mnohdy netradičních zadání. Pokud jste studenti a máte vlastní návrhy, nebojte se nám ozvat, nicméně přijímáme samozřejmě návrhy i od všech ostatních.