Zadání

ISIR v2.0

Cílem práce je obnovit náš projekt pro zpracování insolvencí v ČR a přidat do něj nové funkcionality. Projekt IsirExplorer je určen veřejnosti a poskytuje přehled o stavu insolvenčních procesů. Aktuální verze projektu zpracovává starý formát dat, v současné době se ale zveřejňují jednotlivé insolvence v jiném formátu. Při aktualizaci projektu je vhodné doplnit automatické získávání dat a přidat zpracovávání délky trvání jednotlivých insolvencí.

Webová stránka projektu: https://isir-explorer.opendatalab.cz

Zpracování veřejných zakázek z pohledu znalostního inženýra

Existuje skupina firem, které se účastní stále stejných zakázek nebo je dokonce vyhrávají ve stejném poměru?

Jaký je průměrný rozdíl mezi výherní a poptávkovou cenou?

Cílem práce je podrobně zanalyzovat data z veřejných zakázek, najít v nich případné anomálie či identifikovat zajímavé skupiny a na podobné otázky odpovědět.

Analýza dát z odborných konferencí

Věděli jste, že řada vědeckých konferencí a časopisů dává veřejně k dispozici odborné články? Pro příklad můžeme uvést jednu z nejslavnějších konferencí v Computer Vision: https://openaccess.thecvf.com/CVPR2022. Co kdybychom využili umělé inteligence, abychom tyto zdroje zpřehlednili, a pomohli vytvořit přívětivější prostředí pro získávání posledních vědeckých poznatků?

Cílem práce je vzít data z nejznámějších konferencí, automaticky zpracovat publikované stránky s identifikací autorů, klíčových slov, témat či afiliací autorů. Poté navrhnout datové uložení získaných dat a všechno zobrazit uživatelsky přívětivé webové stránce. Součástí práce je také použití metod pro clusterování dat, grafových algoritmů pro vytvoření sítí autorů, který se věnují podobným tématům. 

Zpracování dostupnosti léků

Zajímá Vás, kdy bude Váš lék opět dostupný v ČR ve standardní distribucí? Chcete vědět, jak se vyvíjí dostupnost léčiv? Cílem této práce je tyto a podobné otázky zodpovědět. Součástí práce by měl být jednoduchý a přehledný web se zajímavými informacemi a statistikami.

Zdroj dát: https://opendata.sukl.cz/?q=katalog-otevrenych-dat

Analyzátor logů pro zobrazení diffů

Proč ta aplikace nestartuje? Nebaví Vás plácat se v dlouhém logu a zjišťovat, co je v něm jiné ve srovnání s několika předchozími? Přesně tento problém by měl vyřešit Vámi implementovaný analyzátor. 

Program by na vstupu měl očekávat určitý počet správných logů a jeden nesprávný. Na výstupu by se zobrazily zjištěné rozdíly a získané zajímavosti ohledně špatného logu. 

CzechCaptcha

Cílem práce je vytvořit frontendovou část pro existující aplikace opensource Captcha (tj. pro systém pro reverzní Turingův test). Backend a databáze aplikace jsou k dispozici z předešlých studentských prací.

Dalším cílem práce může být také vytvořit metriky pro rozpoznání člověka od robota.

Mobilní aplikace pro Egidio | platforma pro řešení katastrof

Na Zemi se děje mnoho katastrof. Stále dokola se řeší, jak nabízet pomoc, jak ji přijmout, jak o ní napsat. 

Cílem práce je implementovat mobilní aplikaci pro existující platformu Egidio, ve které může uživatel nabídnout pomoc, napsat si o ni a také ji organizovat.

V aplikaci je možné vytvořit „katastrofu“ (projekt) a povolit určité typy pomoci. Jednotlivé zápisy je možné sdílet na sociálních sítích. Platforma nabízí pro „běžné“ katastrofy šablony (např. pro povodně předvyplní vysoušeče, ubytování, peníze nebo čerpadla). 

Backend a webový frontend byl vytvořen v rámci předchozí bakalářské práce.

Robojudge

Soudní rozsudky jsou od 07/2022 veřejně dostupné na adrese: https://rozhodnuti.justice.cz/ 

Co ovlivňuje nejvíce soudní rozsudky? Existují mezi nimi zajímavé anomálie nebo skupiny? 

Cílem skupiny prací je vytvořit robosoudce, který na základě popisu skutku odhadne výsledek sporu. Součástí bude i klasifikace rozsudků a vytížení klíčových příznaků relevantních pro rozhodnutí. 

Práci lze kvůli náročnosti rozdělit do více částí, které lze řešit samostatně.

  1. Extrakce features z rozsudků (typ rozsudku, rozhodnutí atd.) 
  2. Klastrování rozsudků (detekce zajímavých skupin atd.) 
  3. Analýza a vizualizace získaných dat 
  4. Predikce rozsudků 

Zpracování textu z registru smluv

Cílem je vyřešit jednu z úloh nutných pro získání jednotkových cen ze smluv uveřejněných v registru smluv. První úlohou je určení správné kategorie smlouvy a zjištění jejího předmětu.

Další je extrakce konkrétních jednotkových cen a kupovaných věcí, třetí je detailnější analýza smluv.

Zadání bude řešeno ve spolupráci s hlidacstatu.cz

Sbírka listin

Cílem je spravovat, kategorizovat a analyzovat pdf soubory obsahující sbírky listin. V práci je vhodné využít existující nástroje pro OCR a textovou klasifikaci. Zajímavé údaje jsou jednotlivé finanční ukazatele, tvůrce auditu, vyjmenované osoby v daných dokumentech.

Vstupem je IČ firmy a výsledkem je report, včetně toho, jestli firma plní zákonnou povinnost zveřejňování výsledků.

https://or.justice.cz/ias/ui/vypis-sl-firma?subjektId=910176

Budget quiz

Cílem je vytvořit komplexní kvízovou aplikaci pro simulování státního rozpočtu. Uživatel aplikace zodpoví několik otázek, pomocí kterých nastaví parametry státního rozpočtu. Součástí práce je statistická analýza výsledků kvízu z uživatelského testování.

Je možné inspirovat se, případně rozšířit existující práci https://dspace.cvut.cz/handle/10467/102208.

Analyzátor uniklých datasetů

Práce si klade za cíl vytvořit analyzátor uniklých datasetů (Anonymous Leaks, Panama Papers…). Nástroj by měl umožňovat spravovat metadata, automaticky určovat kategorii dokumentů, jazyk, ve kterém jsou psány, a různé jejich vlastnosti (autor, GPS aj.) za použití existujících nástrojů pro OCR a klasifikaci textu.

Variantou je úprava stávajícího nástroje Aleph od OCCRP (https://github.com/alephdata/aleph) tak, aby podporoval chybějící části a nabídl přehledné workflow.

Odezírání

Práce si klade za cíl vytvořit model, který bude schopný generovat textový přepis lidské řeči pomocí odezírání z úst ve videu beze zvuku. Model by měl cílit na český jazyk a pro trénování může využít filmy s titulky nebo televizní vysílání s titulky. Práce je vhodná pro diplomou práci.

Zdroje: