GitRank | detekce znalostí podle commitů
GitHub je dnes standardem pro sdílené otevřeného kódu a častokrát se jedná se o pěknou ukázku, jak daný uživatel ovládá programování. V přemíře projektů a uživatelů je někdy obtížné se vyznat a někteří kolegové s dobrými znalostmi neumí svojí práci plně odprezentovat.
Vytvořte aplikaci, která nalezne repozituře daného uživatele na GitHub a tyto repositáře analyzuje. Detektujte commity uživatele v těchto repozitářích a vytvořte základní souhrn z hledisky technologíí. Pro každou technologii vyhodnoťte počet řádek, a dobu, po kterou se této technologii věnoval. Vyzkoušejte tyto comity analyzovat statickou analýzou kódu (např. pomocí SonarLintu) a využijte tyto data pro přidělení bodů k dané technologii. Proveďte experimenty s různými metrikami pro pozorování.
Zdroje:
Jak do práce?
Existuje větší množství iniciativ, které se snaží snížit využití individuální dopravy, motivovat k jízdě na kole a motivovat k využití MHD. Jak ale tyto aktivity jsou úspěšné a co ovlivňuje chování jednotlivých skupin?
Analyzujte data z běžných otevřených zdrojů o cyklistice, veřejné a iniciální dopravě a porovnejte jejich změny v proběhu dne a týdne v závislosti na počasí a teplotě. Je možné detekovat korelaci / přelivy mezi jednotlivými způsoby dopravy?
Zdroje:
Simulátor mimořádností MHD
PID poskytuje velké množství otevřených dat. Existuje více aplikací, které umožňují plánovat spojení se zohledněním známých mimořádných situací, ale v současné době neexistuje snadná cesta, jak plánovat trasu s vyloučením některého úseku. Vytvořit přesnou simulaci takového vyloučeného úseku je obtížné, protože do hry vstupuje i operativní řízení dispečinku, které může trasu linek upravovat a vliv individuální dopravy. Na druhou stranu jsou různé řešení omezena u kolejové dopravy.
Práci lze proto zacílit do dvou směrů:
- Analýza dopadu vyloučených úseků pro okolní linky. Nechť vyloučíme některý úsek tramvajové sítě (např. Malostranském náměstí), jaké bude očekáváné zpoždění u dotčených linek. Jak tyto odklony ovlivní zpoždění u linek v okolí? Jak daleko se toto zpoždění bude distribuovat (zobrazte například pomocí heat mapy). Jak zpoždění bude ovlivněno v průběhu dne a týdne?
- Vytvořte aplikaci, která umožní vyhledávat optimální spojení s nastaveným penalizace (např nastaveným zpožděním) a vyloučením (např. překážka / kolona) na trase.
Zdroje:
pgvector embeddings v PostgreSQL
Různé formy embeddingů získali v poslední době na popularitě. Jedná se o běžnou formu předzpracování textu v LLM modelech jako je ChatGPT. Na tuto skutečnost reagují i databázové systémy pomocí rozšířené podpory pro práci a ukládání vektorů.
Cílem práce je vytvořit aplikaci která otestuje správnost a výkonost pgvector na některých otevřených datech (např. rozsudky soudů). Tuto funkcionalitu můžeme ověřit na možnosti sémantického vyhledávání textu s využitím word embeddingů.
Zdroje:
ISIR v2.0
Cílem práce je obnovit náš projekt pro zpracování insolvencí v ČR a přidat do něj nové funkcionality. Projekt IsirExplorer je určen veřejnosti a poskytuje přehled o stavu insolvenčních procesů. Aktuální verze projektu zpracovává starý formát dat, v současné době se ale zveřejňují jednotlivé insolvence v jiném formátu. Při aktualizaci projektu je vhodné doplnit automatické získávání dat a přidat zpracovávání délky trvání jednotlivých insolvencí.
Webová stránka projektu: https://isir-explorer.opendatalab.cz
Zpracování dostupnosti léků
Zajímá Vás, kdy bude Váš lék opět dostupný v ČR ve standardní distribucí? Chcete vědět, jak se vyvíjí dostupnost léčiv? Cílem této práce je tyto a podobné otázky zodpovědět. Součástí práce by měl být jednoduchý a přehledný web se zajímavými informacemi a statistikami.
Zdroj dát: https://opendata.sukl.cz/?q=katalog-otevrenych-dat
CzechCaptcha
Cílem práce je vytvořit frontendovou část pro existující aplikaci opensource Captcha (tj. pro systém pro reverzní Turingův test). Backend a databáze aplikace jsou k dispozici z předešlých studentských prací.
Dalším cílem práce může být také vytvořit metriky pro rozpoznání člověka od robota.
Orchestrace S2T a T2S služeb
Cílem práce je vytvořit službu, která bude schopna provádět orchestraci speech-to-text a text-to-speech služeb. Práce se také bude věnovat analýze existujících přístupů k detekci řeči (VAD, wake words…) a jejich použitelnosti v běžné konverzaci, s cílem zvýšit přesnost a rychlost odpovědí a umožnit zároveň přerušení odpovědi v půlce. K práci budou poskytnuty veřejné datasety.
Vyhledávání na XWiki
Pro vytvoření znalostních databází existuje velké množství open source projektů. Jedním z takových projektů je XWiki, která je navíc rozšiřitelná pomocí Java pluginů. Současné vyhledávání na XWiki ale nevyhledává v přílohách a nevyužívá dostupné lingvistické metody pro zvýšení úspěšnosti. Cílem práce je vytvořit vyhledávací plugin pro XWiki, který bude vyhledávat kromě běžných stránek vyhledávat i v docx a pdf dokumentech a bude při tom využívat existující jazykové nástroje. Plugin by se měl zaměřovat na češtinu.
Mobilní aplikace pro Egidio | platforma pro řešení katastrof
Na Zemi se děje mnoho katastrof. Stále dokola se řeší, jak nabízet pomoc, jak ji přijmout, jak o ní napsat.
Cílem práce je implementovat mobilní aplikaci pro existující platformu Egidio, ve které může uživatel nabídnout pomoc, napsat si o ni a také ji organizovat.
V aplikaci je možné vytvořit „katastrofu“ (projekt) a povolit určité typy pomoci. Jednotlivé zápisy je možné sdílet na sociálních sítích. Platforma nabízí pro „běžné“ katastrofy šablony (např. pro povodně předvyplní vysoušeče, ubytování, peníze nebo čerpadla).
Backend a webový frontend byl vytvořen v rámci předchozí bakalářské práce.