Zadání

GitRank | detekce znalostí podle commitů

GitHub je dnes standardem pro sdílené otevřeného kódu a častokrát se jedná se o pěknou ukázku, jak daný uživatel ovládá programování. V přemíře projektů a uživatelů je někdy obtížné se vyznat a někteří kolegové s dobrými znalostmi neumí svojí práci plně odprezentovat. 

Vytvořte aplikaci, která nalezne repozituře daného uživatele na GitHub a tyto repositáře analyzuje. Detektujte commity uživatele v těchto repozitářích a vytvořte základní souhrn z hledisky technologíí. Pro každou technologii vyhodnoťte počet řádek, a dobu, po kterou se této technologii věnoval. Vyzkoušejte tyto comity analyzovat statickou analýzou kódu (např. pomocí SonarLintu) a využijte tyto data pro přidělení bodů k dané technologii. Proveďte experimenty s různými metrikami pro pozorování.

Zdroje:

Jak do práce?

Existuje větší množství iniciativ, které se snaží snížit využití individuální dopravy, motivovat k jízdě na kole a motivovat k využití MHD. Jak ale tyto aktivity jsou úspěšné a co ovlivňuje chování jednotlivých skupin?

Analyzujte data z běžných otevřených zdrojů o cyklistice, veřejné a iniciální dopravě a porovnejte jejich změny v proběhu dne a týdne v závislosti na počasí a teplotě. Je možné detekovat korelaci / přelivy mezi jednotlivými způsoby dopravy?

Zdroje:

Simulátor mimořádností MHD

PID poskytuje velké množství otevřených dat. Existuje více aplikací, které umožňují plánovat spojení se zohledněním známých mimořádných situací, ale v současné době neexistuje snadná cesta, jak plánovat trasu s vyloučením některého úseku. Vytvořit přesnou simulaci takového vyloučeného úseku je obtížné, protože do hry vstupuje i operativní řízení dispečinku, které může trasu linek upravovat a vliv individuální dopravy. Na druhou stranu jsou různé řešení omezena u kolejové dopravy.

Práci lze proto zacílit do dvou směrů:

  • Analýza dopadu vyloučených úseků pro okolní linky. Nechť vyloučíme některý úsek tramvajové sítě (např. Malostranském náměstí), jaké bude očekáváné zpoždění u dotčených linek. Jak tyto odklony ovlivní zpoždění u linek v okolí? Jak daleko se toto zpoždění bude distribuovat (zobrazte například pomocí heat mapy). Jak zpoždění bude ovlivněno v průběhu dne a týdne?
  • Vytvořte aplikaci, která umožní vyhledávat optimální spojení s nastaveným penalizace (např nastaveným zpožděním) a vyloučením (např. překážka / kolona) na trase.

Zdroje:

pgvector embeddings v PostgreSQL

Různé formy embeddingů získali v poslední době na popularitě. Jedná se o běžnou formu předzpracování textu v LLM modelech jako je ChatGPT. Na tuto skutečnost reagují i databázové systémy pomocí rozšířené podpory pro práci a ukládání vektorů.

Cílem práce je vytvořit aplikaci která otestuje správnost a výkonost pgvector na některých otevřených datech (např. rozsudky soudů). Tuto funkcionalitu můžeme ověřit na možnosti sémantického vyhledávání textu s využitím word embeddingů.

Zdroje:

ISIR v2.0

Cílem práce je obnovit náš projekt pro zpracování insolvencí v ČR a přidat do něj nové funkcionality. Projekt IsirExplorer je určen veřejnosti a poskytuje přehled o stavu insolvenčních procesů. Aktuální verze projektu zpracovává starý formát dat, v současné době se ale zveřejňují jednotlivé insolvence v jiném formátu. Při aktualizaci projektu je vhodné doplnit automatické získávání dat a přidat zpracovávání délky trvání jednotlivých insolvencí.

Webová stránka projektu: https://isir-explorer.opendatalab.cz

Zpracování dostupnosti léků

Zajímá Vás, kdy bude Váš lék opět dostupný v ČR ve standardní distribucí? Chcete vědět, jak se vyvíjí dostupnost léčiv? Cílem této práce je tyto a podobné otázky zodpovědět. Součástí práce by měl být jednoduchý a přehledný web se zajímavými informacemi a statistikami.

Zdroj dát: https://opendata.sukl.cz/?q=katalog-otevrenych-dat

CzechCaptcha

Cílem práce je vytvořit frontendovou část pro existující aplikaci opensource Captcha (tj. pro systém pro reverzní Turingův test). Backend a databáze aplikace jsou k dispozici z předešlých studentských prací.

Dalším cílem práce může být také vytvořit metriky pro rozpoznání člověka od robota.

Orchestrace S2T a T2S služeb

Cílem práce je vytvořit službu, která bude schopna provádět orchestraci speech-to-text a text-to-speech služeb. Práce se také bude věnovat analýze existujících přístupů k detekci řeči (VAD, wake words…) a jejich použitelnosti v běžné konverzaci, s cílem zvýšit přesnost a rychlost odpovědí a umožnit zároveň přerušení odpovědi v půlce. K práci budou poskytnuty veřejné datasety.

Vyhledávání na XWiki

Pro vytvoření znalostních databází existuje velké množství open source projektů. Jedním z takových projektů je XWiki, která je navíc rozšiřitelná pomocí Java pluginů. Současné vyhledávání na XWiki ale nevyhledává v přílohách a nevyužívá dostupné lingvistické metody pro zvýšení úspěšnosti. Cílem práce je vytvořit vyhledávací plugin pro XWiki, který bude vyhledávat kromě běžných stránek vyhledávat i v docx a pdf dokumentech a bude při tom využívat existující jazykové nástroje. Plugin by se měl zaměřovat na češtinu.

Mobilní aplikace pro Egidio | platforma pro řešení katastrof

Na Zemi se děje mnoho katastrof. Stále dokola se řeší, jak nabízet pomoc, jak ji přijmout, jak o ní napsat. 

Cílem práce je implementovat mobilní aplikaci pro existující platformu Egidio, ve které může uživatel nabídnout pomoc, napsat si o ni a také ji organizovat.

V aplikaci je možné vytvořit „katastrofu“ (projekt) a povolit určité typy pomoci. Jednotlivé zápisy je možné sdílet na sociálních sítích. Platforma nabízí pro „běžné“ katastrofy šablony (např. pro povodně předvyplní vysoušeče, ubytování, peníze nebo čerpadla). 

Backend a webový frontend byl vytvořen v rámci předchozí bakalářské práce.

Sbírka listin

Cílem je spravovat, kategorizovat a analyzovat pdf soubory obsahující sbírky listin. V práci je vhodné využít existující nástroje pro OCR a textovou klasifikaci. Zajímavé údaje jsou jednotlivé finanční ukazatele, tvůrce auditu, vyjmenované osoby v daných dokumentech.

Vstupem je IČ firmy a výsledkem je report, včetně toho, jestli firma plní zákonnou povinnost zveřejňování výsledků.

https://or.justice.cz/ias/ui/vypis-sl-firma?subjektId=910176

Cachování LLM odpovědí

Připravujeme…