Multimodální modely pro rozpoznávání a popis objektů v reálném čase
Cílem práce je prozkoumat možnosti moderních multimodálních modelů (např. CLIP, GPT-4V, Qwen-VL) pro rozpoznávání a popis objektů z obrazu nebo videa v reálném čase. Student navrhne a implementuje jednoduchý prototyp, experimentálně vyhodnotí přesnost, rychlost a zhodnotí možnosti nasazení v praxi.
Zdroje:
- Radford et al., Learning Transferable Visual Models From Natural Language Supervision (CLIP), ICML 2021.
- Alibaba, Qwen2 & Qwen-VL: A Frontier Multimodal Foundation Model, 2024–2025.
- OpenAI, GPT-4 Technical Report, 2023.