Zadání

Multimodální modely pro rozpoznávání a popis objektů v reálném čase

Cílem práce je prozkoumat možnosti moderních multimodálních modelů (např. CLIP, GPT-4V, Qwen-VL) pro rozpoznávání a popis objektů z obrazu nebo videa v reálném čase. Student navrhne a implementuje jednoduchý prototyp, experimentálně vyhodnotí přesnost, rychlost a zhodnotí možnosti nasazení v praxi.

Zdroje:

  • Radford et al., Learning Transferable Visual Models From Natural Language Supervision (CLIP), ICML 2021.
  • Alibaba, Qwen2 & Qwen-VL: A Frontier Multimodal Foundation Model, 2024–2025.
  • OpenAI, GPT-4 Technical Report, 2023.