Intrati in legatura

Schița de curs

Introducere în Modelele Vizual-Lingvistice

  • Prezentare generală a modelelor VLM și rolul lor în AI multimodală
  • Arhitecturi populare: CLIP, Flamingo, BLIP etc.
  • Cazuri de utilizare: căutare, generare de descrieri, sisteme autonome, analiză de conținut

Pregătirea Mediului de Fine-Tuning

  • Configurarea OpenCLIP și altor biblioteci VLM
  • Formate de seturi de date pentru perechi imagine-text
  • Procese de preprocesare pentru intrări vizuale și lingvistice

Fine-Tuning Modelelor CLIP și Similare

  • Pierderi contrastive și spații de încorporare comune
  • Practică: ajustarea CLIP pe seturi de date personalizate
  • Gestionarea datelor specifice domeniului și multilingvistice

Tehnici Avansate de Fine-Tuning

  • Utilizarea metodelor LoRA și bazate pe adaptoare pentru eficiență
  • Ajustarea prompturilor și injecția de prompturi vizuale
  • Evaluări zero-shot vs. fine-tuned și compromisuri

Evaluare și Benchmarking

  • Metrici pentru modele VLM: acuratețea recuperării, BLEU, CIDEr, recall
  • Diagnostice de aliniere vizual-text
  • Vizualizarea spațiilor de încorporare și a clasificărilor greșite

Implementare și Utilizare în Aplicații Reale

  • Exportarea modelelor pentru inferență (TorchScript, ONNX)
  • Integrarea modelelor VLM în fluxuri de lucru sau API-uri
  • Considerații privind resursele și scalarea modelelor

Studii de Caz și Scenarii Aplicate

  • Analiza media și moderarea conținutului
  • Căutare și recuperare în comerțul electronic și bibliotecile digitale
  • Interacțiune multimodală în robotică și sisteme autonome

Rezumat și Pași Următori

Cerințe

  • Cunoștințe despre învățarea profundă pentru viziune și NLP
  • Experiență cu PyTorch și modele bazate pe transformere
  • Familiaritate cu arhitecturi de modele multimodale

Publicul țintă

  • Ingineri de viziune artificială
  • Dezvoltatori de AI
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite