Schița de curs

Introducere în Inteligența Artificială Multi-Modală

  • Ce este inteligența artificială multi-modală?
  • Principalele provocări și aplicații
  • Prezentare generală a celor mai bune modele multi-modale

Procesarea Textului și Comprelerea Limbajului Natural

  • Utilizarea LLM-urilor pentru agenți AI bazat text
  • Înțelegerea ingineriei prompt pentru sarcini multi-modale
  • Finetunarea modelelor de text pentru aplicații specific domeniului

Recunoaștere și Generare Imaginilor

  • Procesarea imaginilor cu AI: clasificare, descriere și detectare a obiectelor
  • Generarea de imagini cu modele difuzion (Stable Diffusion, DALLE)
  • Integrarea datelor imagine în modele bazate pe text

Procesare Vorbale și Audio

  • Recunoașterea vorbii cu Whisper ASR
  • Tehnici de sinteza text-la-voc (TTS)
  • Îmbunătățirea interacțiunii utilizatorului cu AI bazată pe voce

Integrarea Intrărilor Multi-Modale

  • Construirea de pipe-uri AI pentru procesarea mai multor tipuri de intrări
  • Tehnici de fuzionare pentru combinarea datelor de text, imagini și vorbale
  • Aplicații reale ale agentilor AI multi-modali

Implementarea Agentilor AI Multi-Modali

  • Construirea de soluții AI multi-modale bazate pe API
  • Optimizarea modelelor pentru performanță și scalabilitate
  • Cele mai bune practici pentru implementarea AI multi-modal în producție

Considerente Etičesti și Tendințe Viitoare

  • Biasele și corectitudinea în IA multi-modala
  • Preocupări de confidențialitate cu date multi-modale
  • Dezvoltări viitoare în inteligența artificială multi-modală

Rezumat și Pași Următori

Cerințe

  • O înțelegere a fundamentelor învățării automatizate
  • Experiență cu programarea în Python
  • Cunoașterea cadrelor de învățare profundă (de exemplu, TensorFlow, PyTorch)

Publicul visat

  • Dezvoltаторii AI
  • Cercetători
  • Inginerii multimedia
 21 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite