Intrati in legatura

Schița de curs

Introducere în AI Multi-Modal

  • Ce este AI multi-modal?
  • Provocări și aplicații cheie
  • Prezentarea modelelor multi-modale de top

Procesarea Textului și Înțelegerea Limbajului Natural

  • Utilizarea modelelor de limbaj de mare dimensiune (LLM) pentru agenți AI bazati pe text
  • Înțelegerea ingineriei prompturilor pentru sarcini multi-modale
  • Fine-tuning a modelelor de text pentru aplicații specifice domeniului

Recunoașterea și Generarea Imaginilor

  • Procesarea imaginilor cu AI: clasificare, descriere și detectare de obiecte
  • Generarea imaginilor cu modele de difuzie (Stable Diffusion, DALLE)
  • Integrarea datelor de imagine cu modele bazate pe text

Procesarea Vorbirii și a Sunetului

  • Recunoașterea vorbirii cu Whisper ASR
  • Tehnici de sinteză text-to-speech (TTS)
  • Îmbunătățirea interacțiunii cu utilizatorul prin AI bazat pe voce

Integrarea Intrărilor Multi-Modale

  • Construirea fluxurilor de lucru AI pentru procesarea mai multor tipuri de intrări
  • Tehnici de fuziune pentru combinarea datelor text, imagini și vorbire
  • Aplicații din lumea reală ale agenților AI multi-modali

Implementarea Agenților AI Multi-Modali

  • Construirea soluțiilor AI multi-modale bazate pe API
  • Optimizarea modelelor pentru performanță și scalabilitate
  • Cele mai bune practici pentru implementarea AI multi-modal în producție

Considerații Etica și Tendințe Viitoare

  • Bias și corectitudine în AI multi-modal
  • Preocupări legate de confidențialitatea datelor multi-modale
  • Dezvoltări viitoare în AI multi-modal

Rezumat și Pași Următori

Cerințe

  • Înțelegerea elementelor de bază ale învățării automate
  • Experiență în programarea Python
  • Familiaritate cu framework-uri de învățare profundă (de ex., TensorFlow, PyTorch)

Publicul Țintă

  • Dezvoltatori AI
  • Cercetători
  • Ingineri multimedia
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite