Schița de curs

Introducere în Inteligența Artificială Multimodală și Ollama

  • Pregătire generală despre învățarea multimodală
  • Probleme cheie în integrarea viziunii și limbajului
  • Capacități și arhitectură a Ollama

Configurarea Medii Ollama

  • Instalarea și configurarea Ollama
  • Lucrul cu modelul local de implementare
  • Integrarea Ollama cu Python și Jupyter

Lucrul cu Date Intrări Multimodale

  • Integrarea textului și a imaginilor
  • Incorporarea sunetelor și datelor structurate
  • Dizolvarea fluxurilor de preprocesare

Aplicații pentru înțelegerea documentelor

  • Extragerea informațiilor structurate din PDF-uri și imagini
  • Combinarea OCR cu modelele lingvistice
  • Creația de fluxuri de analiză inteligentă a documentelor

Răspunsuri la întrebări vizuale (VQA)

  • Configurarea seturilor de date VQA și benchmark-uri
  • Trenarea și evaluarea modelului multimodal
  • Creația aplicațiilor interactive VQA

Dizolverea Agentelor Multimodale

  • Principii de dizolvare a agentelor cu raționament multimodal
  • Combinarea percepției, limbajului și acțiunilor
  • Distribuirea agentelor pentru cazuri de utilizare din viața reală

Integrare Avansată și Optimizare

  • Tunearea fină a modelelor multimodale cu Ollama
  • Optimizarea performanței de inferență
  • Considerații privind scalabilitatea și distribuirea

Rezumat și Următoarele Pași

Cerințe

  • Înțelegere puternică a conceptelor de învățare automată
  • Experiență cu cadre de învățare profundă precum PyTorch sau TensorFlow
  • Familiaritate cu procesarea limbajului natural și vederea computerizată

PUBLICĂ

  • Ingineri de învățare automată
  • Cercetători AI
  • Dezvoltатори produs care integrează fluxuri de lucru cu vedere și text
 21 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite