Schița de curs

Introducere în AI Multimodal și Ollama

  • Prezentare generală a învățării multimodale
  • Provocări cheie în integrarea viziune-limbaj
  • Capacități și arhitectura Ollama

Configurarea Mediului Ollama

  • Instalarea și configurarea Ollama
  • Lucrul cu implementarea locală a modelelor
  • Integrarea Ollama cu Python și Jupyter

Lucrul cu Intrări Multimodale

  • Integrarea textului și imaginilor
  • Încorporarea audio și a datelor structurate
  • Proiectarea pipeline-urilor de preprocesare

Aplicații de Înțelegere a Documentelor

  • Extragerea informațiilor structurate din PDF-uri și imagini
  • Combinarea OCR cu modele de limbaj
  • Construirea fluxurilor de lucru inteligente pentru analiza documentelor

Întrebări-Răspuns Vizuale (VQA)

  • Configurarea seturilor de date și a benchmark-urilor VQA
  • Antrenarea și evaluarea modelelor multimodale
  • Construirea aplicațiilor interactive VQA

Proiectarea Agenților Multimodali

  • Principii de proiectare a agenților cu raționament multimodal
  • Combinarea percepției, limbajului și acțiunii
  • Implementarea agenților pentru cazuri de utilizare din lumea reală

Integrare Avansată și Optimizare

  • Ajustarea fină a modelelor multimodale cu Ollama
  • Optimizarea performanței de inferență
  • Considerații privind scalabilitatea și implementarea

Rezumat și Pași Următori

Cerințe

  • Înțelegere avansată a conceptelor de învățare automată
  • Experiență cu framework-uri de învățare profundă precum PyTorch sau TensorFlow
  • Familiaritate cu procesarea limbajului natural și vederea artificială

Audiență

  • Ingineri de învățare automată
  • Cercetători AI
  • Dezvoltatori de produse care integrează fluxuri de lucru vizuale și de text
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite