Intrati in legatura

Schița de curs

Introducere în AI Multimodal și Ollama

  • Prezentare generală a învățării multimodale
  • Provocări cheie în integrarea viziune-limbaj
  • Capacități și arhitectura Ollama

Configurarea Mediului Ollama

  • Instalarea și configurarea Ollama
  • Lucrul cu implementarea locală a modelelor
  • Integrarea Ollama cu Python și Jupyter

Lucrul cu Intrări Multimodale

  • Integrarea textului și imaginilor
  • Încorporarea audio și a datelor structurate
  • Proiectarea pipeline-urilor de preprocesare

Aplicații de Înțelegere a Documentelor

  • Extragerea de informații structurate din PDF-uri și imagini
  • Combinarea OCR cu modelele de limbaj
  • Construirea de fluxuri de lucru inteligente de analiză a documentelor

Întrebări-Răspuns Vizuale (VQA)

  • Configurarea seturilor de date și a reperelor VQA
  • Antrenarea și evaluarea modelelor multimodale
  • Construirea de aplicații interactive VQA

Proiectarea Agenților Multimodali

  • Principii de proiectare a agenților cu raționament multimodal
  • Combinarea percepției, limbajului și acțiunii
  • Implementarea agenților pentru cazuri de utilizare din lumea reală

Integrare Avansată și Optimizare

  • Ajustarea modelelor multimodale cu Ollama
  • Optimizarea performanței de inferență
  • Considerații privind scalabilitatea și implementarea

Rezumat și Pași Următori

Cerințe

  • Înțelegere solidă a conceptelor de învățare automată
  • Experiență cu framework-uri de învățare profundă precum PyTorch sau TensorFlow
  • Familiaritate cu procesarea limbajului natural și viziunea computerizată

Publicul țintă

  • Ingineri de învățare automată
  • Cercetători în AI
  • Dezvoltatori de produse care integrează fluxuri de lucru cu text și imagini
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite