Intrati in legatura

Schița de curs

Introducere în Modelele Multimodale Mistral

  • Prezentare generală a modelului Mistral Medium și a capacităților multimodale
  • Modele OCR/documente și cazuri de utilizare
  • Integrarea cu ecosisteme open-source

Pipeline-uri OCR și Viziune

  • Bazele OCR cu modele Mistral
  • Prelucrarea imaginilor și documentelor scanate
  • Extragerea de text structurat din imagini

Înțelegerea Documentelor

  • Proiectarea pipeline-urilor NLP pentru documente
  • Recunoașterea entităților, sumarizarea și clasificarea
  • Legătura intermodală între text și date de viziune

Aplicații de Căutare și Cunoștințe

  • Sisteme de căutare text-viziune
  • Construirea căutării semantice cu rezultate OCR
  • Depozite de documente de întreprindere

Aplicații Asistive și Interactive

  • Design de interfețe utilizator pentru asistenți multimodali
  • Aplicații de accesibilitate (de exemplu, viziune-la-text)
  • Instrumente de productivitate din lumea reală

Performanță și Optimizare

  • Scalarea pipeline-urilor multimodale
  • Optimizarea performanței de inferență
  • Evaluarea compromisurilor între acuratețe și eficiență

Studii de Caz și Direcții Viitoare

  • Aplicații industriale ale AI multimodal
  • Trenduri de cercetare în OCR și AI pentru documente
  • Considerații de AI responsabil în sarcinile text-viziune

Rezumat și Pași Următori

Cerințe

  • Cunoștințe de bază despre procesarea limbajului natural
  • Experiență cu Python și framework-uri ML
  • Familiaritate cu noțiunile de bază ale viziunii computerizate

Publicul țintă

  • Echipe de produse
  • Cercetători ML
  • Ingineri ML aplicați
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite