Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere la Multimodalitatea Gemini 3
- Capacități în domeniul textului, imaginilor, audio și video
- Selecția modelului și prezentarea endpoint-urilor
- Concepte cheie în raționament multimodal
Lucrul cu Text și Intrări Structurate
- Strategii de prompting pentru generarea textului
- Metadate, ferestre de context și embedings
- Orchestrarea task-urilor multimodale bazată pe text
Înțelegerea Imaginii și Fluxurile Vizuale
- Analiza și interpretarea imaginilor cu Gemini 3
- Crearea unor instrumente de căutare și tagging vizual
- Construirea interacțiunilor image-to-text și text-to-image
Prelucrarea Intrărilor Audio
- Workflow-uri de recunoaștere a vorbirii și transcriere
- Detectarea și interpretarea evenimentelor audio
- Integrarea audio cu intrările text și vizuale
Inteligența Video și Analiza Scenei
- Raționament pe frame-uri și video continuu
- Construirea unor instrumente de rezumat și extragere a punctelor principale
- Automatizarea bazată pe video și fluxurile de conținut
Conceperea Arhitecturilor Aplicațiilor Multimodale
- Combinarea mai multor tipuri de intrări într-un singur pipeline
- Considerente privind latenta, costul și calculul
- Cele mai bune practici pentru sisteme multimodale scalabile
Prototipizarea Aplicațiilor Multimodale
- Crearea hands-on a prototipurilor multimodale
- Iterație rapidă cu ingineria prompt-urilor
- Testarea și refinarea fluxurilor de experiență utilizator
Implementarea Soluțiilor Multimodale
- Strategii de implementare și configurarea mediului
- Monitorizarea performanței în lumea reală
- Considerente privind securitatea și conformitatea
Rezumat și Următoarele Pași
Cerințe
- O înțelegere a conceptelor moderne de IA
- Experiență cu Python sau JavaScript
- Familiaritate cu REST APIs
Audiență
- Designeri
- Creați de conținut
- Echipe tehnice de produs
14 ore
Mărturii (1)
Flux, atmosferă și tematică în prezentare
Lukasz Kowalczyk - Allegro Sp. z o.o.
Curs - Google Gemini AI for Data Analysis
Tradus de catre o masina