Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Schița de curs
Panoramă despre Speech Recognition Tehnologii
- Istoria și evoluția recunoașterii vorbirii
- Modele acustice, lingvistice și decodificare
- Arhitecturi moderne: RNN-uri, transformere și Whisper
Preprocesarea Audio și Bazele Transcrierii
- Gestionarea formatelor audio și ratălor de esantionare
- Curățarea, taiarea și segmentarea sunetului
- Generarea textului din audio: timp real vs. lot
Hands-on cu Whisper și alte API-uri
- Instalarea și utilizarea OpenAI Whisper
- Apelarea API-urilor cloud (Google, Azure) pentru transcriere
- Compararea performanței, latentei și costului
Limbi, Accenturi și Adaptația la Domeniu
- Lucrul cu mai multe limbi și accenturi
- Vocabularuri personalizate și toleranță la zgomot
- Gestionarea limbajului legal, medical sau tehnic
Formatare a Ieșirii și Integrare
- Adăugarea de orele, punctuație și etichete ale vorbitorilor
- Exportarea în formate text, SRT sau JSON
- Integrarea transcrierilor în aplicații sau baze de date
Laboratoarele de Implementare Use Case
- Transcrierea întâlnirilor, interviurilor sau podcast-urilor
- Sisteme de comenzi text-voce
- Subtitrări în timp real pentru fluxuri video/audio
Evaluare, Limitări și Etică
- Metrice de acuratețe și benchmark-uri ale modelului
- Prejudiciile și corectitudinea în modelele de vorbire
- Considerații legate de confidențialitate și conformitate
Rezumat și Următoarele Pași
Cerințe
- Oțelirea de concepte generale privind inteligența artificială și învățarea automată
- Cunoștințele cu formatele și instrumentele de fișiere audio sau media
Publicul-țintă
- Stiințificii ai datelor și inginerii AI care lucrează cu date vocale
- Dezvoltatorii de software care construiesc aplicații bazate pe transcriere
- Organizațiile care exploră recunoașterea vorbirii pentru automatizare
14 ore