Schița de curs

Panoramă despre Speech Recognition Tehnologii

  • Istoria și evoluția recunoașterii vorbirii
  • Modele acustice, lingvistice și decodificare
  • Arhitecturi moderne: RNN-uri, transformere și Whisper

Preprocesarea Audio și Bazele Transcrierii

  • Gestionarea formatelor audio și ratălor de esantionare
  • Curățarea, taiarea și segmentarea sunetului
  • Generarea textului din audio: timp real vs. lot

Hands-on cu Whisper și alte API-uri

  • Instalarea și utilizarea OpenAI Whisper
  • Apelarea API-urilor cloud (Google, Azure) pentru transcriere
  • Compararea performanței, latentei și costului

Limbi, Accenturi și Adaptația la Domeniu

  • Lucrul cu mai multe limbi și accenturi
  • Vocabularuri personalizate și toleranță la zgomot
  • Gestionarea limbajului legal, medical sau tehnic

Formatare a Ieșirii și Integrare

  • Adăugarea de orele, punctuație și etichete ale vorbitorilor
  • Exportarea în formate text, SRT sau JSON
  • Integrarea transcrierilor în aplicații sau baze de date

Laboratoarele de Implementare Use Case

  • Transcrierea întâlnirilor, interviurilor sau podcast-urilor
  • Sisteme de comenzi text-voce
  • Subtitrări în timp real pentru fluxuri video/audio

Evaluare, Limitări și Etică

  • Metrice de acuratețe și benchmark-uri ale modelului
  • Prejudiciile și corectitudinea în modelele de vorbire
  • Considerații legate de confidențialitate și conformitate

Rezumat și Următoarele Pași

Cerințe

  • Oțelirea de concepte generale privind inteligența artificială și învățarea automată
  • Cunoștințele cu formatele și instrumentele de fișiere audio sau media

Publicul-țintă

  • Stiințificii ai datelor și inginerii AI care lucrează cu date vocale
  • Dezvoltatorii de software care construiesc aplicații bazate pe transcriere
  • Organizațiile care exploră recunoașterea vorbirii pentru automatizare
 14 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite