Intrati in legatura

Schița de curs

Prezentare generală a tehnologiilor de recunoaștere a vorbirii

  • Istoria și evoluția recunoașterii vorbirii
  • Modele acustice, modele de limbaj și decodare
  • Arhitecturi moderne: RNN, transformatoare și Whisper

Prelucrarea Audio și Bazele Transcrierii

  • Manipularea formatelor audio și a ratelor de eșantionare
  • Curățarea, tăierea și segmentarea audio
  • Generarea de text din audio: în timp real vs batch

Lucrul Practic cu Whisper și Alte API-uri

  • Instalarea și utilizarea OpenAI Whisper
  • Apelarea API-urilor în cloud (Google, Azure) pentru transcriere
  • Compararea performanței, latenței și costului

Limbă, Accente și Adaptare la Domeniu

  • Lucrul cu mai multe limbi și accente
  • Vocabulare personalizate și toleranța la zgomot
  • Manipularea limbajului legal, medical sau tehnic

Formatarea și Integrarea Rezultatelor

  • Adăugarea de marcaje temporale, punctuație și etichete de vorbitor
  • Exportarea în formate text, SRT sau JSON
  • Integrarea transcrierilor în aplicații sau baze de date

Laboratoare de Implementare a Cazurilor de Utilizare

  • Transcrierea ședințelor, interviurilor sau podcasturilor
  • Sisteme de comandă vocală în text
  • Subtitrări în timp real pentru fluxuri video/audio

Evaluare, Limitări și Etică

  • Metrici de acuratețe și evaluarea modelelor
  • Părtinire și echitate în modelele de recunoaștere a vorbirii
  • Considerații privind confidențialitatea și conformitatea

Rezumat și Pași Următori

Cerințe

  • O înțelegere a conceptelor generale de inteligență artificială și învățare automată
  • Familiaritate cu formatele de fișiere audio sau media și cu instrumentele aferente

Publicul Țintă

  • Oameni de știință și ingineri AI care lucrează cu date vocale
  • Dezvoltatori de software care construiesc aplicații bazate pe transcriere
  • Organizații care explorează recunoașterea vorbirii pentru automatizare
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite