Schița de curs

Prezentare generală a tehnologiilor de recunoaștere a vorbirii

  • Istoria și evoluția recunoașterii vorbirii
  • Modele acustice, modele de limbă și decodare
  • Arhitecturi moderne: RNN-uri, transformatoare și Whisper

Prelucrarea audio și elementele de bază ale transcrierii

  • Gestionarea formatelor audio și a ratelor de eșantionare
  • Curățarea, tăierea și segmentarea audio
  • Generarea textului din audio: în timp real vs batch

Lucru practic cu Whisper și alte API-uri

  • Instalarea și utilizarea OpenAI Whisper
  • Apelarea API-urilor în cloud (Google, Azure) pentru transcriere
  • Compararea performanței, latenței și costurilor

Limbă, accente și adaptare la domeniu

  • Lucrul cu mai multe limbi și accente
  • Vocabulare personalizate și toleranță la zgomot
  • Gestionarea limbajului juridic, medical sau tehnic

Formatarea și integrarea rezultatelor

  • Adăugarea marcajelor temporale, punctuației și etichetelor de vorbitor
  • Exportul în formate text, SRT sau JSON
  • Integrarea transcrierilor în aplicații sau baze de date

Laboratoare de implementare a cazurilor de utilizare

  • Transcrierea ședințelor, interviurilor sau podcasturilor
  • Sisteme de comenzi vocal-text
  • Subtitrări în timp real pentru fluxuri video/audio

Evaluare, limitări și aspecte etice

  • Metrici de acuratețe și evaluarea modelelor
  • Părtinire și corectitudine în modelele de recunoaștere a vorbirii
  • Considerații privind confidențialitatea și conformitatea

Rezumat și pași următori

Cerințe

  • Înțelegerea conceptelor generale de inteligență artificială și învățare automată
  • Familiarizare cu formatele de fișiere audio sau media și cu instrumentele aferente

Publicul țintă

  • Oameni de știință de date și ingineri AI care lucrează cu date vocale
  • Dezvoltatori de software care construiesc aplicații bazate pe transcriere
  • Organizații care explorează recunoașterea vorbirii pentru automatizare
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite