Intrati in legatura

Schița de curs

Program detaliat al formării

  1. Introducere în NLP
    • Înțelegerea NLP
    • Cadre de lucru NLP
    • Aplicații comerciale ale NLP
    • Extragerea datelor de pe web
    • Lucrul cu diverse API-uri pentru a prelua date text
    • Lucrul și stocarea corpusurilor de text, salvarea conținutului și a metadatelor relevante
    • Avantajele utilizării Python și un curs rapid de NLTK
  2. Înțelegerea Practică a unui Corpus și a unui Set de Date
    • De ce avem nevoie de un corpus?
    • Analiza corpusului
    • Tipuri de atribute ale datelor
    • Diferite formate de fișiere pentru corpusuri
    • Pregătirea unui set de date pentru aplicații NLP
  3. Înțelegerea Structurii unei Propoziții
    • Componente ale NLP
    • Înțelegerea limbajului natural
    • Analiză morfologică - rădăcină, cuvânt, token, etichete de vorbire
    • Analiză sintactică
    • Analiză semantică
    • Gestionarea ambiguității
  4. Prelucrarea Prealabilă a Datelor Text
    • Corpus - text brut
      • Tokenizarea propozițiilor
      • Stemming pentru text brut
      • Lemmatizarea textului brut
      • Eliminarea cuvintelor de stop
    • Corpus - propoziții brute
      • Tokenizarea cuvintelor
      • Lemmatizarea cuvintelor
    • Lucrul cu matrici Termen-Document/Document-Termen
    • Tokenizarea textului în n-grame și propoziții
    • Prelucrare prealabilă practică și personalizată
  5. Analiza Datelor Text
    • Caracteristici de bază ale NLP
      • Parseri și parsare
      • Etichetare și etichete POS
      • Recunoașterea entităților numite
      • N-grame
      • Sac de cuvinte
    • Caracteristici statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilităților pentru NLP
      • TF-IDF
      • Vectorizare
      • Codificatoare și decodificatoare
      • Normalizare
      • Modele probabilistice
    • Inginerie avansată a caracteristicilor și NLP
      • Bazele word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului word2vec
      • Aplicarea modelului word2vec
    • Studiu de caz: Aplicarea sacului de cuvinte: rezumarea automată a textului folosind algoritmii simplificați și adevărați ai lui Luhn
  6. Clustering, Clasificare și Modelare Tematică a Documentelor
    • Clustering și minerit de modele în documente (clustering ierarhic, k-means, etc.)
    • Compararea și clasificarea documentelor folosind măsuri de distanță TFIDF, Jaccard și cosinus
    • Clasificarea documentelor folosind Naïf Bayes și Entropia Maximă
  7. Identificarea Elementelor Textuale Importante
    • Reducerea dimensionalității: Analiza Componentelor Principale, Descompunerea Valorilor Singulare, factorizarea matricială nenegativă
    • Modelare tematică și recuperare a informațiilor folosind Analiza Semantică Latentă
  8. Extragerea Entităților, Analiza Sentimentelor și Modelarea Tematică Avansată
    • Pozitiv vs. negativ: gradul de sentiment
    • Teoria Răspunsului la Item
    • Etichetarea părților de vorbire și aplicația sa: găsirea persoanelor, locurilor și organizațiilor menționate în text
    • Modelare tematică avansată: Alocarea Dirichlet Latentă
  9. Studii de caz
    • Mineritul recenziilor nestructurate ale utilizatorilor
    • Clasificarea și vizualizarea sentimentelor din datele de recenzii ale produselor
    • Mineritul jurnalelor de căutare pentru modele de utilizare
    • Clasificarea textului
    • Modelarea tematică

Cerințe

Cunoștințe și conștientizare a principiilor NLP și o înțelegere a aplicării AI în afaceri

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite