Schița de curs

Plan de instruire detaliat

  1. Introducere în NLP
    • Înțelegerea NLP
    • Cadrul NLP
    • Aplicațiile comerciale ale NLP
    • Scraping de date de pe web
    • Lucrul cu diverse API-uri pentru a recupera date text
    • Lucrul și stocarea corporilor de text, salvarea conținutului și metadatelor relevante
    • Vantajele utilizării Python și curs rapid NLTK
  2. Înțelegerea practică a unui corpus și dataset
    • De ce avem nevoie de un corpus?
    • Analiza corporului
    • Tipuri de atribute ale datelor
    • Diferite formate de fișiere pentru corpori
    • Pregătirea unui set de date pentru aplicații NLP
  3. Înțelegerea structurii unor propoziții
    • Componentele NLP
    • Înțelegerea limbajului natural
    • Analiza morfologică - stem, cuvânt, token, etichete de discurs
    • Analiza sintactică
    • Analiza semantică
    • Gestionarea ambiguității
  4. Preprocesarea datelor text
    • Corpus - text brut
      • Fractionarea propozițiilor
      • Stemming pentru text brut
      • Lemmizarea textului brut
      • Eliminarea cuvintelor de ocol
    • Corpus - propoziții brute
      • Fractionarea cuvintelor
      • Lemmizarea cuvintelor
    • Lucrul cu matricea Term-Document/Document-Term
    • Fractionarea textului în n-grami și propoziții
    • Preprocesare practică și personalizată
  5. Analiza datelor text
    • Caracteristicile de bază ale NLP
      • Parseri și parsing
      • Etichetarea POS și etichetorii
      • Recunoașterea entităților numite
      • N-grami
      • Sacul cu cuvinte
    • Caracteristicile statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilistică pentru NLP
      • TF-IDF
      • Vectoarezierea
      • Encoderi și decoderi
      • Normalizarea
      • Modele probabilistice
    • Ingineria avansată a caracteristicilor și NLP
      • Concepte de bază ale word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului word2vec
      • Aplicarea modelului word2vec
    • Caz de studiu: Aplicația sacului cu cuvinte: rezumat automat al textului folosind algoritmi simplificăți și adevărați Luhn
  6. Agruparea, clasificarea și modelarea de subiecte a documentelor
    • Agruparea documentelor și minarea de modele (aglomerativ, k-means, etc.)
    • Comparația și clasificarea documentelor folosind măsurile TFIDF, Jaccard și cosinus
    • Clasificarea documentelor folosind Naïve Bayes și Maximum Entropy
  7. Identificarea elementelor text importante
    • Reducerea dimensionalității: Analiza Componentelor Principale, Descompunerea în Valori Singulare, factorizarea matricei ne-negativă
    • Modelarea de subiecte și recuperarea informațiilor folosind Analiza Semantică Latentă
  8. Extragerea entităților, analiza sentimentului și modelarea avansată a subiectelor
    • Pozitiv vs. negativ: gradul de sentiment
    • Teoria răspunsurilor itemelor
    • Etichetarea cuvintelor după părți de discurs și aplicația acesteia: găsirea persoanelor, locurilor și organizațiilor menționate în text
    • Modelarea avansată a subiectelor: Analiza Dirichlet Latentă
  9. Cazuri de studiu
    • Minarea recenzilor utilizatorilor nestructurate
    • Clasificarea și vizualizarea datelor cu recenzii produse
    • Minarea jurnalurilor de căutare pentru modele de utilizare
    • Clasificarea textului
    • Modelarea subiectelor

Cerințe

Cunoașterea și conștientizarea principiilor NLP și aprecierea aplicării AI în afaceri

 21 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite