Intrati in legatura

Schița de curs

Plan detaliat de formare

  1. Introducere în NLP
    • Înțelegerea NLP
    • Cadre NLP
    • Aplicații comerciale ale NLP
    • Extragerea datelor de pe web
    • Lucrul cu diverse API-uri pentru a prelua date text
    • Lucrul și stocarea corpusurilor text, salvarea conținutului și metadatelor relevante
    • Avantajele utilizării Python și un curs rapid de NLTK
  2. Înțelegerea Practică a unui Corpus și a unui Set de Date
    • De ce avem nevoie de un corpus?
    • Analiza Corpusului
    • Tipuri de atribute de date
    • Diferite formate de fișiere pentru corpusuri
    • Pregătirea unui set de date pentru aplicații NLP
  3. Înțelegerea Structurii unei Propoziții
    • Componentele NLP
    • Înțelegerea limbajului natural
    • Analiză morfologică - rădăcină, cuvânt, token, etichete de vorbire
    • Analiză sintactică
    • Analiză semantică
    • Gestionarea ambiguității
  4. Preprocesarea datelor text
    • Corpus - text brut
      • Tokenizarea propozițiilor
      • Stemming pentru text brut
      • Lemmatizarea textului brut
      • Eliminarea cuvintelor de stop
    • Corpus - propoziții brute
      • Tokenizarea cuvintelor
      • Lemmatizarea cuvintelor
    • Lucrul cu matrici Termen-Document/Document-Termen
    • Tokenizarea textului în n-grams și propoziții
    • Preprocesare practică și personalizată
  5. Analiza datelor text
    • Caracteristici de bază ale NLP
      • Parseri și parsare
      • Etichetare POS și etichetori
      • Recunoașterea entităților denumite
      • N-grams
      • Sac de cuvinte
    • Caracteristici statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilităților pentru NLP
      • TF-IDF
      • Vectorizare
      • Codificatoare și Decodificatoare
      • Normalizare
      • Modele probabilistice
    • Inginerie avansată a caracteristicilor și NLP
      • Bazele word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului word2vec
      • Aplicația modelului word2vec
    • Studiu de caz: Aplicația sacului de cuvinte: rezumarea automată a textului folosind algoritmii simplificat și adevărat Luhn
  6. Clusterizarea, Clasificarea și Modelarea Tematică a Documentelor
    • Clusterizarea documentelor și extragerea de modele (clusterizare ierarhică, k-means, etc.)
    • Compararea și clasificarea documentelor folosind măsuri de distanță TFIDF, Jaccard și cosinus
    • Clasificarea documentelor folosind Naïve Bayes și Entropia Maximă
  7. Identificarea Elementelor Textuale Importante
    • Reducerea dimensionalității: Analiza Componentelor Principale, Descompunerea Valorilor Singulare, factorizarea matricială ne-negativă
    • Modelarea tematică și recuperarea informațiilor folosind Analiza Semantică Latentă
  8. Extragerea Entităților, Analiza Sentimentelor și Modelarea Tematică Avansată
    • Pozitiv vs. negativ: gradul de sentiment
    • Teoria Răspunsului la Item
    • Etichetarea părților de vorbire și aplicația sa: găsirea persoanelor, locurilor și organizațiilor menționate în text
    • Modelarea tematică avansată: Alocarea Latent Dirichlet
  9. Studii de caz
    • Extragerea recenziilor nestructurate ale utilizatorilor
    • Clasificarea și vizualizarea sentimentelor din datele de recenzii ale produselor
    • Extragerea modelelor de utilizare din jurnalele de căutare
    • Clasificarea textului
    • Modelarea tematică

Cerințe

Cunoștințe și conștientizare a principiilor NLP și o înțelegere a aplicării AI în afaceri

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite