Intrati in legatura

Schița de curs

Introducere în Știința Datelor pentru Analiza Big Data

  • Prezentare generală a Științei Datelor
  • Prezentare generală a Big Data
  • Structuri de date
  • Factorii și complexitățile Big Data
  • Ecosistemul Big Data și o nouă abordare a analizei
  • Tehnologii cheie în Big Data
  • Procesul și problemele de minerit de date
    • Mineritul de modele de asociere
    • Clusteringul datelor
    • Detectarea valorilor aberante
    • Clasificarea datelor

Introducere în ciclul de viață al analizei datelor

  • Descoperire
  • Pregătirea datelor
  • Planificarea modelului
  • Construirea modelului
  • Prezentarea/Comunicarea rezultatelor
  • Operaționalizarea
  • Exercițiu: Studiu de caz

De aici înainte, cea mai mare parte a timpului de formare (80%) va fi dedicată exemplelor și exercițiilor în R și tehnologiile Big Data aferente.

Începutul lucrului cu R

  • Instalarea R și Rstudio
  • Caracteristicile limbajului R
  • Obiecte în R
  • Date în R
  • Manipularea datelor
  • Problemele Big Data
  • Exerciții

Începutul lucrului cu Hadoop

  • Instalarea Hadoop
  • Înțelegerea modurilor Hadoop
  • HDFS
  • Arhitectura MapReduce
  • Prezentarea proiectelor legate de Hadoop
  • Scrierea programelor în Hadoop MapReduce
  • Exerciții

Integrarea R și Hadoop cu RHadoop

  • Componentele RHadoop
  • Instalarea RHadoop și conectarea cu Hadoop
  • Arhitectura RHadoop
  • Streaming Hadoop cu R
  • Rezolvarea problemelor de analiză a datelor cu RHadoop
  • Exerciții

Preprocesarea și pregătirea datelor

  • Pași de pregătire a datelor
  • Extragerea caracteristicilor
  • Curățarea datelor
  • Integrarea și transformarea datelor
  • Reducerea datelor – eșantionare, selectarea subsetului de caracteristici,
  • Reducerea dimensionalității
  • Discretizarea și binningul
  • Exerciții și studiu de caz

Metode de analiză exploratorie a datelor în R

  • Statistici descriptive
  • Analiza exploratorie a datelor
  • Vizualizare – pași preliminari
  • Vizualizarea unei singure variabile
  • Examinarea mai multor variabile
  • Metode statistice de evaluare
  • Testarea ipotezelor
  • Exerciții și studiu de caz

Vizualizarea datelor

  • Vizualizări de bază în R
  • Pachete pentru vizualizarea datelor ggplot2, lattice, plotly, lattice
  • Formatarea graficelor în R
  • Grafice avansate
  • Exerciții

Regresie (Estimarea valorilor viitoare)

  • Regresie liniară
  • Cazuri de utilizare
  • Descrierea modelului
  • Diagnosticarea
  • Probleme cu regresia liniară
  • Metode de reducere, regresie ridge, lasso
  • Generalizări și neliniaritate
  • Spline-uri de regresie
  • Regresie polinomială locală
  • Modele aditive generalizate
  • Regresie cu RHadoop
  • Exerciții și studiu de caz

Clasificare

  • Problemele legate de clasificare
  • Recapitulare Bayesiană
  • Naïve Bayes
  • Regresie logistică
  • Vecinii cei mai apropiați
  • Algoritmul arborilor de decizie
  • Rețele neurale
  • Mașini cu vectori de suport
  • Diagnosticarea clasificatorilor
  • Compararea metodelor de clasificare
  • Algoritmi scalabili de clasificare
  • Exerciții și studiu de caz

Evaluarea și selecția performanței modelului

  • Bias, varianță și complexitatea modelului
  • Precizie vs Interpretabilitate
  • Evaluarea clasificatorilor
  • Măsuri de performanță a modelului/algoritmului
  • Metoda de validare hold-out
  • Validarea încrucișată
  • Optimizarea algoritmilor de învățare automată cu pachetul caret
  • Vizualizarea performanței modelului cu curbe Profit ROC și Lift

Metode de ansamblu

  • Bagging
  • Păduri aleatoare
  • Boosting
  • Gradient boosting
  • Exerciții și studiu de caz

Mașini cu vectori de suport pentru clasificare și regresie

  • Clasificatoare cu marjă maximă
    • Clasificatoare cu vectori de suport
    • Mașini cu vectori de suport
    • SVM-uri pentru probleme de clasificare
    • SVM-uri pentru probleme de regresie
  • Exerciții și studiu de caz

Identificarea grupurilor necunoscute într-un set de date

  • Selectarea caracteristicilor pentru clustering
  • Algoritmi reprezentativi: k-means, k-medoids
  • Algoritmi ierarhici: metode aglomerative și divizive
  • Algoritmi probabilistici: EM
  • Algoritmi bazati pe densitate: DBSCAN, DENCLUE
  • Validarea clusterelor
  • Concepte avansate de clustering
  • Clustering cu RHadoop
  • Exerciții și studiu de caz

Descoperirea conexiunilor cu analiza legăturilor

  • Concepte de analiză a legăturilor
  • Metrici pentru analiza rețelelor
  • Algoritmul Pagerank
  • Hyperlink-Induced Topic Search
  • Predicția legăturilor
  • Exerciții și studiu de caz

Mineritul de modele de asociere

  • Modelul de minerit de modele frecvente
  • Probleme de scalabilitate în mineritul de modele frecvente
  • Algoritmi brute force
  • Algoritmul Apriori
  • Abordarea FP growth
  • Evaluarea regulilor candidate
  • Aplicații ale regulilor de asociere
  • Validarea și testarea
  • Diagnosticarea
  • Reguli de asociere cu R și Hadoop
  • Exerciții și studiu de caz

Construirea motoarelor de recomandare

  • Înțelegerea sistemelor de recomandare
  • Tehnici de minerit de date utilizate în sistemele de recomandare
  • Sisteme de recomandare cu pachetul recommenderlab
  • Evaluarea sistemelor de recomandare
  • Recomandări cu RHadoop
  • Exercițiu: Construirea unui motor de recomandare

Analiza textului

  • Pași de analiză a textului
  • Colectarea textului brut
  • Sac de cuvinte
  • Frecvența termenului – Frecvența inversă a documentului
  • Determinarea sentimentelor
  • Exerciții și studiu de caz
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite