Schița de curs

Prezentare rapidă

  • Surse de date
  • Gestionarea datelor
  • Sisteme de recomandare
  • Marketing țintit

Tipuri de date

  • Structurate vs nestructurate
  • Statice vs transmise în flux
  • Date atitudinale, comportamentale și demografice
  • Analiză bazată pe date vs analiză bazată pe utilizator
  • Validitatea datelor
  • Volum, viteză și varietate a datelor

Modele

  • Construirea modelelor
  • Modele statistice
  • Învățarea automată

Clasificarea datelor

  • Gruparea
  • kGroups, k-means, cei mai apropiați vecini
  • Coloniile de furnici, stoluri de păsări

Modele predictive

  • Arbori de decizie
  • Mașini cu vectori de suport
  • Clasificare Naive Bayes
  • Rețele neuronale
  • Modelul Markov
  • Regresie
  • Metode de ansamblu

ROI

  • Raport beneficiu/cost
  • Costul software-ului
  • Costul dezvoltării
  • Beneficii potențiale

Construirea modelelor

  • Pregătirea datelor (MapReduce)
  • Curățarea datelor
  • Alegerea metodelor
  • Dezvoltarea modelului
  • Testarea modelului
  • Evaluarea modelului
  • Implementarea și integrarea modelului

Prezentare generală a software-ului open source și comercial

  • Selecția pachetului R-project
  • Biblioteci Python
  • Hadoop și Mahout
  • Proiecte selectate Apache legate de Big Data și Analiză
  • Soluții comerciale selectate
  • Integrarea cu software-ul și sursele de date existente

Cerințe

Înțelegerea metodelor tradiționale de gestionare și analiză a datelor, cum ar fi SQL, depozitele de date, inteligența de afaceri, OLAP etc. Înțelegerea statisticilor de bază și a probabilității (medie, varianță, probabilitate, probabilitate condiționată etc.).

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite