Schița de curs

Prezentare generală rapidă

  • Surse de date
  • Minding Data
  • Sisteme de recomandare
  • Țintă Marketing

Tipuri de date

  • Structurat vs nestructurat
  • Static vs transmis în flux
  • Date de atitudine, comportamentale și demografice
  • Analiză bazată pe date vs. analiză bazată pe utilizator
  • valabilitatea datelor
  • Volumul, viteza și varietatea datelor

Modele

  • Construire modele
  • Modele statistice
  • Învățare automată

Clasificarea datelor

  • Clustering
  • kGrupuri, k-înseamnă, cei mai apropiați vecini
  • Colonii de furnici, păsări în turmă

Modele predictive

  • Arbori de decizie
  • Suport mașină vectorială
  • Clasificarea naiv Bayes
  • Rețele neuronale
  • Modelul Markov
  • Regresia
  • Metode de ansamblu

ROI

  • Raport beneficiu/cost
  • Costul software-ului
  • Costul dezvoltării
  • Beneficii potențiale

Modele de constructii

  • Pregătirea datelor (MapReduce)
  • Curățarea datelor
  • Alegerea metodelor
  • Model de dezvoltare
  • Model de testare
  • Evaluarea modelului
  • Implementarea și integrarea modelului

Prezentare generală a software-ului open source și comercial

  • Selectarea pachetului R-project
  • Python biblioteci
  • Hadoop și Mahout
  • Proiecte Apache selectate legate de Big Data și Analytics
  • Soluție comercială selectată
  • Integrare cu software-ul și sursele de date existente

Cerințe

Înțelegerea metodelor tradiționale de gestionare și analiză a datelor, cum ar fi SQL, depozitele de date, business intelligence, OLAP etc... Înțelegerea statisticilor de bază și a probabilităților (medie, varianță, probabilitate, probabilitate condiționată etc.) ....)

 21 ore

Numărul de participanți


Pret per participant

Mărturii (2)

Categorii înrudite