Schița de curs

Secțiunea 1: Introducere în Hadoop

  • Istoria și conceptele Hadoop
  • ecosistem
  • distribuții
  • arhitectură la nivel ridicat
  • miturile Hadoop
  • provocările Hadoop
  • hard ware / soft ware
  • lab : primul contact cu Hadoop

Secțiunea 2: HDFS

  • Dizain și arhitectură
  • concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rackului)
  • daemoni : Namenode, Secondary namenode, Data node
  • comunicări / pulsuri de viață
  • integritatea datelor
  • calea de citire / scriere
  • Namenode High Availability (HA), Federare
  • labs : Interacțiune cu HDFS

Secțiunea 3 : Map Reduce

  • concepte și arhitectură
  • demoni (MRV1) : jobtracker / tasktracker
  • faze : driver, mapper, shuffle/sort, reducer
  • Map Reduce versiunea 1 și versiunea 2 (YARN)
  • Aspecte interne ale Map Reduce
  • Introducere în programul Java Map Reduce
  • Laboratoare : Rularea unui exemplu de program MapReduce

Secțiunea 4 : Pig

  • pig vs java map reduce
  • fluxul de lucru pig
  • limbajul latin pig
  • ETL cu Pig
  • Transformări și îmbinări
  • Funcții definite de utilizator (UDF)
  • laboratoare : scrierea de scripturi Pig pentru analiza datelor

Secțiunea 5: Hive

  • arhitectură și design
  • tipuri de date
  • SQL suport în Hive
  • Crearea de tabele Hive și interogarea
  • partiții
  • îmbinări
  • prelucrarea textului
  • laboratoare : diverse laboratoare privind prelucrarea datelor cu Hive

Secțiunea 6: HBase

  • concepte și arhitectură
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Date de serie temporală pe HBase
  • dizain schema
  • labs : Interacțiune cu HBase folosind shell;   programare în HBase Java API ; exercițiu de dizain schema

Cerințe

  • să fie familiarizat cu Java limbaj de programare (majoritatea exercițiilor de programare sunt în java)
  • să se simtă confortabil în mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)

Mediu de laborator

Nu este nevoie de instalare : Nu este necesar să instaleze software-ul Hadoop pe mașinile studenților! Un cluster funcțional Hadoop va fi furnizat pentru studenți.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
  • un browser pentru accesarea clusterului, se recomandă Firefox
 28 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite