Schița de curs

Secțiunea 1: Introducere în Hadoop

  • Istoricul și conceptele Hadoop
  • ecosistem
  • distribuții
  • arhitectură de nivel înalt
  • mituri despre Hadoop
  • provocări Hadoop
  • hardware / software
  • laborator: primul contact cu Hadoop

Secțiunea 2: HDFS

  • Proiectare și arhitectură
  • concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-urilor)
  • Daemons: Namenode, Secondary namenode, Data node
  • comunicări / heart-beats
  • integritatea datelor
  • calea de citire / scriere
  • Namenode High Availability (HA), Federation
  • laborator: Interacțiune cu HDFS

Secțiunea 3: Map Reduce

  • concepte și arhitectură
  • daemons (MRV1): jobtracker / tasktracker
  • faze: driver, mapper, shuffle/sort, reducer
  • Map Reduce Versiunea 1 și Versiunea 2 (YARN)
  • Interiorul Map Reduce
  • Introducere în programul Java Map Reduce
  • laborator: Rularea unui program MapReduce de exemplu

Secțiunea 4: Pig

  • pig vs java map reduce
  • fluxul de lucru Pig
  • limbajul Pig Latin
  • ETL cu Pig
  • Transformări & Îmbinări
  • Funcții definite de utilizator (UDF)
  • laborator: scrierea de scripturi Pig pentru analiza datelor

Secțiunea 5: Hive

  • arhitectură și proiectare
  • tipuri de date
  • suport SQL în Hive
  • Crearea de tabele Hive și interogare
  • partiții
  • îmbinări
  • procesarea textului
  • laborator: diverse exerciții de procesare a datelor cu Hive

Secțiunea 6: HBase

  • concepte și arhitectură
  • HBase vs RDBMS vs Cassandra
  • API Java HBase
  • Date de tip serie temporală în HBase
  • proiectarea schemei
  • laborator: Interacțiune cu HBase folosind shell; programare în API Java HBase; Exercițiu de proiectare a schemei

Cerințe

  • cunoștințe solide ale limbajului de programare Java (majoritatea exercițiilor de programare sunt în Java)
  • familiarizat cu mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)

Mediu de laborator

Zero Install : Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
  • un browser pentru a accesa clusterul, se recomandă Firefox
 28 Ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite