Intrati in legatura

Schița de curs

Secțiunea 1: Introducere în Hadoop

  • Istoria Hadoop, concepte
  • ecosistem
  • distribuții
  • arhitectură de nivel înalt
  • mituri despre Hadoop
  • provocări Hadoop
  • hardware / software
  • laborator : primul contact cu Hadoop

Secțiunea 2: HDFS

  • Design și arhitectură
  • concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-urilor)
  • Daemons : Namenode, Secondary namenode, Data node
  • comunicări / heart-beats
  • integritatea datelor
  • calea de citire / scriere
  • Namenode High Availability (HA), Federație
  • laborator : Interacțiune cu HDFS

Secțiunea 3 : Map Reduce

  • concepte și arhitectură
  • daemons (MRV1) : jobtracker / tasktracker
  • faze : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versiunea 1 și Versiunea 2 (YARN)
  • Interiorul Map Reduce
  • Introducere în programul Java Map Reduce
  • laborator : Rularea unui program MapReduce exemplu

Secțiunea 4 : Pig

  • pig vs java map reduce
  • fluxul de joburi în Pig
  • limbajul Pig latin
  • ETL cu Pig
  • Transformări & Îmbinări
  • Funcții definite de utilizator (UDF)
  • laborator : scrierea de scripturi Pig pentru analiza datelor

Secțiunea 5: Hive

  • arhitectură și design
  • tipuri de date
  • suport SQL în Hive
  • Crearea tabelelor Hive și interogarea
  • partiții
  • îmbinări
  • prelucrarea textului
  • laborator : diverse exerciții de prelucrare a datelor cu Hive

Secțiunea 6: HBase

  • concepte și arhitectură
  • HBase vs RDBMS vs Cassandra
  • API Java HBase
  • Date de tip Time series în HBase
  • designul schemei
  • laborator : Interacțiune cu HBase folosind shell; programare în API Java HBase; Exercițiu de design al schemei

Cerințe

  • familiarizat cu limbajul de programare Java (majoritatea exercițiilor de programare sunt în Java)
  • familiarizat cu mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)

Mediu de laborator

Zero Instalare : Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows este recomandat Putty)
  • un browser pentru a accesa clusterul, este recomandat Firefox
 28 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite