Schița de curs

Sectiunea 1: Introducere în Hadoop

  • Istoric și concepte Hadoop
  • ecosistem
  • distribuții
  • arhitectură la nivel ridicat
  • mituri Hadoop
  • provocări Hadoop
  • hardware / software
  • lab : primul contact cu Hadoop

Sectiunea 2: HDFS

  • Dizain și arhitectură
  • concepte (scalare orizontală, replicare, localitate a datelor, conștiință de raț)
  • Daemon : Namenode, Secondary namenode, Data node
  • comunicări / pulsuri
  • integritatea datelor
  • cale de citire / scriere
  • Namenode Disponibilitate Înaltă (HA), Federare
  • labs : Interacțiune cu HDFS

Sectiunea 3 : Map Reduce

  • concepte și arhitectură
  • daemon (MRV1) : jobtracker / tasktracker
  • faze : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versiunea 1 și Versiunea 2 (YARN)
  • Interne ale Map Reduce
  • Introducere în programul Java Map Reduce
  • labs : Executarea unui exemplu de program MapReduce

Sectiunea 4 : Pig

  • Pig vs java map reduce
  • fluxul job-ului pig
  • limbajul pig latin
  • ETL cu Pig
  • transformări și uniuni
  • funcții definite de utilizator (UDF)
  • labs : scrierea scripturilor Pig pentru analiza datelor

Sectiunea 5: Hive

  • arhitectură și design
  • tipuri de date
  • susținere SQL în Hive
  • Creați tabele Hive și interogați-le
  • partiții
  • uniuni
  • procesare text
  • labs : laboratoare diverse pentru procesarea datelor cu Hive

Sectiunea 6: HBase

  • concepte și arhitectură
  • HBase vs RDBMS vs Cassandra
  • HBase API Java
  • Date de serie temporală în HBase
  • dizajn schemă
  • labs : Interacțiune cu HBase folosind shell; programare în HBase API Java ; exerciții de dizajn schema

Cerințe

  • familiarizat cu limbajul de programare Java (mai multe exerciții de programare sunt în Java)
  • confortabil în mediul Linux (trebuie să știți să navigați la linia de comandă a lui Linux, să editați fișiere folosind vi / nano)

Mediu de laborator

Nu este nevoie de instalare : Nu este necesară instalarea software-ului Hadoop pe mașinile studenților! Voi fi furnizat un cluster funcțional Hadoop pentru studenți.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți SSH, pentru Windows se recomandă Putty)
  • un browser pentru accesarea clusterului, se recomandă Firefox
 28 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite