Schița de curs

Secțiunea 1: Introducere în Hadoop

  • Istoria și conceptele Hadoop
  • Ecosistem
  • Distribuții
  • Arhitectură la nivel înalt
  • Mituri despre Hadoop
  • Săruturile Hadoop
  • Hardware / software
  • Laborator: prima întâlnire cu Hadoop

Secțiunea 2: HDFS

  • Design și arhitectură
  • Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-ului)
  • Daemons : Namenode, Secondary namenode, Data node
  • Comunicații / pulsuri de viață
  • Integritatea datelor
  • Calea de citire / scriere
  • Namenode High Availability (HA), Federare
  • Laborator: Interacțiune cu HDFS

Secțiunea 3 : Map Reduce

  • Concepte și arhitectură
  • Daemons (MRV1) : jobtracker / tasktracker
  • Faze : driver, mapper, shuffle/sort, reducer
  • Versiunea 1 și Versiunea 2 a Map Reduce (YARN)
  • Internul Map Reduce
  • Introducere în programarea Java Map Reduce
  • Laborator: Rularea unui program de exemplu MapReduce

Secțiunea 4 : Pig

  • Pig vs Java Map Reduce
  • Fluxul job-ului Pig
  • Limbajul Pig Latin
  • ETL cu Pig
  • Transformări și Join-uri
  • Funcții definite de utilizator (UDF)
  • Laborator: scrierea scripturilor Pig pentru analiza datelor

Secțiunea 5: Hive

  • Arhitectura și design
  • Tipuri de date
  • Suport SQL în Hive
  • Crearea și interogarea tabelelor Hive
  • Partiții
  • Join-uri
  • Procesarea textului
  • Laborator: diverse laboratoare pentru procesarea datelor cu Hive

Secțiunea 6: HBase

  • Concepte și arhitectură
  • HBase vs RDBMS vs Cassandra
  • API Java pentru HBase
  • Date în serie de timp pe HBase
  • Design-ul schema-ului
  • Laborator: Interacțiune cu HBase folosind shell; Programare în API Java HBase; Exercițiu de design a schema-ului

Cerințe

  • familiarizat cu limbajul de programare Java (cele mai multe exerciții de programare sunt în Java)
  • familiarizat cu mediul Linux (să știți cum să navigați prin linia de comandă a Linux, să editați fișiere folosind vi / nano)

Mediul de laborator

Zero Install : Nu este nevoie să instalați software-ul Hadoop pe mașinile studenților! Un cluster funcțional Hadoop va fi furnizat pentru studenți.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți SSH, pentru Windows se recomandă Putty)
  • un browser pentru a accesa clusterul, Firefox este recomandat
 28 ore

Numărul de participanți


Prețul pe participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite