Schița de curs

Secțiunea 1: Data Management în HDFS

  • Diverse formate de date (JSON / Avro / Parchet)
  • Scheme de compresie
  • Mascarea datelor
  • Laboratoare: Analiza diferitelor formate de date; permițând compresia

Secțiunea 2: Porc avansat

  • Funcții definite de utilizator
  • Introducere în bibliotecile de porci (ElephantBird / Data-Fu)
  • Încărcarea datelor structurate complexe folosind Pig
  • Tuning porc
  • Laboratoare: scripturi avansate de porc, parsarea unor tipuri de date complexe

Secțiunea 3: Avansat Hive

  • Funcții definite de utilizator
  • Tabele comprimate
  • Hive Ajustarea performanței
  • Laboratoare: crearea de tabele comprimate, evaluarea formatelor și configurației tabelelor

Secțiunea 4: HBază avansată

  • Modelare avansată a schemelor
  • Comprimare
  • Ingerare de date în vrac
  • Comparație cu masă largă / masă înaltă
  • HBază și Porc
  • HBase și Hive
  • Reglarea performanței HBase
  • Laboratoare: tuning HBase; accesarea datelor HBase de la Pig & Hive; Folosind Phoenix pentru modelarea datelor

Cerințe

  • confortabil cu limbajul de programare Java (cele mai multe exerciții de programare sunt în java)
  • .
  • confortabil în mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)
  • .
  • cunoștințe de lucru  cunoștințe de Hadoop.

Mediul de laborator

Zero Install: Nu este nevoie să instalați software-ul hadoop pe studenți’ mașini! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows Putty este recomandat)
  • .
  • un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox
  • .
  21 ore
 

Mărturii (3)

Cursuri înrudite

Categorii înrudite