Schița de curs

Secțiunea 1: Gestionarea Datelor în HDFS

  • Diferite Formate de Date (JSON / Avro / Parquet)
  • Scheme de Compresie
  • Maskare de Date
  • Laboratoare: Analizarea diferitelor formate de date; activarea compresiei

Secțiunea 2: Pig Avansat

  • Funcții Definite de Utilizator
  • Introducere în Bibliotecile Pig (ElephantBird / Data-Fu)
  • Încărcarea Datelor Structurate Complexe folosind Pig
  • Optimizare Pig
  • Laboratoare: scripturi avansate în Pig, parsarea tipurilor de date complexe

Secțiunea 3: Hive Avansat

  • Funcții Definite de Utilizator
  • Tabele Comprimate
  • Optimizare Performanță Hive
  • Laboratoare: crearea tabelelor comprimate, evaluarea formatelor de tabele și configurației

Secțiunea 4: HBase Avansat

  • Modelare Avansată a Schemei
  • Compresie
  • Încărcare Masivă de Date
  • Comparație Tabel Lat / Înalt
  • HBase și Pig
  • HBase și Hive
  • Optimizare Performanță HBase
  • Laboratoare: optimizarea HBase; accesarea datelor HBase din Pig & Hive; Utilizarea Phoenix pentru modelarea datelor

Cerințe

  • cunoaștere confortabilă a limbajului de programare Java (majoritatea exercițiilor de programare sunt în Java)
  • cunoaștere confortabilă a mediului Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)
  • cunoștințe de bază despre Hadoop.

Mediu de laborator

Zero Install: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite