Schița de curs

Secțiunea 1: Gestionarea Datelor în HDFS

  • Diverse Formate de Date (JSON / Avro / Parquet)
  • Schemă de Comprimare
  • Mascarea Datelor
  • Laboratoare : Analizarea diferitelor formate de date; activarea compresiei

Secțiunea 2: Pig Avansat

  • Funcții Definite de Utilizator
  • Introducere în Biblioteci Pig (ElephantBird / Data-Fu)
  • Încărcarea Datelor Structurate Complex folosind Pig
  • Tuning-ul Pig
  • Laboratoare : scriptare avansată cu Pig, parsarea tipurilor de date complexe

Secțiunea 3: Hive Avansat

  • Funcții Definite de Utilizator
  • Tabele Comprimate
  • Tuning-ul Performanței Hive
  • Laboratoare : crearea de tabele comprimate, evaluarea formatelor și configurațiilor de tabel

Secțiunea 4: HBase Avansat

  • Modelarea Schemelor Avansată
  • Comprimare
  • Încărcarea Masivă a Datelor
  • Compararea Tabelelor Largi și Înalte
  • HBase și Pig
  • HBase și Hive
  • Tuning-ul Performanței HBase
  • Laboratoare : tuning HBase; accesarea datelor HBase din Pig & Hive; Utilizarea Phoenix pentru modelarea datelor

Cerințe

  • confortabil cu limbajul de programare Java (majoritatea exercițiilor de programare sunt în Java)
  • confortabil în mediul Linux (capabil să navighezi prin linia de comandă a Linux, să editezi fișiere folosind vi / nano)
  • cunoștințe operaționale ale Hadoop.

Mediul de laborator

Zero Install: Nu este necesară instalarea software-ului Hadoop pe mașinile studenților! Un cluster funcțional Hadoop va fi disponibil pentru studenți.

Studenții vor avea nevoie de următoarele

 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite