Schița de curs

Sectiunea 1: Data Management în HDFS

  • Multe Formate de Date (JSON / Avro / Parquet)
  • Schemă de Compresie
  • Ascundere a Datelor
  • Laboratoare : Analiza diferitelor formate de date; activarea compresiei

Sectiunea 2: Pig Avansat

  • Funcții Definite de Utilizator
  • Introducere în Bibliteca Pig (ElephantBird / Data-Fu)
  • Încărcarea Datelor Structurate Complexe folosind Pig
  • Tunare a Pig
  • Laboratoare : scripting Pig avansat, analizarea tipurilor de date complexe

Sectiunea 3: Hive Avansat

  • Funcții Definite de Utilizator
  • Tabele Comprimate
  • Tunare a Performanței Hive
  • Laboratoare : crearea tabelelor compilate, evaluarea formatelor și configurațiilor de tabele

Sectiunea 4: HBase Avansat

  • Modelare avansată a schemelor
  • Comprimare
  • Ingest Bulk de Date
  • Compararea tabelelor wide-table / tall-table
  • HBase și Pig
  • HBase și Hive
  • Tunare a Performanței HBase
  • Laboratoare : tunarea HBase; accesul la datele HBase din Pig & Hive; Utilizarea Phoenix pentru modelarea datelor

Cerințe

  • familiarizat cu limbajul de programare Java (cele mai multe exerciții de programare sunt în java)
  • familiarizat cu mediul Linux (trebuie să vă puteți desplaça în linia de comandă a Linux, să editați fișiere folosind vi / nano)
  • cunoștințe functionale de Hadoop.

Mediu laborator

Nu este nevoie de instalare: Nu este necesar să instalați software-ul Hadoop pe mașinile studenților! Se va oferi un cluster funcțional de Hadoop pentru studenți.

Studenții vor avea nevoie de următoarele

 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite