Intrati in legatura

Schița de curs

Secțiunea 1: Gestionarea Datelor în HDFS

  • Diferite Formate de Date (JSON / Avro / Parquet)
  • Scheme de Compresie
  • Maskarea Datelor
  • Laborator: Analizarea diferitelor formate de date; activarea compresiei

Secțiunea 2: Pig Avansat

  • Funcții Definite de Utilizator
  • Introducere în Bibliotecile Pig (ElephantBird / Data-Fu)
  • Încărcarea Datelor Structurate Complexe folosind Pig
  • Optimizarea Pig
  • Laborator: scripturi avansate în Pig, parsarea tipurilor de date complexe

Secțiunea 3: Hive Avansat

  • Funcții Definite de Utilizator
  • Tabele Comprimate
  • Optimizarea Performanței în Hive
  • Laborator: crearea tabelelor comprimate, evaluarea formatelor și configurațiilor tabelelor

Secțiunea 4: HBase Avansat

  • Modelare Avansată a Schemei
  • Compresie
  • Încărcarea Masivă a Datelor
  • Comparație Tabel Lat / Înalt
  • HBase și Pig
  • HBase și Hive
  • Optimizarea Performanței în HBase
  • Laborator: optimizarea HBase; accesarea datelor din HBase prin Pig & Hive; Utilizarea Phoenix pentru modelarea datelor

Cerințe

  • cunoașterea limbajului de programare Java (majoritatea exercițiilor de programare sunt în Java)
  • familiarizat cu mediul Linux (abilitatea de a naviga în linia de comandă Linux, de a edita fișiere folosind vi / nano)
  • cunoștințe de bază despre Hadoop.

Mediu de laborator

Instalare Zero: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite