Schița de curs
Secțiunea 1: Introducere în Hadoop
- Istoria și conceptele Hadoop
- ecosistem
- distribuții
- arhitectură la nivel ridicat
- miturile Hadoop
- provocările Hadoop
- hard ware / soft ware
- lab : primul contact cu Hadoop
Secțiunea 2: HDFS
- Dizain și arhitectură
- concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rackului)
- daemoni : Namenode, Secondary namenode, Data node
- comunicări / pulsuri de viață
- integritatea datelor
- calea de citire / scriere
- Namenode High Availability (HA), Federare
- labs : Interacțiune cu HDFS
Secțiunea 3 : Map Reduce
- concepte și arhitectură
- demoni (MRV1) : jobtracker / tasktracker
- faze : driver, mapper, shuffle/sort, reducer
- Map Reduce versiunea 1 și versiunea 2 (YARN)
- Aspecte interne ale Map Reduce
- Introducere în programul Java Map Reduce
- Laboratoare : Rularea unui exemplu de program MapReduce
Secțiunea 4 : Pig
- pig vs java map reduce
- fluxul de lucru pig
- limbajul latin pig
- ETL cu Pig
- Transformări și îmbinări
- Funcții definite de utilizator (UDF)
- laboratoare : scrierea de scripturi Pig pentru analiza datelor
Secțiunea 5: Hive
- arhitectură și design
- tipuri de date
- SQL suport în Hive
- Crearea de tabele Hive și interogarea
- partiții
- îmbinări
- prelucrarea textului
- laboratoare : diverse laboratoare privind prelucrarea datelor cu Hive
Secțiunea 6: HBase
- concepte și arhitectură
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Date de serie temporală pe HBase
- dizain schema
- labs : Interacțiune cu HBase folosind shell; programare în HBase Java API ; exercițiu de dizain schema
Cerințe
- să fie familiarizat cu Java limbaj de programare (majoritatea exercițiilor de programare sunt în java)
- să se simtă confortabil în mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)
Mediu de laborator
Nu este nevoie de instalare : Nu este necesar să instaleze software-ul Hadoop pe mașinile studenților! Un cluster funcțional Hadoop va fi furnizat pentru studenți.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
- un browser pentru accesarea clusterului, se recomandă Firefox
Mărturii (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay