Schița de curs
Secțiunea 1: Introducere în Hadoop
- Istoricul și conceptele Hadoop
- ecosistem
- distribuții
- arhitectură de nivel înalt
- mituri despre Hadoop
- provocări Hadoop
- hardware / software
- laborator: primul contact cu Hadoop
Secțiunea 2: HDFS
- Proiectare și arhitectură
- concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-urilor)
- Daemons: Namenode, Secondary namenode, Data node
- comunicări / heart-beats
- integritatea datelor
- calea de citire / scriere
- Namenode High Availability (HA), Federation
- laborator: Interacțiune cu HDFS
Secțiunea 3: Map Reduce
- concepte și arhitectură
- daemons (MRV1): jobtracker / tasktracker
- faze: driver, mapper, shuffle/sort, reducer
- Map Reduce Versiunea 1 și Versiunea 2 (YARN)
- Interiorul Map Reduce
- Introducere în programul Java Map Reduce
- laborator: Rularea unui program MapReduce de exemplu
Secțiunea 4: Pig
- pig vs java map reduce
- fluxul de lucru Pig
- limbajul Pig Latin
- ETL cu Pig
- Transformări & Îmbinări
- Funcții definite de utilizator (UDF)
- laborator: scrierea de scripturi Pig pentru analiza datelor
Secțiunea 5: Hive
- arhitectură și proiectare
- tipuri de date
- suport SQL în Hive
- Crearea de tabele Hive și interogare
- partiții
- îmbinări
- procesarea textului
- laborator: diverse exerciții de procesare a datelor cu Hive
Secțiunea 6: HBase
- concepte și arhitectură
- HBase vs RDBMS vs Cassandra
- API Java HBase
- Date de tip serie temporală în HBase
- proiectarea schemei
- laborator: Interacțiune cu HBase folosind shell; programare în API Java HBase; Exercițiu de proiectare a schemei
Cerințe
- cunoștințe solide ale limbajului de programare Java (majoritatea exercițiilor de programare sunt în Java)
- familiarizat cu mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)
Mediu de laborator
Zero Install : Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
- un browser pentru a accesa clusterul, se recomandă Firefox
Mărturii (5)
Exemplele live
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
Tradus de catre o masina
În timpul exercițiilor, James mi-a explicat fiecare pas în detaliu de ori câteori m-am blocat. Eram complet nou în ceea ce privește NIFI. El mi-a clarificat scopul real al NIFI, inclusiv noțiunile de bază precum open source. A acoperit toate conceptele Nifi, începând de la nivelul de începător până la nivelul de dezvoltator.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Că l-am avut în primul rând.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
Tradus de catre o masina
aspecte practice de lucru, precum și teoria au fost prezentate bine de Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curs - Hadoop Administration on MapR
Tradus de catre o masina
Măsimă întemeiat de VM Profesorul a fost foarte bine informat despre subiect și alte subiecte, a fost foarte prietenos și amabil Mi-a plăcut facilitatea din Dubai.
Safar Alqahtani - Elm Information Security
Curs - Big Data Analytics in Health
Tradus de catre o masina